«

小计一个正则匹配提取实例之从网页中提取所有域内链接

时间:2017-4-22 21:27     作者:admin     分类: 技术文章


比如某个网站包含如下的内容:


<select name="select7" class="textbox" style="width: 200px;" onchange="MM_jumpMenu('parent',this,0)">
          <option selected="selected">---------〖校内机构〗---------</option>
          <option>————管理机构————</option>
          <option value="/dzbgs/">党政办公室</option>
          <option value="/xcb/">党委组织宣传部</option>
          <option value="/rsc/">人事处</option>
          <option value="/jwc/">教务处</option>
          <option value="/xsc/">学生处(党委学工部)</option>
          <option value="/zsxx/">招生办公室</option>
          <option value="/jyb/">就业指导办公室</option>
          <option value="/cwc/">财务处</option>
          <option value="/zcc/">资产管理处</option>
                    <option value="/wsc/">国际合作交流处</option>
          <option value="/kyc/">科研处</option>
          <option value="/dds/">督导室</option>
          <option value="/zlpg/">质量监控与评估中心</option>
          <option value="/bwc/">保卫处(武装部、安全稳定办公室)</option>
          <option value="/hq/">后勤服务公司</option>

          <option>————教学机构————</option>
          <option value="/yyyyxy/">英语语院</option>
                              <option value="/dfyyyxy/">东方语学院</option>
                    <option value="/yayyxy/">西方语学院</option>
                    <option value="/gjsxy/">国际商学院</option>
          <option value="/gjwhjlxy/">文学与新闻传播学院</option>
          <option value="/gsgl/">管理学院</option>
          <option value="/ysxy/">艺术学院</option>
          <option value="/yyxy/">音乐学院</option>
          <option value="/szjyb/">思想政治理论教研部</option>
                 <option value="/tyb/">体育部</option>
                                     <option value="/jxjyxy/">继续教育学院</option>

          <option>————教辅机构————</option>
          <option value="/tsg/">图书馆</option>
          <option value="/net/">现代教育技术中心</option>

           <option>————教辅机构————</option>
          <option value="/gh/">工会</option>
          <option value="/tw/">团委</option>
        </select>

我们要提取你面的所有的内域的网址,就是value后面的值:"/tw/",手工不说,最为原始的方法,体力活我们要尽量少干,正则走起啊!


使用正则提取两个双引号之间的内容,正则表达式很简单:

/(.*)[A-Z-a-z]/


Mrxn_20170422_213938.png

这样我们提取出来了,可是没有加上域名啊,如何是好?答案就是继续正则啊,骚男不要犹豫,对于网页内内容,没有正则提取不了的(先吹个牛逼-_-|hh ):

(.?^/)


Mrxn_20170422_214045.png

直接批量替换每行的第一个斜杠为域名不就OK了,上图域名结尾少了个斜杠.别跳坑里了!效果如下,就好了,前前后不到一分钟搞定,收工,比我写这篇文章还快!

本来不想写的,这么久了没发文章,手痒痒,凑个数!仅当笔记.


http://www.xxxx.com/dzbgs/
http://www.xxxx.com/xcb/
http://www.xxxx.com/rsc/
http://www.xxxx.com/jwc/
http://www.xxxx.com/xsc/
http://www.xxxx.com/zsxx/
http://www.xxxx.com/jyb/
http://www.xxxx.com/cwc/
http://www.xxxx.com/zcc/
http://www.xxxx.com/wsc/
http://www.xxxx.com/kyc/
http://www.xxxx.com/dds/
http://www.xxxx.com/zlpg/
http://www.xxxx.com/bwc/
http://www.xxxx.com/hq/
http://www.xxxx.com/yyyyxy/
http://www.xxxx.com/dfyyyxy/
http://www.xxxx.com/yayyxy/
http://www.xxxx.com/gjsxy/
http://www.xxxx.com/gjwhjlxy/
http://www.xxxx.com/gsgl/
http://www.xxxx.com/ysxy/
http://www.xxxx.com/yyxy/
http://www.xxxx.com/szjyb/
http://www.xxxx.com/tyb/
http://www.xxxx.com/jxjyxy/
http://www.xxxx.com/tsg/
http://www.xxxx.com/net/
http://www.xxxx.com/gh/
http://www.xxxx.com/tw/

好了,牛逼吹完了,洗洗睡了.我们下回见,对于不懂得正则可以评论,我可以帮你试试哦!

PS: 牛逼的娃娃们不要乱搞,这是我测试项目的.谢谢!


标签: 代码 正则

版权所有:Mrxn's Blog
文章标题:小计一个正则匹配提取实例之从网页中提取所有域内链接
除非注明,文章均为 Mrxn's Blog 原创,请勿用于任何商业用途,转载请注明作者和出处 Mrxn's Blog

扫描二维码,在手机上阅读

推荐阅读: