php正则表达式如何过滤HTML标签?
是这样的,我想在PHP语言里面用正则表达式过滤HTML标签,只取里面的汉子,请问这应该怎样操作?
比如下面的代码:
<div><a class="a1" href="https://ask.semdb.com/tag/BTbi.html" target="_blank">BT币</a><a class="a2" href="https://ask.semdb.com/tag/pingtaibi.html" target="_blank">平台币</a><a class="a3" href="https://ask.semdb.com/tag/zhinengxiaochengxu.html" target="_blank">智能小程序</a><a class="a4" href="https://ask.semdb.com/tag/baiduxiaochengxu.html" target="_blank">百度小程序</a><a class="a5" href="https://ask.semdb.com/tag/iDrive.html" target="_blank">iDrive</a><a class="a6" href="https://ask.semdb.com/tag/carplayditu.html" target="_blank">carplay地图</a><a class="a1" href="https://ask.semdb.com/tag/baoma3xi.html" target="_blank">宝马3系</a><a class="a2" href="https://ask.semdb.com/tag/carplay.html" target="_blank">carplay</a><a class="a3" href="https://ask.semdb.com/tag/baomacarplay.html" target="_blank">宝马carplay</a><a class="a4" href="https://ask.semdb.com/tag/pingguocarplay.html" target="_blank">苹果carplay</a><a class="a5" href="https://ask.semdb.com/tag/jiankangwangzhandaquan.html" target="_blank">健康网站大全</a><a class="a6" href="https://ask.semdb.com/tag/yonghutiyansheji.html" target="_blank">用户体验设计</a><a class="a1" href="https://ask.semdb.com/tag/quyuyingxiao.html" target="_blank">区域营销</a><a class="a2" href="https://ask.semdb.com/tag/chanpinmulusheji.html" target="_blank">产品目录设计</a><a class="a3" href="https://ask.semdb.com/tag/cilisousuo.html" target="_blank">磁力搜索</a><a class="a4" href="https://ask.semdb.com/tag/wangzhantuiguangjihua.html" target="_blank">网站推广计划</a><a class="a5" href="https://ask.semdb.com/tag/wangzhanjiazhi.html" target="_blank">网站价值</a><a class="a6" href="https://ask.semdb.com/tag/shafakewangzhan.html" target="_blank">沙发客网站</a></div>
我想过滤掉所有的HTML标签,只取里面的关键词,并把这些关键词依次写入数组,请问这样的正则表达式在PHP语言里面应该怎样写?
其实,无论是采集文章还是提取关键词,在PHP里面用正则表达式其实都是可以做得到的,有两个思路可以给你参考一下:
第一步,是找出规律,写一个正则表达式,先把这些写入到一个数组里面。
php代码如下:
$urlpregzuijia = '/.*?.*?<\/a>.*?<\/div>/s';
preg_match_all($urlpregzuijia,$contents, $urlalltxt, PREG_SET_ORDER);
$urlallone=array(); $arrcileng = count($urlalltxt)-1;
96人赞
添加讨论(1)
回答
举报
下面有两种方法可以提取出关键词:
第一种方法是过滤掉所有的HTML标签和空格的正则表达式,代码如下:
第二种方法就是,直接从里面提取中文字符,php正则表达式如下:
看看是不是很简单?万能的正则表达式在php里面几乎可以帮你搞定一切疑难杂症。