采集规则之内容分页

sunbet站越来越喜欢内容分页了,这个是提升pv的有效手段,虽然**

遇到这种站点如何采集呢?菲律宾sunber官网以元尊sunbet网为例介绍!

https://www.yuanzun.cc/go/41652/13461822.html

采集内容分页的原理就是找到章节分页标识,下图的这个就是章节分页标识了

下一页所对应的链接就是当前章节的分页标识,查看源代码,找到如下

<p class="text-center">
<a id="linkPrev" class="btn btn-default" href="none">上一章</a>
<a id="linkIndex" class="btn btn-default" href="none">章节目录</a>
<a id="linkNext" class="btn btn-default" href="none">下一页</a>
</p>

在这段代码当中,https://www.yuanzun.cc/go/41652/13461822_2.html就是菲律宾sunber官网要获取的分页标识
这个对应的正则就是

<a id="linkNext" class="btn btn-default" href="?doc/(https://www.yuanzun.cc/go/\d+/\d+_\d+.html)">下一页</a>

填写进去在测试是不是就ok了?

完成后的章节部分规则如下

提醒

一、一般开启内容分页的站点内容页有点不同,结束标签不一样,比如这个站点<p class="text-danger text-center">本章未完,点击下一页继续阅读</p>前面页面有而分页最后一页没有,一定不要写错末尾标签否则取不到最后一页内容


联系菲律宾sunber官网
qq
QQ:www.00jbs.com
weixin
电报:@菲律宾sunber
email
邮件:support#ptcms.com
address
地址:北京中关村车库咖啡
Copyright 2009 - 2014 www.00jbs.com|菲律宾sunber官网下载 All Right Reserved。www.00jbs.com