首页 » PHP笔记 » 火车头采集器如何采集列表页的分页

火车头采集器如何采集列表页的分页

高蒙 2015/11/25 22:32 5.5k浏览 0评论 火车头采集器


当我们做程序员的时间做长了,就都会想自己做点什么,不管是博客或者门户资讯等方面的。首先摆在我们面前就是数据的问题。

现在都在说什么大数据时代的到来,所以,作为大数据时代的一份子,怎么能不会去搞大数据呢。说破了,就是我们自己去采集合适的数据,做自己想要的东西而已。

在这里,我讲分几篇,分别讲解火车头采集器一些重要的,日常用的最多的方法。

 

废话不多说,下面是我在采集列表分页时的总结。我将以一个实例进行分析:

 

第一、分页的样式。

 

当我们打开别人的列表页的时候,首先第一步是分析别人分页样式是怎么书写的,也好方面我们写采集规则。

 

如图:

003ujUM9gy6W5wu3A6410&690.png

 

第二、查看源代码,分析分页样式中唯一的html标签。

 

代码如下:

 

<!-- pagination --><a href="/">首页</a><!--<a href='javascript:'><上一页</a>--><a  class="h-aa2" style='background-color:#6cb552;color:#FFFFFF;'>1</a><a href="/">3</a><a href="/">3</a>...<a href="/">下一页 ></a><!-- end pagination --><a href="/">末页</a><!--//p_pagediv-->

我们可以轻松的找出,

<!-- pagination --> 为 开始 下一页 结束

这里最重要的是,下一页一定是结束的标记,如果你选择的是末页的话,那么只能够采集到20页的内容,楼主亲测。

火车头规则如图:

003ujUM9gy6WW72335q04&amp.jpg

 

根据上面的步骤,相信火车头采集列表页的分页你已经掌握了。

 




相关文章

我有话说

站长昵称:(*)

输入内容:

选个头像:

评论列表

    ...

    高蒙

    男, PHP程序猿

    文章

    487

    标签

    42

    热度

    10w+

    南京, 江苏, 中国

    人生要是没有理想, 那跟咸鱼有什么分别。