火车头采集器如何采集列表页的分页

 火车头采集器   高蒙   阅读(4532)   评论(0)   2015-11-25 22:32:08    火车头 火车头采集器 


当我们做程序员的时间做长了,就都会想自己做点什么,不管是博客或者门户资讯等方面的。首先摆在我们面前就是数据的问题。

现在都在说什么大数据时代的到来,所以,作为大数据时代的一份子,怎么能不会去搞大数据呢。说破了,就是我们自己去采集合适的数据,做自己想要的东西而已。

在这里,我讲分几篇,分别讲解火车头采集器一些重要的,日常用的最多的方法。

 

废话不多说,下面是我在采集列表分页时的总结。我将以一个实例进行分析:

 

第一、分页的样式。

 

当我们打开别人的列表页的时候,首先第一步是分析别人分页样式是怎么书写的,也好方面我们写采集规则。

 

如图:

003ujUM9gy6W5wu3A6410&690.png

 

第二、查看源代码,分析分页样式中唯一的html标签。

 

代码如下:

 

<!-- pagination --><a href="/">首页</a><!--<a href='javascript:'><上一页</a>--><a  class="h-aa2" style='background-color:#6cb552;color:#FFFFFF;'>1</a><a href="/">3</a><a href="/">3</a>...<a href="/">下一页 ></a><!-- end pagination --><a href="/">末页</a><!--//p_pagediv-->

我们可以轻松的找出,

<!-- pagination --> 为 开始 下一页 结束

这里最重要的是,下一页一定是结束的标记,如果你选择的是末页的话,那么只能够采集到20页的内容,楼主亲测。

火车头规则如图:

003ujUM9gy6WW72335q04&amp.jpg

 

根据上面的步骤,相信火车头采集列表页的分页你已经掌握了。

 




相关文章



我要评论


站长昵称:(*)

输入内容:


评论列表


高蒙

男,程序猿一枚

 

人生要是没有理想, 那跟一条咸鱼有什么分别。


关于我

  http://www.shuchengxian.com

高蒙个人博客是以PHP技术为主的程序员个人博客。博客主要发布php开发中遇到的问题以及解决办法,同时个人博客也分享网站模板素材,jquery插件等方面素材。


站点声明:相关侵权、举报、投诉及建议等,请发E-mail:936594075#qq.com(#替换成@)。

Copyright © 2018, www.shuchengxian.com, All rights reserved. 个人博客皖公网安备 34152302000022号 皖ICP备15015490号

关键词:个人博客,PHP博客,PHP博客程序,高蒙博客,高蒙个人博客,php程序员博客,程序员个人博客