首页 » PHP笔记 » 火车头采集器如何获取url里面的参数

火车头采集器如何获取url里面的参数

高蒙 2015/12/17 21:47 3.8k浏览 0评论 火车头采集器


今天在用火车头采集数据的时候,遇到了一个新的问题。就是我要采集的数据,在目标的url里面。比如说,我要采集目标网站的url上面的get传值参数。

那么,我们该怎么用火车头去采集呢,这里我们就来说说用火车头怎么的去操作,获取到url里面的参数值。 

下面分享我的一个案例:
 
目标网站:某网站。
 
采集类型:通过搜索页,抓取网站的数据。
 
一、第一步,通过其他手段,获取到行业内的关键词。
 
二、第二步,组装搜索的链接地址。
 
   例如:

  < li > http://网址/&abc=1  < / li >   (自定义参数)
 
三、第三步,将组装的所有链接写入到html文件中。
 
接下来就是在火车头里面的具体操作了。
 
1.jpg
 
二、获取网址 分页的网址和内容页网址。
 
1.jpg
 
1.jpg
 
三、自定义参数的获取。
 
1.jpg
 
1.jpg
 
1.jpg
 
注意,我所采集的站点,列表页与内容页的编码是不一样的,所以在采集的时候,要分别一个一个的去采集数据。并且采集相应的数据时,编码也要调整成一致的。
 
以上,就是火车头采集url自带参数的采集全过程。相信你已经会了。



相关文章

我有话说

站长昵称:(*)

输入内容:

选个头像:

评论列表

    ...

    高蒙

    男, PHP程序猿

    文章

    484

    标签

    41

    热度

    10w+

    南京, 江苏, 中国

    人生要是没有理想, 那跟咸鱼有什么分别。