《零基础:21天搞定Python分布爬虫》练习-古诗文网

 python   高蒙   阅读(48)   评论(0)   2019-04-01 16:09:03     


import requests
import re



def main():
    url = 'https://www.gushiwen.org/default_1.aspx'

    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
        "cookie": "__guid=190620973.2922957719409206000.1553671750334.9504; ASP.NET_SessionId=l1ugsscdi2zmj5ku1ggy0kkx; Hm_lvt_04660099568f561a75456483228a9516=1553671752,1553673935; monitor_count=4; Hm_lpvt_04660099568f561a75456483228a9516=1553673958",
        "referer": "https://www.gushiwen.org/default_2.aspx",
    }

    res = requests.get(url, headers=headers)
    text = res.text
    # print(text)
    titles = re.findall("<b>(.*)<\/b>",text)
    #print('标题-',','.join(titles))
    chaodai = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)
    #print('朝代-',','.join(chaodai))
    author = re.findall(r'<p class="source">.*?<a.*?>.*?</a>.*?<span>.*?</span>.*?<a.*?>(.*?)</a>.*?</p>',text,re.DOTALL)
    #print('作者-',','.join(author))
    contens = re.findall(r'<div class="contson" id=".*?">(.*?)</div>',text,re.DOTALL)
    # for i in contens:
    #     print('内容-', i)
    infos= []

    # for i in range(0,len(titles)):
    #     val = {
    #         'title':titles[i],
    #         'chaodai':chaodai[i],
    #         'author':author[i],
    #         'contens':contens[i],
    #     }
    #     infos.append(val)

    for i in zip(titles,chaodai,author,contens):
        titles,chaodai,author,contens = i
        val = {
            'title':titles,
            'chaodai':chaodai,
            'author':author,
            'contens':contens,
        }
        infos.append(val)
    print(infos)



if __name__ == '__main__':
    main()





相关文章



我要评论


站长昵称:(*)

输入内容:


评论列表


高蒙

男,程序猿一枚

 

人生要是没有理想, 那跟一条咸鱼有什么分别。


关于我

  http://www.shuchengxian.com

高蒙个人博客是以PHP技术为主的程序员个人博客。博客主要发布php开发中遇到的问题以及解决办法,同时个人博客也分享网站模板素材,jquery插件等方面素材。


站点声明:相关侵权、举报、投诉及建议等,请发E-mail:936594075#qq.com(#替换成@)。

Copyright © 2018, www.shuchengxian.com, All rights reserved. 个人博客皖公网安备 34152302000022号 皖ICP备15015490号

关键词:个人博客,PHP博客,PHP博客程序,高蒙博客,高蒙个人博客,php程序员博客,程序员个人博客