《零基础:21天搞定Python分布爬虫》练习-豆瓣电影

 python   高蒙   阅读(226)   评论(0)   2019-04-01 16:10:07     


import requests
from lxml import etree

urls = 'https://movie.douban.com/cinema/nowplaying/nanjing/'

headers = {
    'Referer':'https://movie.douban.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
    'Cookie':'bid=eEwv4CXjoeY; douban-fav-remind=1; ll="118159"; __guid=223695111.2907460712908275700.1548744886767.2432; __utma=30149280.1843587447.1540876238.1545121094.1548744887.4; __utmc=30149280; __utmz=30149280.1548744887.4.4.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmt=1; __utmb=30149280.1.10.1548744887; __utma=223695111.832830854.1548744888.1548744888.1548744888.1; __utmb=223695111.0.10.1548744888; __utmc=223695111; __utmz=223695111.1548744888.1.1.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1548744888%2C%22https%3A%2F%2Fwww.douban.com%2F%22%5D; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __yadk_uid=ZyTfra6JpuQIV2Q7kT82bQ47f739VpTY; _vwo_uuid_v2=D2780E6E95A0E4DD0FED6E73401386BE4|3950d065dc72b25fccd4ac35a1170fb2; monitor_count=2; _pk_id.100001.4cf6=13a884044648caa5.1548744888.1.1548744915.1548744888.',
}

response = requests.get(urls,headers=headers)
text = response.text

# print(response.text)
# print(response.content.decode('utf-8'))

html = etree.HTML(text)
# print(html)

ul = html.xpath("//ul[@class='lists']")[0]
# print(ul)
# print(etree.tostring(ul,encoding='utf-8').decode('utf-8'))
lis = ul.xpath("./li")
movies = []
for li in lis:
    id = li.xpath("@id")
    title = li.xpath("@data-title")
    score = li.xpath("@data-score")
    duration = li.xpath("@data-duration")
    actors = li.xpath("@data-actors")
    region = li.xpath("@data-region")
    release = li.xpath("@data-release")
    url = li.xpath(".//ul/li[1]/a/@href")
    thumb = li.xpath("./ul/li[1]/a/img/@src")

    data = {
        'id':id,
        'title':title,
        'url':url,
        'thumb':thumb,
        'score':score,
        'actors':actors,
        'region':region,
        'duration':duration,
        'release':release,
    }
    movies.append(data)
    # print(etree.tostring(li,encoding='utf-8').decode('utf-8'))

print(movies)





if __name__ == '__main__':
    pass





相关文章



我要评论


站长昵称:(*)

输入内容:


评论列表


高蒙

男,程序猿一枚

 

人生要是没有理想, 那跟一条咸鱼有什么分别。


关于我

  http://www.shuchengxian.com

高蒙个人博客是以PHP技术为主的程序员个人博客。博客主要发布php开发中遇到的问题以及解决办法,同时个人博客也分享网站模板素材,jquery插件等方面素材。


站点声明:相关侵权、举报、投诉及建议等,请发E-mail:936594075#qq.com(#替换成@)。

Copyright © 2018, www.shuchengxian.com, All rights reserved. 个人博客皖公网安备 34152302000022号 皖ICP备15015490号

关键词:个人博客,PHP博客,PHP博客程序,高蒙博客,高蒙个人博客,php程序员博客,程序员个人博客