序言
猫眼电影是淘宝网协同打造出电影分类最齐的影片的服务平台,可以第一时间告之客户 ,新上映的电影发布時间 。今日教大伙儿获取猫眼电影的将要上映的电影详细信息 。
项目目标
获取猫眼电影的将要上映的电影详细信息。
新项目提前准备
手机软件:PyCharm
必须的库:requests、lxml 、random 、time
软件:Xpath
网址以下:
https://maoyan.com/films?showType=2&offset={}
点一下下一页的按键 ,观查到网址的转变各自以下:
https://maoyan.com/films?showType=2&offset=30
https://maoyan.com/films?showType=2&offset=60
https://maoyan.com/films?showType=2&offset=90
点一下下一页时,网页页面每提升一页offset=()每一次提升30,因此可以用{}替代转换的自变量 ,再用for循环解析xml这网站地址,完成好几个网站地址恳求。
新项目完成
1、界定一个class类承继object,界定init方式承继self ,主函数main承继self 。导进必须的库和网站地址,编码以下所显示。
import requests
from lxml import etree
import time
import random
class MaoyanSpider(object):
def __init__(self):
self.url = "https://maoyan.com/films?showType=2&offset={}"
def main(self):
pass
if __name__ == '__main__':
spider = MaoyanSpider()
spider.main()
2、任意造成UserAgent。
for i in range(1, 50):
# ua.random,一定要写在这儿,每一次恳求都是任意挑选 。
self.headers = {
'User-Agent': ua.random,
}
3 、推送恳求,获取网页页面回应。
def get_page(self, url):
# random.choice一定要写在这儿,每一次恳求都是任意挑选
res = requests.get(url, headers=self.headers)
res.encoding = 'utf-8'
html = res.text
self.parse_page(html)
4、xpath分析一级网页页面数据信息 ,获取网页页面信息内容。
1)标准xpath连接点目标目录 。
# 建立分析目标
parse_html = etree.HTML(html)
# 标准xpath连接点目标目录
dd_list = parse_html.xpath('//dl[@class="movie-list"]//dd')
2)先后解析xml每一个连接点目标,获取数据信息。
for dd in dd_list:
name = dd.xpath('.//div[@class="movie-hover-title"]//span[@class="name noscore"]/text()')[0].strip()
star = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][3]/text()')[1].strip()
type = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][2]/text()')[1].strip()
dowld=dd.xpath('.//div[@class="movie-item-hover"]/a/@href')[0].strip()
# print(movie_dict)
movie = '''【新片上映】
5、界定movie,储存复印数据信息。
movie = '''【新片上映】
电影名字: %s
出演:%s
种类:%s
详细信息连接:https://maoyan.com%s
=========================================================
''' % (name, star, type,dowld)
print( movie)
6 、random.randint()方式 ,设置时间廷时 。
time.sleep(random.randint(1, 3))
7、启用方式,完成作用。
html = self.get_page(url)self.parse_page(html)
实际效果展现
1、点一下翠绿色小三角运作键入起始页,停止页。
2 、运作程序流程后 ,数据显示在控制面板 ,如下图所显示 。
3、点一下深蓝色下载地址, 互联网查看更多 。
文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,著作权归著作人全部,如不太好请立即在线留言以作解决。
创作者:Python升阶者
文章来源于网络,如有侵权请联系站长QQ61910465删除本文版权归趣快排营销www.seoguRubloG.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系✚Qq61910465