序言

猫眼电影是淘宝网协同打造出电影分类最齐的影片的服务平台,可以第一时间告之客户 ,新上映的电影发布時间 。今日教大伙儿获取猫眼电影的将要上映的电影详细信息 。

 

项目目标

获取猫眼电影的将要上映的电影详细信息。

 

新项目提前准备

手机软件:PyCharm

必须的库:requests、lxml 、random 、time

软件:Xpath

网址以下:

https://maoyan.com/films?showType=2&offset={}

点一下下一页的按键 ,观查到网址的转变各自以下:

https://maoyan.com/films?showType=2&offset=30
https://maoyan.com/films?showType=2&offset=60
https://maoyan.com/films?showType=2&offset=90

点一下下一页时,网页页面每提升一页offset=()每一次提升30,因此可以用{}替代转换的自变量 ,再用for循环解析xml这网站地址,完成好几个网站地址恳求。

新项目完成

1、界定一个class类承继object,界定init方式承继self ,主函数main承继self 。导进必须的库和网站地址,编码以下所显示。

import requests
from lxml import etree

import time
import random

class MaoyanSpider(object):
def __init__(self):
self.url = "https://maoyan.com/films?showType=2&offset={}"

def main(self):
pass

if __name__ == '__main__':
spider = MaoyanSpider()
spider.main()

2、任意造成UserAgent。

for i in range(1, 50):
# ua.random,一定要写在这儿,每一次恳求都是任意挑选 。
self.headers = {
'User-Agent': ua.random,
}

3 、推送恳求,获取网页页面回应。

def get_page(self, url):
# random.choice一定要写在这儿,每一次恳求都是任意挑选
res = requests.get(url, headers=self.headers)
res.encoding = 'utf-8'
html = res.text
self.parse_page(html)

4、xpath分析一级网页页面数据信息 ,获取网页页面信息内容。

1)标准xpath连接点目标目录 。

#  建立分析目标
parse_html = etree.HTML(html)
# 标准xpath连接点目标目录
dd_list = parse_html.xpath('//dl[@class="movie-list"]//dd')

2)先后解析xml每一个连接点目标,获取数据信息。

for dd in dd_list:
name = dd.xpath('.//div[@class="movie-hover-title"]//span[@class="name noscore"]/text()')[0].strip()
star = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][3]/text()')[1].strip()
type = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][2]/text()')[1].strip()
dowld=dd.xpath('.//div[@class="movie-item-hover"]/a/@href')[0].strip()
# print(movie_dict)
movie = '''【新片上映】

5、界定movie,储存复印数据信息。

movie = '''【新片上映】

电影名字: %s

出演:%s

种类:%s
详细信息连接:https://maoyan.com%s
=========================================================
''' % (name, star, type,dowld)
print( movie)

6 、random.randint()方式 ,设置时间廷时 。

time.sleep(random.randint(1, 3))

7、启用方式,完成作用。

html = self.get_page(url)self.parse_page(html)

实际效果展现

1、点一下翠绿色小三角运作键入起始页,停止页。

 

2 、运作程序流程后 ,数据显示在控制面板 ,如下图所显示 。

 

3、点一下深蓝色下载地址, 互联网查看更多 。

 

文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,著作权归著作人全部,如不太好请立即在线留言以作解决。

创作者:Python升阶者

文章来源于网络,如有侵权请联系站长QQ61910465删除
本文版权归趣快排营销www.seoguRubloG.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系✚Qq61910465