电影院要开工了，用Python看一看最近有什么刚上映的电影

2020-07-26 11:10:30LanceLee数据爬虫833

- N +

序言

猫眼电影是淘宝网协同打造出电影分类最齐的影片的服务平台，可以第一时间告之客户，新上映的电影发布時间。今日教大伙儿获取猫眼电影的将要上映的电影详细信息。

项目目标

获取猫眼电影的将要上映的电影详细信息。

新项目提前准备

手机软件：PyCharm

必须的库：requests、lxml 、random 、time

软件：Xpath

网址以下：

https://maoyan.com/films?showType=2&offset={}

点一下下一页的按键，观查到网址的转变各自以下：

https://maoyan.com/films?showType=2&offset=30
https://maoyan.com/films?showType=2&offset=60
https://maoyan.com/films?showType=2&offset=90

点一下下一页时，网页页面每提升一页offset=()每一次提升30，因此可以用{}替代转换的自变量，再用for循环解析xml这网站地址，完成好几个网站地址恳求。

新项目完成

1、界定一个class类承继object，界定init方式承继self ，主函数main承继self 。导进必须的库和网站地址，编码以下所显示。

import requests
from lxml import etree

import time
import random

class MaoyanSpider(object):
def __init__(self):
self.url = "https://maoyan.com/films?showType=2&offset={}"

def main(self):
 pass

if __name__ == '__main__':
 spider = MaoyanSpider()
 spider.main()

2、任意造成UserAgent。

 for i in range(1, 50):
 # ua.random,一定要写在这儿,每一次恳求都是任意挑选 。
 self.headers = {
'User-Agent': ua.random,
 }

3 、推送恳求，获取网页页面回应。

def get_page(self, url):
# random.choice一定要写在这儿,每一次恳求都是任意挑选
 res = requests.get(url, headers=self.headers)
 res.encoding = 'utf-8'
 html = res.text
 self.parse_page(html)

4、xpath分析一级网页页面数据信息，获取网页页面信息内容。

1）标准xpath连接点目标目录。

 # 　建立分析目标
parse_html = etree.HTML(html)
# 标准xpath连接点目标目录
dd_list = parse_html.xpath('//dl[@class="movie-list"]//dd')

2）先后解析xml每一个连接点目标，获取数据信息。

 for dd in dd_list:
 name = dd.xpath('.//div[@class="movie-hover-title"]//span[@class="name noscore"]/text()')[0].strip()
 star = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][3]/text()')[1].strip()
 type = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][2]/text()')[1].strip()
 dowld=dd.xpath('.//div[@class="movie-item-hover"]/a/@href')[0].strip()
# print(movie_dict)
 movie = '''【新片上映】

5、界定movie，储存复印数据信息。

movie = '''【新片上映】
 
电影名字: %s

出演：%s

种类：%s
详细信息连接：https://maoyan.com%s
=========================================================
 ''' % (name, star, type,dowld)
print( movie)

6 、random.randint()方式，设置时间廷时。

time.sleep(random.randint(1, 3))

7、启用方式，完成作用。

html = self.get_page(url)self.parse_page(html)

实际效果展现

1、点一下翠绿色小三角运作键入起始页，停止页。