Python 分析电影《南方车站的聚会》，看一下这部电影究竟在讲些哪些？

2020-12-18 23:26:00LanceLee数据爬虫224

- N +

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

本文来自腾讯云，作者：Python小二

《南方车站的聚会》由刁亦男执导，主要演员包括：胡歌、桂纶镁、廖凡、万茜等，该片于 2019 年 5 月 18 在戛纳电影节首映，2019 年 12 月 6 日在中国正式上映。故事灵感来自真实新闻事件，主要讲述盗窃团伙头目周泽农（胡歌饰），在重金悬赏下走上逃亡之路，艰难寻求自我救赎的故事。

影片上映了一周多，票房接近 2 亿，作为一部文艺片，这个表现应该算是属于中上水平了。下面打开豆瓣：https://movie.douban.com/subject/27668250/，看一下评分情况，如下图所示：

我们先在手机号/邮箱和密码输入框处随意输入（不要输入正确的用户名和密码），再按 F12 键打开开发者工具，最后点击登录豆瓣按钮，结果如图所示：

我们点击上面图中所示 basic 项，点击后结果如图所示：

所需要的东西都找好了，接下来就是具体实现了，豆瓣登录和影评数据爬取的具体实现如下所示：

import requests
import time
import random
from lxml import etree
import csv

# 新建 csv 文件
csvfile = open('南方车站的聚会.csv','w',encoding='utf-8',newline='')
writer = csv.writer(csvfile)
# 表头
writer.writerow(['时间','星级','评论内容'])

def spider():
    url = 'https://accounts.douban.com/j/mobile/login/basic'
    headers = {"User-Agent": 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'}
    comment_url = 'https://movie.douban.com/subject/27668250/comments?start=%d&limit=20&sort=new_score&status=P'
    data = {
        'ck': '',
        'name': '自己的用户名',
        'password': '自己的密码',
        'remember': 'false',
        'ticket': ''
    }
    session = requests.session()
    session.post(url=url, headers=headers, data=data)
    # 总共 500 条	，每页 20 条
    for i in range(0, 500, 20):
        # 获取 HTML
        data = session.get(comment_url % i, headers=headers)
        print('第', i, '页', '状态码：', data.status_code)
        # 暂停 0-1 秒
        time.sleep(random.random())
        # 解析 HTML
        selector = etree.HTML(data.text)
        # 获取当前页所有评论
        comments = selector.xpath('//div[@class="comment"]')
        # 遍历所有评论
        for comment in comments:
            # 获取星级
            star = comment.xpath('.//h3/span[2]/span[2]/@class')[0][7]
            # 获取时间
            t = comment.xpath('.//h3/span[2]/span[3]/text()')
            # 获取评论内容
            content = comment.xpath('.//p/span/text()')[0].strip()
            # 排除时间为空的项
            if len(t) != 0:
                t = t[0].strip()
                writer.writerow([t, star, content])

接下来我们通过词云直观的来展示下整体评论情况，具体实现如下所示：

import csv
import jieba
from wordcloud import WordCloud
import numpy as np
from PIL import Image

# jieba 分词处理
def jieba_():
    csv_list = csv.reader(open('南方车站的聚会.csv', 'r', encoding='utf-8'))
    print('csv_list',csv_list)
    comments = ''
    for i,line in enumerate(csv_list):
        if i != 0:
            comment = line[2]
            comments += comment
    print("comment-->",comments)
    # jieba 分词
    words = jieba.cut(comments)
    new_words = []
    # 要排除的词
    remove_words = ['以及', '在于', '一些', '一场', '只有',
                    '不过', '东西', '场景', '所有', '这么',
                    '但是', '全片', '之前', '一部', '一个',
                    '作为', '虽然', '一切', '怎么', '表现',
                    '人物', '没有', '不是', '一种', '个人'
                    '如果', '之后', '出来', '开始', '就是',
                    '电影', '还是', '不是', '武汉', '镜头']
    for word in words:
        if word not in remove_words:
            new_words.append(word)
    global word_cloud
    # 用逗号分隔词语
    word_cloud = '，'.join(new_words)

# 生成词云
def world_cloud():
    # 背景图
    cloud_mask = np.array(Image.open('bg.jpg'))
    wc = WordCloud(
        # 背景图分割颜色
        background_color='white',
        # 背景图样
        mask=cloud_mask,
        # 显示最大词数
        max_words=600,
        # 显示中文
        font_path='./fonts/simhei.ttf',
        # 字的尺寸限制
        min_font_size=20,
        max_font_size=100,
        margin=5
    )
    global word_cloud
    x = wc.generate(word_cloud)
    # 生成词云图片
    image = x.to_image()
    # 展示词云图片
    image.show()
    # 保存词云图片
    wc.to_file('wc.png')

整体评论词云图

因为有人说了影片口碑两级分化，接下来我们看一下打 1 星和 5 星的词云效果如何，主要实现如下所示：

for i,line in enumerate(csv_list):
    if i != 0:
        star = line[1]
        comment = line[2]
        # 一星评论用 1，五星评论用 5
        if star == '1':
            comments += comment

一星评论词云图

五星评论词云图

上面我们只使用了评论内容信息，还有时间和星级信息没有使用，最后我们可以用这两项数据分析下随着时间的变化影片星级的波动情况，以月为单位统计影片从首映（2019 年 5 月）到当前时间（2019 年 12月）的星级波动情况，具体实现如下所示：

import csv
from pyecharts.charts import Line
import pyecharts.options as opts
import numpy as np
from datetime import datetime

def score():
    csv_list = csv.reader(open('南方车站的聚会.csv', 'r', encoding='utf-8'))
    print('csv_list', csv_list)
    comments = ''
    ts = []
    ss = set()
    for i, line in enumerate(csv_list):
        if i != 0:
            t = line[0][0:7]
            s = line[1]
            ts.append(t+':'+s)
            ss.add(t)
    new_times = []
    new_starts = []
    new_ss = []
    for i in ss:
        new_ss.append(i)
    arr = np.array(new_ss)
    new_ss = arr[np.argsort([datetime.strptime(i, '%Y-%m') for i in np.array(new_ss)])].tolist()
    print('new_ss',new_ss)
    for i in new_ss:
        x = 0
        y = 0
        z = 0
        for j in ts:
            t = j.split(':')[0]
            s = int(j.split(':')[1])
            if i == t:
                x += s
                z += 1
        new_times.append(i)
        new_starts.append(round(x / z, 1))
    c = (
            Line()
           .add_xaxis(new_times)
           .add_yaxis('南方车站的聚会',new_starts)
            .set_global_opts(title_opts=opts.TitleOpts(title='豆瓣星级波动图'))
        ).render()

影片星级波动效果如下图所示

根据影片星级的波动情况我们也能大致预测到影片评分的波动情况。

文章来源于网络，如有侵权请联系站长QQ61910465删除

本文版权归去快排Seo www.SEOgurublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▷61910465