文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决。

下列文章内容来源于小白学Python  ,创作者:小白哥

刚触碰Python的初学者 、新手 ,能够拷贝下边的连接去免费在线观看Python的基本新手入门课堂教学视频

https://v.douyu.com/author/y6AZ4jn9jwKW

 

 

序言

如今大伙儿的日常生活,早已愈来愈离不了B站了,今年的第一季度 ,B站月活跃性客户做到了1.72亿,日活跃性客户也早已提升了五千万个客户 。源源不绝的总流量让B站的up主们也是粉絲数量持续疯涨,百万粉丝的up主数不胜数 。

今日 ,我就领着大伙儿来抓取并剖析一下B站的最火视频排名榜,看一下大伙儿到底都喜爱看什么样子的视频~~

01.总榜信息爬取

针对总榜的抓取,大家抓取了总榜的前一百名视频的播放量 ,弹幕数量,及其视频的关注 、投币机、个人收藏和up主的粉絲数量等信息。

 

针对排名榜的播放量、弹幕数量和视频连接的网页爬虫,如下图所显示:

 

因为网页页面是静态页面 ,因此 我们可以立即选用requests要求的方法,来获得网页源代码,随后应用beautifulsoup来开展网页页面的分析 ,并爬取大家必须的信息。针对每一个网页页面的关注 、投币机、个人收藏和up主的粉絲数量 。

能够选用大家以前详细介绍的web scraper来开展爬取(厉害的chrome软件 ,无需一行编码,轻轻松松抓取各大论坛公布信息!(附视频))。最终将两一部分的內容开展合拼,获得最后的爬取信息。

 

针对数据信息中存有的字符串类型的标值 ,比如收看数量为“122万”,早已历经数据清洗转换为int类型的标值 。

02.数据统计分析

接下去,大家看来一下 ,最火视频排名榜前十位中,up主们的粉絲数量的遍布状况,程序流程如下图所显示:

 

最先 ,大家对数据信息依照粉絲数量的标值开展降序排列,随后将前十名的粉絲数量开展按“万 ”为企业开展记数,最终运用pyecharts中的Bar类来及开展数据可视化的展现。結果以下。

 

能够见到 ,粉絲数量排行最大的up主是“罗翔说刑诉法 ”,粉絲数量超出了1000万,稳稳的B站非常up主 ,也表明了在B站在朋友们不但是为了更好地游戏娱乐 ,还能够在B站在开展学习培训 。大伙儿看一下前十的排名中,有木有大伙儿关心的up主呢?

03.数据可视化展现

接下去,大家针对排名榜中弹幕的数量开展一个遍布的数据可视化展现:

 

程序流程中 ,大家最先将弹幕的数量开展一个按段的区划,各自为0-5000,5000-10000一直到25000-30000 ,随后建立一个Pie类目标,开展数据信息的数据可视化展现。

 

能够见到,视频的弹幕数量中 ,有62%的是在0-5000的范畴内,视频的数量伴随着弹幕数量的提升而展现迅速降低的发展趋势,弹幕数量在25000到30000中间的视频只有一个。这也合乎大伙儿一切正常的收看发展趋势 。

那针对视频的关注数量的视频遍布也是如何的呢?

 

图中中横坐标轴相匹配的是不一样的关注数量主产区间 ,运用0到2万指的是,关注数在0到2万次,而纵坐标相匹配的便是视频的数量;

从关注数和视频的遍布数量看来 ,展现了不规律的发展趋势 ,关注在2万到4万和十二万赞之上的视频数量是数最多的;

而关注在0到2万的视频数量是至少的,来看大伙儿针对视频是不容易抠门自身的“赞”;

另一方面,对比于发弹幕 ,关注的实际操作更为的方便快捷,也或许便是大伙儿更想要关注的缘故吧。

04.词云剖析

最终,我爬取了总榜排名第一位的视频《众所周知 ,猫是一种尊老爱幼的动物》的弹幕,并开展了去重复,看来一下弹幕中大伙儿谈及的关键字都有哪些吧。

文章来源于网络 ,如有侵权请联系站长QQ61910465删除
本文版权归趣快排营销www.seoguRubloG.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系✚Qq61910465