对不住

别骂了别骂了我有错,但是我不认。哈哈哈

原本便是想爬一下最近比较火的国产动漫《左手上篮》,我是一个篮球爱好者 ,也是一个篮球迷,有这种篮球的国漫怎样会放过呢,所以我也想搞点事情剖析剖析弹幕,其实我有想过一个比较好的标题《左手上篮》–咱们的灌篮高手,其实没开端爬之前我一直是这么想的,但是当我真实去爬的时候发现一个这样的弹幕‘‘123,背带裤’’事情就开端变得不一样了,我想正常的有板有眼的做弹幕数据剖析是不是太无聊了,所以我决定做弹幕的含坤量剖析,这便是我标题的来源。

爬取弹幕

《左手上篮》之弹幕含‘’坤‘’量分析?!

上面这个便是我的爬虫代码了,其实非常简略,便是一个恳求头,一个request函数,然后在爬的视频网站找到你要的json包,给他恳求解析下来,然后写到咱们的CSV文件中。下面便是我爬到的数据大概有两万条弹幕

《左手上篮》之弹幕含‘’坤‘’量分析?!

数据处理

接着便是对爬到的数据进行中文分词,把弹幕用jieba分好词,大概有80万条小数据,我做的第一个处理是把他做一个词云图,通过对停用词的不同限制,做了几个版别的词云图,为什么做了几个版别呢,其实是被迫的,原本我早就开端这个项目了,便是在这里被卡了好久,否则早就做完了,主要便是stylecloud这个库不太熟悉,所以一直画不出来,第一个词云图其实是我用fineBI做的,直到今天有空了,所以好好研究了下,终于不报错了谢天谢地。其实画的还是很粗糙,咱们将就看吧。

《左手上篮》之弹幕含‘’坤‘’量分析?!

《左手上篮》之弹幕含‘’坤‘’量分析?!

《左手上篮》之弹幕含‘’坤‘’量分析?!

含坤量剖析

接着有趣的来了,咱们来看一下咱们鸡哥在这些弹幕里的含量,首先咱们在弹幕中把含坤的弹幕统计出来,words = [“坤”, “背带裤”, “小黑子”, “ikun”, “蔡徐坤”, “只因”, “鸡”, “鸡你太美”],这些都是咱们的含坤的弹幕类型,咱们对弹幕进行筛选,有这些词的咱们就把他放到一起去。

《左手上篮》之弹幕含‘’坤‘’量分析?!

大概有多少呢?如图所示一共236条。接着咱们对他进行数据的可视化,我分别做了柱状图和一个饼状图。

《左手上篮》之弹幕含‘’坤‘’量分析?!

《左手上篮》之弹幕含‘’坤‘’量分析?!

OK,最后一步含坤量的计算最后的结果是:

0.02906%

怎样算的呢?其实很简略便是用咱们筛选出来的词比上咱们全部的词。

《左手上篮》之弹幕含‘’坤‘’量分析?!

结束

以上内容,如有雷同纯属巧合,如有冒犯便是你对。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。