Python爬取腾讯视频16978条弹幕，发现弹幕比剧还精彩！

东北民间流传着关于“皇围猎人”的神秘传说

他们世代生存于深山，为帝王守护兴安岭这片龙兴之地的气脉运转。传闻猎人除了精通狩猎之法，更知晓驱鬼通神之术。

在东北一处偏僻的山村里，悄然发生一起灭门惨案，在村民们的恳求下，最后一代皇围猎人刘二爷决定出山调查真相，不想过程中怪事屡现，

老林子里的秘密也被渐渐揭开.....

咱打小就喜欢看这种片子，大兴安岭、东北马氏、神农架、盗墓笔记、鬼吹灯这种片子看得我是不亦乐乎。

前一个月在抖音上看到这部片子预告的时候就已经迫不及待了，今天为了看片还专门开了个腾讯会员。看完一个字：过瘾！

了解一下其他小伙伴看此片的有什么感受，今天就用python爬虫来获取一下16978条弹幕都说了啥？

老规矩，搞爬虫就上三部曲：

1--获取目标网址；

2--发送请求；

3--获取响应

我们的目标是腾讯视频，所以首先打开软件搜索我们的电影猎人传说，可以看到弹幕在不断的刷新，后台数据也是在不断刷新的。

针对这种情况我们该如何快速锁定这些弹幕呢？

打开之后搜索F12打开开发者模式，然后搜索其中一条弹幕信息，然后找到它所对应的链接如下：

复制链接到网页发现包含210条弹幕信息，而我们所要的信息都在这个'content'的字段里

返回浏览器的Preview也可以看到同类信息。这些弹幕信息也是在content中。

我们先来试试获取这些弹幕信息。

#获取浏览器响应信息

resp = requests.get(url, headers = headers)

#转为json对象

json_data = json.loads(resp.text)['comments']

#打印浏览器响应数据

print(json_data)

结果如下，可以看到我们已经成功获取到了浏览器相应的信息。姑且可以从中获取我们想要的弹幕信息。

从上图可以看出我们想要获取的content信息都包含在我们已经获取到的jason数据中，我们接下来要做的只是遍历出其中信息即可。

#遍历comments中的弹幕信息

forcommentinjson_data:

print(comment['content'])

结果如下：

可以看出，获取一个请求的弹幕信息已经成功抓取到我们本地。但是我们要获取的是整部片子的弹幕。这只是其中一条请求的210条弹幕而已。

所以接下来的重点是如何获取全部的请求。这里有一个取巧办法，搜索第一条弹幕链接和最后一条弹幕链接。找出来做对比。

找出规律：

https://mfm.video.qq.com/danmu?target_id=6661354455%26vid%3Di003639l2zy×tamp=15

https://mfm.video.qq.com/danmu?target_id=6661354455%26vid%3Di003639l2zy×tamp=2445

发现它的参数timestamp是从15开始到2445结束的。

所以我们可以使用一个函数来获取这些弹幕请求信息：

defget_danmu():

url ='https://mfm.video.qq.com/danmu?target_id=6661354455%26vid%3Di003639l2zy&timestamp=15'

foriinrange(15,2445,30):

data = {'timestamp':i}

res = requests.get(url, params = data, headers = headers)

# 转为json对象

json_data = json.loads(res.text)['comments']

# 遍历comments中的弹幕信息

forcommentinjson_data:

print(comment['content'])

到此位置整部片子的所有弹幕已经保存于本地了，接下来我们要词云做更加直观的显示，所以我们先将这些数据保存到本地txt文档中。

comments_file_path ='lrcs_comments.txt'

# 获取comments中的弹幕信息并且写入指定路径

forcommentinjson_data:

withopen(comments_file_path,'a+', encoding ='utf-8')asfin:

fin.write(comment['content']+'\n')

文本保存好之后第一步我们需要切割分词，这里我们采用精确模式来切割最适合用于数据分析。

#切割单词

#定义切割单词函数

defcut_words():

#读取文本

withopen(comments_file_path, encoding ='utf-8')asfile:

comment_text = file.read()

#使用jieba精确模式，句子最精确地切开，适合文本分析

word_list = jieba.lcut_for_search(comment_text)

new_word_list =' '.join(word_list)

returnnew_word_list

结果如下：

分词切割好之后我们就可以用它来做词云图了

#制作词云图函数

defcreate_word_cloud():

#自定义图片

mask = imread('img.png')

wordcloud = WordCloud(font_path='msyh.ttc', mask=mask).generate(cut_words())

wordcloud.to_file('picture.png')

我在此选的图片是一张大马猴的图片。

最终词云图如下：

感觉一部惊悚片愣是被小伙伴们看出了喜感。这审美差距十万八千里啊！

有空你也看一下，完了写一下你的观后感~~~~

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,332评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,930评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,204评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,348评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,356评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,447评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,862评论 3赞 394
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,516评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,710评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,518评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,582评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,295评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,848评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,881评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,121评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,737评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,280评论 2赞 341

Python爬取腾讯视频16978条弹幕，发现弹幕比剧还精彩！

推荐阅读更多精彩内容