从数据分析的角度看《前任3》

前几天,旁边的女同事说:“一看到有关《前任3》的新闻报道,我第一时间就想到了吴xx。”于是,我决定去看看这个电影。我想去折腾这个的原因,不是受“啜泣女孩影响影院正常运作“的新闻,也不是影片的票房,我的动机有两个:

  • 和相处近10年的她刚分手(也许某些生活场景我刚经历)。
  • 去电影院看是找罪受,爬些数据从另一个角度看,会收获意想不到的效果。

这篇文章,我主要的思路是通过某些网友的观后感受以及对影片的主观评论来解读这部青春剧的网络发酵的原因。那么接下来我需要完成以下几件事:

  • 获取这些观后感和主管评论
  • 将这些碎片化的文本数据处理成可分析的标准数据
  • 建立分析维度,从标准数据中感知数据传递的信息
  • 得出结论

获取信息

我先去查看了下30天以来微博的热度指数

热度走势

出现这么明显的高峰,很容易想到,这个区间一定处在上映的时间,在26号飙到最高3w多,这不是偶然,每部电影在上映前都会大力铺垫,广告飞上天,呈现的热度也说明了这一点,媒体效应的转化其实是带动一个处于冷却的东西向更热的一端进化。

接下来要正式获取数据了。这是最基础的步骤,你想从事这方面的分析,这个你必须要会。在选择来源的时候,我犹豫了很久,知乎上面的太裝;微博上面太假;网易云音乐我试了,数量不是很大,没有代表性;走而周转,纠结半天,最后还是去了豆瓣,豆瓣上的评论几年前我觉得很有价值,后来慢慢也下海了,今天还是选择了她,也许是出于情怀,也许是出于无奈。

原始数据

我爬取了豆瓣《前任3》下面的评论,我的目的直接简单,就是要这些评论内容,像“id、链接、喜欢数、时间”等等信息,只是为了以后能再次用得上这张表,今天这里不做赘述。把这些评论处理成文本信息,去掉其中的标点符号,这里提醒一下:像“嗯~啊、~吗”这种语气叹词,最好不要处理,虽然在 nlp 中经常会过滤这些信息,但在这里,这些词有可能代表评论者的某些情绪。如:“嗯~3都出来了啊?还嫌没虐够吗?啊!”当你把这句文本中的“嗯、啊、吗”都去掉,你读一下,绝对感受不到原文本所表达的那种强烈的情绪。所以,数据预处理需要科学的手段也需要理性的经验。

处理信息

将全部评论信息打包,作为语料进行分词,按照词性来分得到以下这张图:

词性分析

名词占比最多,我们来看看到底是哪些名词出现的次数最多

词频分析1

这个很好理解,为什么“电影”会是第一,在大家纷纷发表看法的时候,总会带上主观色彩,于是都在说“很虐心的电影”、“又是一个人看电影”、“这可能是三部中最好的一部电影”;在大家纷纷讨论电影的时候,那些大要么分手了,要么分手过,要么快分手的人在说“我的前任早死了,哈哈哈!”,“嗯,我前任渣到至今我没法忘记”或者是“我还在等我前任”“前任1、2没这个好看”等等一系列的话题。前任死没死不重要,重要的是“前任”这个词和“爱情”是分不开的,他们在现实中是前因后果,在实际中是“豆浆油条”只要出现,总是“凝固”得最紧。爱情伴随感情而生,日久生情是建立在有感情的的基础上,多少爱情不就是小时候她帮我背了几个单词这点小感情而来的吗?

词频分析2

“(本来)曾经(当初)有一份真诚的爱情放在我面前,我没有(过去)珍惜,等我失去的时候我才后悔莫及,人世间最痛苦的事莫过于此。如果(未来)上天能够给我一个再来一次的机会,我会对那个女孩子说三个字:我爱你。”在爱情面前,没有忏悔的机会,失去得是青春不是某一个人。这一连串的时间维度的词不禁让人感叹,回忆和梦想是现实中最好的补给品。这几个主角的名字也成了评论的焦点,”至尊宝“是个什么我不清楚,应该是剧中直接或间接植入的某个广告吧,名字中只认识郑恺,貌似名字男生多一些,我猜测在我所爬到的数据中评论者的性别女性多一些。

关系链,整个网友《前任3》为中心,360度蔓延,语义分析的维度有很多很多,不同的分析会得到不同的结果,既可以做出运营调整报告,也可以做出产品决策书,大到可以作为商业投资依据等等。因为文本包含的信息是含有感情色彩的,这比那些死板的数据带来的信息多很多。

关系链

分析

某些分析已经从基本的词频、词类说过,这是一个维度的分析,直接简单,好理解。但是从文本数据表达来感知评论者的喜、怒、哀、乐等分析(行内称“情感分析”),比较复杂,这里说一下具体的思路,(会有些枯燥,不想看的同学直接跳过)将处理的文本分词后与一个已有的词库进行对比,这个词库包含喜、怒、哀、乐等情感词,统计完成后,将的词与原有的感情库数据对比,算出一个分值,如:“真伤心,好虐心的电影”中把”伤心、虐心“等词归纳到感情色彩词”哀”,将各个类别一起完成,形成权重分值,挨个执行之后,整个文本就会由这些附带感情色彩的情感词组成啦

情感分析

这部电影表达了一个负面的感情过程,评论自然不会是积极向上的,待定人物的负面得分稍微高一些(数据量越大,这个越明显),这个是数据永远遵循的规律,数据反应真实的结果,数据也遵循客观规律。

上面有些内容需要很专业的知识,有的还需要程序来支持,这里给大家介绍一下相关的工具和免费在线系统:

python(数据分析处理的神级语言)
Jieba分词(分词库,挺好用的)
Bdp(可视化)
Gensim(词向量、主题模型)
bokeh(可视化)
plotly(可视乎)
图锐(在线做词云,免费)
新浪微舆情(舆情分析系统,可试用)
excel(很多数据都可以通过它预先处理)
烽火普天(在线文本处理)

文本分词后做的词云

词云

结论

  1. 一部电影出来后可以在一段时间上影响一群人的情绪,看这部电影看哭的人很多。

  2. 在大家理性评论的时候,有些人已经忘记前任,放松看开了,喜上心头;有些人坠入爱河,痛极生悲;有多少个前任就有多少个悲剧,韩庚也好,郑恺也罢,生活是自己的,提醒大家爱自己,爱他人。

  3. 任何一部电影都会有明星效应,吐槽评论之间,主角什么的都会成为话题,红不红火不火颜值占一部分,角色占一部分。

  4. 一部电影播出,除了票房收益,还可能让不红的演员红起来,让很红的演员掉一波粉,某些广告可能销量剧增,甚至同款拖鞋内裤纷纷爆上某宝首页。

很多看似很平凡的逻辑推理,在数据的驱动下显得更有说服力,不是数据有强大,只是让那些喜欢反驳的人少了一个扯淡的理由,任何一项分析、预测、推荐不是100%的达到预期效果,但是只要执行下去,优化算法,加以人员运营,总会慢慢变好,这是社会的趋势,也是发展的必要。本文从“为什么要做这个分析>>分析什么>>怎么分析>>分析结果”等流程来阐述整个文本文本语义分析的流程,中间很多处理数据、计算、模型选择等都没有阐述,主要是这片文章旨在给在职的 pm 一个互相学习的机会,有机会的话,下次的文章将会针对技术一点,从写爬虫>>excel预处理>>文本分词>>词性分类>> 情感话分析权重比对等过程。

我是一枚 pm 不怎么撕逼,只希望在未来的某一天,数据驱动产品迭代、决策、运营能够成为行内标配。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342