【Y视角】数据可视化之文本情绪(极性)分析

在我们上一篇数据可视化专题文章《如何将“情感”可视化》(链接:http://mp.weixin.qq.com/s/bIiTr25ZJQ5IXC6e4wPyAg)中,我们介绍了将“细节情感”数据可视化的一些基本理论及实例,希望能在大家绘制类似的数据图表时给到一些启示和帮助。

同时,我们也希望在如今这个大数据时代中,“数据可视化”技术能够得到越来越多地重视,以此能让我们不管是在PPT、Prezi或是Tableau中都能更科学、更系统、更有效地展现我们的数据。

今天,我们将进一步向大家介绍数据可视化相关技术,并且同样是从文本入手——文本情感(极性/意见)分析的数据可视化。

简介

不同于上一篇文本细节情感的可视化,文本情感极性/意见分析(后文统称文本情感分析)是一个使用面更广更重要的文本挖掘手段,被广泛运用在分析用户自己生成的文本数据上。维基百科上对于文本情感分析的介绍是“情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。”当然由于情感维度的加入,我们可以对文本数据进行更多有意思的分析,接下来我们就来介绍一些文本情感分析分析系统。

大部分文本情感可视系统都是以展示基于时间轴的信息流为主,像是今日头条上的新闻、微博信息流、商品的用户评论等等。下图是一张twitter数据的情感时间序列图,其中正向的值代表积极情绪,负向则是消极情绪,这张图展现了在时间轴上各个不同事件对于网民twitter情绪的影响。

上面这种简单的可视方法太过于抽象,以至于难以表现出这些情绪转换出现的原因。为了解决这个问题,越来越多的可视化技术开始从不同的角度来展现情绪。下面从用户评论和社交媒体两个方面来看一下一些具体的文本情感可视系统的应用与实现。

顾客评论的可视分析

从应用层面来看,文本情感分析最具有价值也是最便于直接利用的领域是对于顾客评论的分析,尤其是在当今网购已成为人们不可或缺的消费渠道时,人们会非常直接在各个电商平台上对所购买的商品做出正负面评价。实时上,现在已有很多情感可视化系统正是是专门针对这一场景设计的。

下图的可视系统例举的是顾客对某款打印机评论的可视化分析结果,以热力图的方式同时展示了评论量和情感。其中每一行代表一种品类的打印机,每一列则是打印机的某一属性,红色表示消极情绪,蓝色则代表正面情绪,颜色的深浅程度代表该情绪的高低,每一个方格中的方块大小表示评论数量。这种可视化方式,不仅合理地将情绪极性数据同产品的各个维度结合在一起,还简洁、高区分度地呈现出数据分析师最想第一时间获取的关机讯息:情感极性。

Rohrdantz在2012年在ACM

Trans上发表了一整套完整的用户评论情感可视系统,该系统整合了文本挖掘、情感分析与可视分析技术,帮助系统使用者提取文本中的有意义信息,比如情感变化、数据密度、关键词等等。下面的热力图展示了时间线上的情感变化,其中每一个像素点代表一条文本,绿色为积极情绪、红色为负面情绪、黄色为中性情绪。该图以日历的形式展现整体时间线上的情感分析结果。

该系统为了更好地表现情感变化、数据密度以及关键词上下文,还提供了如下的时间密度图。下图中的例子是抽取了5万条包含了关键词”password”的评论形成的情感时间密度图,每一条评论以竖线的形式展示,依然以红色(消极)、绿色(积极)、灰色(中性)的方式表示情绪,而竖线的高度则代表了计算结果的可信度,越高代表可信程度越高。当选中每一条竖线的时候,可以回溯到具体的评论内容,评论内容中出现的名词形容词也会用具体的情绪颜色做出标注。最下方的曲线则是用来展示数据密度。

除此之外,系统还设计了一套算法用来标识出系统使用者可能会感兴趣的内容,如下图所示是系统自动识别出的5个在时间密度图中值得被关注的话题。

社交媒体的可视分析

社交媒体(以文本形式为主的帖子或状态)的可视分析被大量运用在舆情分析上,比如政府了解民众对于某些政策或者事件的意见,或者是企业收集网民对于公司产品的看法。这样的舆情分析的难点在于互联网上人们的想法传播非常快,而公众意见也具有多样性的特点。

OpinionFlow是一套专门面向社交媒体的意见传播可视分析系统。对于某一个特定的主题,OpinionFlow会分析一系列用户发布的相关Tweet,对于每一个用户u在时间t上发表或者转发的相关推文,系统会计算出情感值并记录为S(u,t)。通过对现有传播模式的识别,系统能够推断一个用户u把意见传播给另一个用户v的可能性Puv。下图是一个简单的意见传播示意图,分别表示了A向BCD传播的可能性。

OpinionFlow最后使用桑基图的方式展现了社交媒体中多个主题的意见传播状况,下图是5个主题下系统的示例,红色和绿色依然代表意见的积极与消极状态。右面四个图是左图中ABCD点传播的具体展示,其中A和D是媒体用户的传播图,而B和C是普通用户的传播图。

另一个社交媒体可视化系统的例子是SocialHelix,分析社交媒体上出现的用户意见分歧。所谓用户意见分歧是指比如在政治运动中,不同党派的支持者在社交媒体上根据自己的政治观点进行辩论。意见分歧产生的条件是必须至少有两组持有不同观点的人,其次在一系列相关的焦点事件中他们会发表各自阵营不同的意见。

SocialHelix的灵感来自于DNA螺旋结构(下图a),能够充分展示意见分歧中需要包含的用户群、焦点事件以及观点情绪等因素。b图中双螺旋的两条主链(backbone)分别代表情感意见相反的两个群体,而碱基对(base

pairs)则代表发生的焦点事件,磷酸基团(phosphate)代表了该事件中该群体发表意见的典型代表用户,图中越接近上方情绪越积极,反之则越消极,同时也以红绿黄三色对情绪作出了标识。c图以另一种形式展示了同样的数据,仅以颜色体现正负情绪观点,相较之下b图更为直观。

下图是SocialHelix分析了2012年ObamaCare政策两个不同群体的意见分歧,其中的数据是在10月3日晚上实时采集的。该图清晰地展示了在10点之后两个群体开始有了不同的意见。但有意思的是在12:40之后之前持有负面意见的群体转为了正面,而正面意见群体却转向了负面,有必要对具体的推文做进一步分析。

结语

文本情感可视化是一个非常有趣的领域,而且仍在不断发展中,目前还没有一套特别完备的标准。而目前的情感可视化技术大多是应用驱动的,并没有特备清晰的分类。相信这一方向仍然会是之后的研究热点。有兴趣的同学可以读一下(本文整理自)《Introduction

to Text Visualization》第六章,书中对文本情绪可视化会有更详细的介绍。

—— 专注于大数据与人工智能 Yuyidata.com

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容