本文高度剧透,没看过原著的朋友请速速退散。
《解忧杂货店》作为东野圭吾不那么东野圭吾的一部作品,自出版以来就常年占据畅销书排行榜前列。近一年来作为大热IP,更是被两次翻拍为电影。
前两年第一次看这本书的时候,我有被书中独特的故事内容和连接手法小小惊艳到,《解忧杂货店》确实是一部好作品。
最近心血来潮,决定拿《解忧杂货店》的电子文本做一个小小的文本分析练习,这篇文章即为这次练习的产物。
需要声明,由于文本是译本,所以分析结果更多地是基于译者的写作风格。此外,译本很多(比如,这个电子版和我看过的纸质版就略有差异),这篇分析仅基于我手上拿到的这个版本。
首先,先来看一下小说的词云图(已排除常见停用词)。
词语越大,代表该词语在小说中出现的次数越多。
可以看到,这部小说涉及的主要人物有敦也、浩介、晴美、翔太、克郎、雄治、贵之等,主要涉及的地点是浪矢杂货店。
其他的高频词,如回信、烦恼、梦想等等,在一定程度上可以让我们对小说的剧情管中窥豹。
整部小说(译本)一共有多少句话呢?
我以句号、问号、感叹号为单位,把小说文本拆分成句子。得到的结果是,整部小说一共有6894个句子。
全书一共有五章,那么每一章的句子总数是否有明显差别呢?
从上图可以看到,第二、三章的句子总数相对较少,第四、第五章用的笔墨则相对较多。
五章的标题分别是:
- 回答在牛奶箱里
- 深夜的口琴声
- 在思域车上等到天亮
- 听着披头士默祷
- 来自天上的祈祷
现在来看看小说中的句子字数分布。
句子字数程长尾分布,绝大多数句子包含的中文字数不超过60个,平均每个句子有18个字。
看完了整体的句子字数分布,再来看看每一章的句子字数分布是否有差别。
总的来说,每一章的句子字数分布大致相同,但后几章的句子比前几章的句子字数要稍微多一些。
看完了句子字数,再来看看句子词数。下图是各句子的词数分布图。
绝大多数句子包含的词数不超过40个,并且其中很大一部分句子的词数不超过16个。此外,平均句子词数为11。
同样的,看完了整体,再看看各章节的分布对比。
各章节的句子词数分布差不多,但整体而言,第一章的句子比其他的要稍短。
现在,来看看主要人物和地点的出现次数分布。
需要说明,绝大多数人物的名字出现次数为TA所有名称的总和,比如,“武藤晴美”的出现次数代表“武藤晴美”、“晴美”和“迷途的小狗”(她写信时用的昵称)这三个名字出现次数的总和。
出乎我意料的是,出现次数最多的人物不是作为浪矢杂货店店主的雄治,也不是引出小说故事的敦也、翔太、幸平,而是到了第四章才出场的浩介。
我们再来看看每一章的关键词。
这里,词语的关键程度由词语的TF-IDF值决定,TF-IDF值越大,表明词语越关键。
第一章的关键人物是翔太、敦也、幸平,人名以外的主要名词有车子、防盗器、牛皮纸等等。这些词语能让你联想到什么样的剧情呢?
第二章的关键人物无疑是克郎,其余关键词有许多和音乐相关,比如歌迷、曲子、作曲者。对比之下可以看到,这一章的故事情境和上一章差异不小。
第三章的主要关键人物是贵之和骏吾,地点是浪矢杂货店和东京。猜一猜贵之和骏吾,与浪矢杂货店之间有什么样的联系呢?
第四章迎来了我们在全文中名字被提及最多的人物——浩介。电影院、车站、吧台,浩介的故事看起来像是围绕深夜展开的,你觉得呢?
从图上显示的词语来看,最后一章仿佛是在展开了无数个故事之后,又绕回到了最初的人物和地点上,且这一章中,敦也的比重比他的另两位小伙伴要大很多。
从以上五份关键词排名中,我们可以隐约看到,《解忧杂货店》的每一章描述了不同的人物故事,而这些人物之间似乎存在着一些若有若无的联系。
最后,来看看小说的情感曲线。
前两天无意中看到某篇数据分析文章里谈到小说情感曲线,觉得很有意思,就试着自己做了一下,得出来的结果还不错。
曲线已做平滑化处理。
图中横轴表示剧情的时间线,纵轴表示剧情的情感方向,虚线对应的情感值为0,虚线以上表明该时间点上的剧情偏积极(积极词多于消极词),虚线以下表明该时间点上的剧情偏消极(消极词多于积极词),纵轴绝对值越大表明剧情情感越强烈。
小说的情感曲线大致呈「双W」型,即多个高潮低谷交错出现。各个波峰波谷对应的剧情已在图上标出。
值得注意的是,整个曲线除了最后一部分,其他部分的情感分值都相对较低,这可能和日本小说本身的平淡风格有关。
另外,最后的高分值部分基本上对应的是第五章的剧情,结合前面关键词部分的分析可以看出整部小说的叙事结构:一开始先通过不同章节展开不同的故事,最后再把各个故事连接起来形成一个“大团圆”式的结局。
这种结构可以说非常典型了,但尽管如此,里面的细节设置还是非常有趣的,推荐还没看过小说的朋友去读一读。
最后的最后,再推荐一下真人版电影(日版),剧情基本上可以说是神还原了。
以上。