我所说的一切都可能是错的!
即使你赞同我的观点,你的生活也不会因此有任何改变!
除非——你采取了相应的行动。
(这是书先生的第106篇原创文章。本文约4300字,请花7分钟来阅读。)
引子
昨天我的朋友圈被刷屏,几乎所有人都在晒自己的18岁。反正这个娱乐至上的年代,每过一段时间就会刮起一股莫名其妙的潮流,然后退潮和速度的涨潮一样快。当潮流还在的时候,人们尽情在里面游乐,借势表达各种情绪:怀旧的、炫耀的、后悔的、哀叹的,轮番上阵。汇成一句话:一切都变了,只是变好变坏不甚明了,但回不去是真的。
变了?什么变了呢?Papi酱拍了个短视频,说了一堆变化。是真实的吗?或许吧!反正没能说服我,因为我有反例——Papi酱说的没有一条符合路夫人。按照波普尔的证伪理论,一个反例足以推翻一个理论。(顺便说一下,波普尔是我的男神,我这几年就靠他活了。)
那从18岁到30岁到底有变化吗?如果有,是什么变了呢?作为语言学玩儿家,我始终认为没有什么比语言数据更能说明问题的了,因为我们对世界的几乎所有认知都记录在语言里面。只要我们找到合适的方法,我们就能从语言数据里看出很多有趣的东西。
我甚至认为,只要语言数据足够多,我们能从中看出整个世界。如果你认为这种说法有点夸张,请原谅一个语言学爱好者对专业的狂热。不过,想必哈佛大学的让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)与埃雷兹·利柏曼·埃登(Erez Lieberman Aiden)会同意我的看法,因为这两位在《自然》上发表了一篇文章《通过海量电子化书籍对文化进行量化分析》(Quantitative Analysis of Culture Using Millions of Digitized Books)来阐述语言数据在文化分析方面的影响。
他们还创造了一个新名词:文化组学(culturomics)。显然,这个词是“文化”(culture)加上“组学”(omics)构成的,有点模仿人类基因组学的意思。这哥俩儿还参与了Google实验室的Google Ngram Viewer项目。这个项目通过n元语法(n-gram)分析Google图书中的数据,以展示语言中的文化模式随时间的变化。
他们的很多研究成果都写在一本科普畅销书里面,这本书叫《可视化未来:数据透视下的人文大趋势》,非常值得一读,强烈推荐。
朋友圈扑面而来的“青春气息”已经勾起了我的欲望——不要乱想——是用语言数据探个究竟的欲望。我决定做个简单的语料库研究,看一下从18岁到30岁,到底什么在发生变化。
研究方法
工具
我的研究工具(数据)就是“美国当代英语语料库”(COCA)。选择它的原因很简单:够大——5亿词,够长——跨度27年,够广——5种不同文体。(前面两个因素看起来有点猥琐了,还好最后一个力挽狂澜,不然好好一篇科普硬是写成了小黄文。)
方法
我准备了几个关键词:18-year-old,30-year-old, young man,young woman,middle-aged man,和middle-aged woman。然后搜索和他们搭配强度高的形容词和动词。形容词可以告诉我们人们一般会从什么角度去描述这些人,而动词可以告诉我们这些人一般会做些什么事儿。
这里的搭配强度是由互信息值(MI)定义的,要求至少在3以上。因为仅仅是频率不能说明问题,有些搭配频率很高,只不过是因为其中一个单词本身频率很高,它和谁在一起的频率都高,算不得数。比如a young man或者the young man的频率肯定高,因为a和the的出现频率很高。事实上,the是英语中使用频率最高的单词。
互信息值考察的是两个单词或词组的互选程度。这个概念可以解释得很复杂,甚至会用到熵等信息学概念。但也可以解释得很简单。恰好我最擅长的事情就是把复杂的东西讲得简单易懂(学过我OP课程的人都可以证明这一点)。
简单的说,一定范围内,当一个词和另一个词在一起的概率远大于它和其它词在一起的概率,我们认为这两个词互信息值较高。就好比你办公室一个男的经常对某个女同事嘘寒问暖,但对其它女同事却颇为冷淡,我们立马判定这两个人有奸情,至少这男的有想法。互信息值就是这个奸情的热烈程度。但是如果这个男的对所有女同事都同样的嘘寒问暖,那么这个男的我们称为中央空调。
虽然频率不能完全说明问题,但频率过低是影响判断的。比如这个男的一共只嘘寒问暖过一次,那他和被他嘘寒问暖的女性在这方面互信息值一定很高。但这说明不了什么问题,因为没有可比较的东西。所以,我在搜索时,设定频数至少在10以上(这也是COCA网站的默认值)。当然,设得更高会更好,不过我担心设得太高就没有什么结果了。
好了,我想我已经解释得非常清楚了,下面可以做实验了。
数据才是王道
18-year-old
不知道为什么18岁成了一个特殊的年龄,或许是因为它是法律上青少年和成年人的分界线吧,又或许它是高中毕业的年龄吧——一个时代的结束或者开始总是有点特殊纪念价值的。不过我记得我小时候看的都是16岁的花季啊,按照这个定义,18岁花都谢了吧。
不过先别管花谢花开,先看下在美国,人们对18-year-old有什么描述。
Surprisingly,和18-year-old搭配强度超过3的只有一个很奇怪的形容词unarmed(没带武器的),MI值7.78。这是什么鬼?难道美国人只关心18岁的人带没有带武器?
点进去一看,悲剧啊!这些没带武器的18岁青年,大多是黑人,他们不是被杀了,就是被枪击了。
再搜和18-year-old搭配的动词,我的乖乖,在美国做一个18岁的小青年很不容易啊。
不是被捕(arrested),就是被枪击(shot);不是被控告(charged),就是被弄死(killed)。美国对18岁的人真是不友好,怪不得Skid Row在18 and life里唱到Your crime is time(你的罪就是你的年龄)。你看,这就是能唱1000多首英文歌的好处,随时都能用歌词来举例。
朋友圈的朋友们,看看你的青葱岁月里,同龄美国人在经历什么。生在中国真是幸福!
30-year-old
我知道你们都想知道(有点拗口)美国人对30岁有什么看法,美国30岁的人会做什么。不好意思,让你们失望了。在五亿词的语料库里,没有和30-year-old搭配强度很高的形容词或动词。这说明,在美国文化里,30岁不是什么特殊的年龄。
我们会觉得30岁很特殊,可能是因为我们有30而立这种说法吧。但实际上这句2000年前的句子现在是否还适用,值得商榷。要知道,那时候人均寿命也就二三十岁,四十岁以上就是老叟了,70岁以上“古来稀”。而现在,中国的人均寿命是73,还用30而立似乎有点站不住脚。
所以,进入30岁的朋友,别矫情了,这就是普通一年,没什么值得大呼小叫的。
teenager
我们已经知道18岁的少男少女在米国日子不好过,那青少年呢?出现在teenager前面与它搭配强度最高的词如下:
数据表明,青少年在美国不是很受待见——说好的祖国的花朵呢?和那些18-year-olds一样,我估计没有携带武器的(unarmed)的青少年也没有什么好的结局。
青少年的身材更可能是瘦长的(gangly和lanky都是瘦长的意思),这很合理。
剩下的形容词基本上没有一个正面的:rebellious(反叛的),青春期嘛,很正常;troubled(烦恼的),成长的烦恼,也合理;shy(害羞的),美国的青少年很shy,有点刷新我的认知。我国的青少年都已经不shy了,你国的还shy,怎么当人类灯塔;typical(典型的),一般我们说一个是典型的XXX,都是贬义;awkward(尴尬的),嗯,青少年涉世未深,人情世故不熟,做起事来显得awkward;pregnant(怀孕的),看来美国青少年早孕是个大问题啊;frightened(受惊吓的),青少年真惨,一边反叛一边受惊吓;normal(正常的),还好,有正常的青少年;有black teenager,没有white teenager,说明人们对黑人青少年更关心,但考虑到形容青少年的多是负面词汇,这反映美国人对黑人青少年的负面评价更多;gay teenager也是差不多的情况,少数人群受到更多关注,但不见得是正面的;missing(失踪),青少年容易失踪;young,这不是废话吗,青少年当然young了;angry,看来青少年不但总是反叛,还总是怒气冲冲。
综上所述,在美国人眼中,青少年的性格是反叛的,害羞的,经常怒气冲冲,总是麻烦不断,做起事来笨手笨脚,还容易受惊吓,容易怀孕,容易失踪。不过貌似我国的青少年也好不到哪里去。
下面我们来看一下,teenager会做些什么事儿,或者什么事儿更倾向于发生在他们身上。
唉,在美国做个青少年真是造孽啊!不是被诊断(diagnosed)出什么病,就是被杀掉(killed)。我现在总算明白为什么美国人少了——活过青春期简直就是奇迹啊。
young man和young woman
如果熬过了青春期会发生什么呢?
从与young man和young woman搭配的形容词来看,美国人对年轻人比对青少年友好多了。外形上,虽然有胡子(bearded),年轻男性是英俊的(handsome),好看的(good-looking),强壮的(muscular),高大的(tall),苗条的(slim),迷人的(charming);头脑方面,年轻男性是聪明的(intelligent,bright),智慧的(brilliant),有才华的(talented),总之是卓绝的(remarkable);为人处事是礼貌的(polite),友善的(nice),有品的(fine);事业上充满进取心(ambitious)。真是不吝啬溢美之词。当然也不乏麻烦缠身(troubled),怒气冲冲的(angry)年轻男性;虽然年龄见长,但是害羞的(shy)的年轻男性也不少。
形容年轻女性的词几乎全是积极的:年轻女性是可爱的(lovely),迷人的(attractive)(这里可以看出charming更多用于男性,而attractive更多用于女性),漂亮的(beautiful);身材是苗条的(slim),高大的(tall);头脑是聪明的(bright);和年轻男性一样,也有不少年轻女性麻烦缠身(troubled)。不知道为什么黑头发的(dark-haired)年轻女性最受关注,我还以为会是金发女郎呢。
看来,美国人只要熬过19岁(teenager是指13至19岁的人),前途就光明多了,虽然麻烦仍然不断。
下面我们来看下年轻男性和女性倾向于做些什么或者身上会发生些什么。
年轻男性的确充满活力,总是在接近(approach)什么东西,我看了看,approach的对象主要是女性,这就很合理了。精力充沛的年轻男性更喜欢站着。
在习惯上年轻女性和男性差不多,喜欢站着;不同的是年轻女性也喜欢坐着,还喜欢走路。不过年轻女性比男性有一点要惨得多,那就是容易被谋杀(murdered)。
同样是死,murdered比起killed多一种蓄意的意味。结合上面的数据来看,青少年更可能死于意外,而年轻女性更可能死于谋杀。这些语言数据其实是对我们很有用的参考。
middle-aged man/woman
这段时间,中年男性成了大众调侃的对象,油腻突然成年中年男人的标准写照。那么美国人眼中的中年男性是什么形象呢?搜索了一下,数据我都不想给你们看了,因为实在太寒碜。在COCA中,和中年男性强搭配的只有一个单词balding(脱发的)。看来,中年男人脱发是个世界性难题。
中年女性其实更惨,出现频率10次以上的形容词没有和middle-aged woman搭配强的。中年男性好歹还有个脱发现象让人关注,中年女性简直就是隐性的。美国和中国一样,中年女性受到的关注太少了。
无论是middle-aged man还是middle-aged women都没有与之搭配强度高的动词。这个群体看来不怎么做什么出格的事儿。被岁月磨平了锋芒大概就是这种感觉吧。
结语
COCA的数据总结一下就是:在美国,青少年形象不是特别好,而且不是被抓就是被杀,要么就染病,能活下来都不容易;不过熬过这段时间就好了,因为人们对年轻男性女性的评价都不错,做的事情也正常;美国青少年更可能死于意外,而年轻女性更可能死于谋杀;中年人是最没有个性的一个群体,除了男性脱发比较明显,既没有特别的特征也没有特别的动作;从青少年到年轻人都是麻烦不断的美国人,到了中年或许还是麻烦不断,不过已经没人关心了。
你问我为什么不搜old man和old woman。本来也有这个打算的,但转念一想,和old man,old woman相关的可能大多带点苍凉悲伤的味道。让我们还是用调侃和幽默来面对新的一年吧,毕竟老年怎么样其实取决于现在做什么。比如,研究表明,你多学一门语言,将会大大降低老年痴呆的几率。
文章最后祝大家新年快乐!新的一年也不要忘了学英语哦!
【作者简介】
书先生和路夫人,80后大学教师一对。
书先生语言老司机,玩转英语、德语、Python计算机编程;
路夫人旅游达人,足迹遍及欧洲、美洲、亚洲和大洋洲!
读万卷书、行万里路、过精彩人生!