《经济学人》是绝佳的英语学习资料。我手头刚好也有去年全年的《The Economist》资源,所以自己写了程序将高频词统计一下也不是难事。
1,
《经济学人》是周刊,2016年一共出版了52期,同样的方法,我将这52期期刊全部转成TXT文档,然后直接做词频统计,结果如下图:
TE在去年全年一共产出了3364866个单词,其中不重复的词汇为65398个。严格意义上来讲,不重复单词数要更低一些,因为这里将单词的不同形式分开计算,比如apple和apples是被当成两个不同的单词的。
在这份包含65398个单词的表单中,高频词集中了大部分虚词,它们很大一部分在原文中是在短语中存在的。另一方面,《经济学人》低频词所占比率较高,这份表单 2/3 的词汇出现频率在5次以下,将这部分低频词删除之后,词汇量锐减为21990个。不知道这是不是也印证了《经济学人》更喜欢用生僻词的普遍印象。
同样地,自己写程序用有道词典API导入解释,如图:
这份单词表保留了所有词频大于5的单词,一共21990个词汇。经过热心网友的验证,你可以将此词汇表导入有道词典,然后在手机上记忆。
2,
刚才提到,高频词汇表中最前面的主要都是虚词,这其中很大一部分组成了短语,包括介词短语和动词短语,这也部分解释了为什么词频表前20名中有相当多介词出现。这些短语在功能上往往等同于动词,而且使用频率,重复度极其高。但由于词频统计将这些短语拆分成独立的单词进行统计,所以词频表无法反应出高频短语的使用情况。
介于此,我将排名前20位中的介词逐一取出,然后查找各个介词的常用搭配(collocations),按照出现的次数排序。以on为例,下图显示了它和accord作为常用搭配在《经济学人》中的所有句子,表格的最前是和on最常见的固定搭配,按照次常见度排序。如此一来,你就可以通过阅读例句更加直观地学习短语。
我总结了前20名中的6个介词,包括
2016年的一件大事当属美国选举,在竞选最如火如荼的时候,川普和希拉里也几乎霸占了全世界媒体的版面。我以川普和希拉里作为关键词,分别统计了围绕在这两个名字所出现的最高频率的词汇(忽略了无实意的词汇),这从某个侧面也能反映出《经济学人》的关注重点和某种立场吧。
「Trump」这个词在2016年一共出现了3794次,相比而言,「Hillary」只出现了396次,这一方面是因为她有时候被称为「Mrs.Clinton」,所以我将所有的称谓放在一起再统计,结果是一共出现了1690次。这个数字依然远远低于「Trump」,我猜想是由于11月初大选结束以后,Hillary的曝光率就大幅下降的缘故吧。
可视化围绕二人出现的频率较高的词汇后,
感兴趣的朋友可以去研究一下每个词条后面的意思。
同样的分析来围绕关键词「China」展开,我们就可以看到2016年《经济学人》对中国的报道主要集中在哪些焦点上。
图片中的字体大小和出现频率成正比,可见2016年TE最关心的是南海问题,South和sea两个词在全年52份周刊中出现了大约210次。除此之外,TE也很关心中国和周边以及美国的关系,India出现了27次,美国出现22次。在商业上,Alibaba有9次上榜,Uber有6次。需要提及的是,本图中省略了某些高频词条,原因你懂得……
当然还有其他角度详细的解读这份语料库,就留给有兴趣的网友吧。
4,
高频词汇表下载方式:
链接:https://pan.baidu.com/s/1bpj8aIF密码: 1z9u