咨询公司眼中的中国(一)

前言

与其说这是对咨询公司观点的总结,不如说这是一篇爬虫技术和文本挖掘技术的展示。我们试图抓取数家咨询公司发布关于中国的报告,并使用文本挖掘技术分析其观点。我们不仅将尽可能详细地解释本文使用的代码,还将讲解写作代码的过程。我们不假设读者有python的经验,但如果有一定的编程经验会很有帮助。本文不讲解python的安装过程。

本文是如何运行Python程序的

如果您不是程序员,那么您的编程经验或许是这样:打开一个软件,比如MATLAB或者RStudio,在某个用于编辑代码窗口输入代码,然后点击运行按钮,最后查看某个结果窗口。这样的软件通常被称作IDE (integrated development environment)。Python也有对应的IDE,但我们不建议使用。相反,我们建议使用Notepad++来写程序。一个简单的程序如下:

  1. 在C盘建立一个名为test.py的文件
  2. Notepad++打开该文件,插入如下代码
  3. 打开cmd,移动到当前地址,例如此处则输入cd C:\Work
  4. 输入python test.py,即得到如下结果
Paste_Image.png

获取研究报告

我们认为尽量准确的、不神秘的用语总是有益的。当我们说“抓取报告”时,我们希望做的事情大致如下:

  1. 打开一篇报告所在的网页
  2. 打开该网页的html源代码
  3. 观察网页结构,找出自己想要的内容的位置
  4. 抓取想要的内容
  5. 打开下一个网页

没有什么比例子更好的讲解了。让我们看如下例子。

获取麦肯锡公司的报告

在开始前,我们在脚本的最顶端加入如下代码:

import io 
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')

这三行代码与抓取文章无关,这是为了保证cmd能够显示某些特定字符。
下面我们打开一篇报告的网址:http://www.mckinseychina.com/who-is-winning-the-war-for-talent-in-china/
其内容如下


我们感兴趣的内容有文章的标题,发布时间和内容本身。现在我们开始讲解抓取的过程。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

这三行代码是为了加载我们所需要的工具。urlopen的作用是打开一个网页,而BeautifulSoup则是一个非常强大的提取html信息的工具。我们也需要re来处理正则表达式(后文将介绍)。我们将在下文看到它们的用法。
值得一提的是,python有两种加载的方式。下文可以看出,使用from ... import时,我们可以直接使用函数,例如html = urlopen(url)。使用import 我们则需要加上包的名称,例如x = re.compile("...")
本文代码的第一个函数getMcKArticle(url)的作用是输入一篇文章的网址后,提取这篇文章的标题、发布时间、简介和内容,并且存储在一个txt文档中。

html = urlopen(url)
soup = BeautifulSoup(html.read())

我们使用urlopen读取文章的网址,将结果储存在html这一变量中。这时html变量就是网页的源代码。之后我们再使用BeautifulSoup,为提取信息做准备。
让我们打开网页的源代码,如下图所示。

Paste_Image.png

我们想要的信息便藏在这混沌中。对于这混沌的html,我们只需要,既其大部分内容都符合如下形式

<tag attribute="value">*some stuff here*</tag>

这里,tag是标签的名称,attribute是标签的属性,some stuff here是标签内容。
我们可以尝试ctrl+f搜索类似time, date, description, content等来看看有没有标签包含了我们想要的信息,经过几次尝试,我们可以找到如下内容:

<meta property="og:title" content="Who is Winning the War for Talent........此处省略" />
<meta property="og:description" content="Despite the trend toward automation, job........此处省略." />
<meta property="article:published_time" content="2016-02-15T13:06:42+00:00" />
<div class="post-content"><p>While much has been made of China’........此处省略.......

以上便是我们想要的内容。要抓取上文的内容,我们需要先学习一下BeautifulSoup的一些功能。一个例子胜过千言万语。以下例子来自BeautifulSoup的官方文档。

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http:  //example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>

我们将以上html存储在一个叫soupBeautifulSoup对象中,那么:

soup.title 输出 
       <title>The Dormouse's story</title>
soup.findAll('a') 输出 
      [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
       <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
       <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
soup.find(id="link3") 或者 soup.find({"id": "link3"}) 输出 
       <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

大致来说,findAll输出所有符合条件的结果。find输出符合条件的第一个结果。这两个函数既可以用来按标签名称查找,也可以按标签属性查找。请读者自行体会。
于是,我们使用

try:
    articleTitle = soup.find("meta",{'property':"og:title"})['content'].strip()
except:
    articleTitle = "This article has no title"

来提取文章的标题。['content']的作用是提取出content这一属性。.strip()用于将结果左右的空格删除。注意我们使用了try: ... except:...,这是为了防止有的文章不能用这样的方式找到标题导致程序报错,这样处理后,如果没有标题,那么我们便指出它没有标题。文章的发布时间和描述同理。
对于文章的正文,我们有

try:
    TarticlePara = soup.find("div", {"class":"post-content"}).findAll({"p","h1","h2","h3","h4","h5","h6"})
except:
    return None

我们观察到,文章的正文在<div class="post-content">这一大标签的<p>, <h2>, <h3> 小标签下,为了保险起见,我们将<p>,<h1>,...<h6>全部都找出来。这样我们就获取了文章的正文了。注意,有的文章不能靠这种方法找到正文,但这样的文章我们就选择忽略了,于是我们使用return none来跳出函数剩下的部分。
本函数剩余部分的作用是把结果输出成为一个txt文件。我们用

with open('C:/Work/Scrapers/ConsultingReports/McKinsey/'+articleTitle[0:30]+'.txt','w+', encoding="utf8") as file:

来创建一个标题是文章标题的前30个字符的txt文件。

file.write('ThisIsTile:'+articleTitle+'\n')
file.write('ThisIsDate:'+articleTime+'\n')
file.write('ThisIsDesc:'+articleDescription+'\n\n')
for para in TarticlePara:
    file.write(para.get_text())

我们分别在文件中写入文章的标题、时间和描述。\n的作用是换到下一行。之后我们写入文章的正文。为什么我们这里要写一个for循环呢?因为和标题时间描述不同,文章的正文是按段落存储的,TarticlePara变量是这些段落的集合,所以不能直接写入到文件里,我们只能逐个段落地写入。
上文函数的作用是在我们找到一篇文章的网址后,获取该文章的信息。我们需要第二个函数,用以找到这些文章的网址,这便是getArticleLinks(motherUrl)。我们将一个起始网址输入到该函数中,输出文章网址的集合。这个函数的思路如下:
我们先打开一个起始网页(mother),提取出该网页包含的所有链接,选取那些指向文章的链接并存储起来。之后我们跳到一篇文章的网页(child 1),选取文章链接并存储。然后跳到下一篇文章(child 2),以此类推。
我们需要注意到一个问题,即我们不可避免的会遇到很多重复的文章链接,怎么保证我们最后输出的文章网址集合没有重复呢?所幸的是,pythonset()可以实现这一功能。当我们向一个set输入重复的值时,它只会保留一个记录。我们将获取的所有文章链接都输入到一个set后,最后的结果就是没有重复的文章链接集合了。
我们先使用BeautifulSoup来存储起始网址,然后调用一个全局变量articlePages。我们的目的是将所有文章链接都存储在这个变量里,而且我们需要重复地使用这个函数。如果我们选择在这个函数的内部建立一个新变量并存储网址的话,那么每次重新调用这个函数时,这个变量便会被清空,这显然不是我们想要的。所以我们在函数外部创建一个集合articlePages = set(),然后再在函数中调用。
接下来我们提取所有文章的网址。观察源代码,我们发现包含网址的标签结构如下:

<a style="display:inline-block;" class="icon link-icon" href="[http://www.mckinseychina.com/how-china-count....此处省略]">

标签名是a,而我们想要的信息存储在href这一属性中。我们运用findAll函数来提取所有的网址。注意到这个令人生畏的怪物:

href=re.compile("http://www.mckinseychina.com/([A-Za-z0-9]+-){3,}[A-Za-z0-9]+/")

这里我们使用了正则表达式。我们提出一种模式,然后搜寻能够匹配该模式的字符串。因篇幅所限,我们没有办法对正则表达式做一个哪怕浅显的介绍,但我们可以仔细看看这里这个例子。
首先我们观察文章网址都有什么共同点,请看这三个网址:

http://www.mckinseychina.com/who-is-winning-the-war-for-talent-in-china/
http://www.mckinseychina.com/what-might-happen-in-china-in-2016/
http://www.mckinseychina.com/which-china-headline-do-you-prefer/

我们发现,这些网址的共同点如下:

  1. 它们都以http://www.mckinseychina.com作为开头
  2. 它们后接的都是文章的标题,每一个单词或数字用-隔开

现在我们可以开始写正则表达式来匹配了这一模式了

  1. http://www.mckinseychina.com/: 到这里,我们规定网址的开头
  2. ([A-Za-z0-9]+-): [A-Za-z0-9]的作用是,匹配任意一个大写字母、小写字母或者数字。我们在后边跟上+,则表示我们匹配任意次数。之后我们跟上-,则表示我们匹配链接符号-。我们用(...)表示这是一个整体。
  3. {3,}: 这表示我们匹配上一步中的部分3次或以上。为什么要这样规定呢?因为观察网页,我们发现,有这样的网址
http://www.mckinseychina.com/contact-us

以上网页显示的是联系信息,而这显然不是我们想要的。而这样的网址都很短,因此我们匹配3次以上用以忽略这样的网址。

  1. [A-Za-z0-9]+/: 网址的最后以单词或数字加上/结束,并且没有-,因此我们如此操作。
    很显然,以上仅仅是一种匹配的方法,读者大可以自行观察其它的匹配方法。
    细心的读者可能已经发现了,我们使用了一种很取巧的方法,即我们只在文章之间跳转。我们没有进入类似于
http://www.mckinseychina.com/insights
http://www.mckinseychina.com/insights/innovation/

这类的网页。读者在掌握了本文的技巧后,可以自行修改代码以让我们的文章爬取更完善。
值得一提的是,正则表达式是一个很反人类的工具,很容易出错,一个很好的写正则表达式的辅助工具是http://regexpal.isbadguy.com/
接下来,我们开始抓取和存储这些链接了。

for link in links:
        newArticlePage = link.attrs['href']
        articlePages.add(newArticlePage)
        print(str(len(articlePages)) + " preys slayed")

我们提取出这些网址,用.add()方法来把这些网址加入到articlePages这个集合里。我们用print(str(len(articlePages)) + " preys slayed")来显示集合里已经存储了多少篇文章,用以观察进度。

if len(articlePages)>=20:
        print("Hunting complete")
else:
        getArticleLinks(newArticlePage)
return articlePages

如果我们找到了20个以上的文章就满足了,如果还没有达到这个数字,我们就选择该网页中最后一篇文章作为新的起始网页,重复以上行为。最后我们输出文章集合。
有了上述两个函数,我们可以真正开始抓取文章了。

motherUrl = "http://www.mckinseychina.com"
articlePages = set()
articlePages = getArticleLinks(motherUrl)
summonCounter = 1
for page in list(articlePages):
        getMcKArticle(page)
        print(str(summonCounter) + ' out of ' + str(len(articlePages)) + " nightmares slayed")
        summonCounter += 1
print("Farewell good hunter. May you find worth in the waking world")
  1. 选择起始网页
  2. 创建文章集合
  3. getArticleLinks()填充文章集合
  4. 对文章集合中的每个网址,用getMcKArticle()下载其内容
    注意我们用了summonCounter来监督抓取进度。
    这样我们就完成了文章的下载。print一句您喜欢的话来表扬下自己吧!

附录

获取麦肯锡公司报告的完整代码

import io 
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

def getMcKArticle(url):
    html = urlopen(url)
    soup = BeautifulSoup(html.read())
    
    try:
        articleTitle = soup.find("meta",{'property':"og:title"})['content'].strip()
    except:
        articleTitle = "This article has no title"
    
    try:
        articleTime = soup.find("meta", {"property":"article:published_time"})['content'].strip()
    except: 
        articleTime = "This article has no date"
    
    try:
        articleDescription = soup.find("meta",{'property':"og:description"})['content'].strip()
    except: 
        articleDescription = "This article has no description"
    
    try:
        TarticlePara = soup.find("div", {"class":"post-content"}).findAll({"p","h1","h2","h3","h4","h5","h6"})
    except:
        return None
    
    with open('C:/Work/Scrapers/ConsultingReports/McKinsey/'+articleTitle[0:30]+'.txt','w+', encoding="utf8") as file:
        file.write('ThisIsTile:'+articleTitle+'\n')
        file.write('ThisIsDate:'+articleTime+'\n')
        file.write('ThisIsDesc:'+articleDescription+'\n\n')
        for para in TarticlePara:
            file.write(para.get_text())

        
def getArticleLinks(motherUrl):
    html = urlopen(motherUrl)
    soup = BeautifulSoup(html)
    global articlePages
    
    links = soup.findAll("a", href=re.compile("http://www.mckinseychina.com/*([A-Za-z0-9]+-){3,}[A-Za-z0-9]+/"))

    for link in links:
        newArticlePage = link.attrs['href']
        articlePages.add(newArticlePage)
        print(str(len(articlePages)) + " preys slayed")
        
    if len(articlePages)>=20:
        print("Hunting complete")
    else:
        getArticleLinks(newArticlePage)

    return articlePages



motherUrl = "http://www.mckinseychina.com"
articlePages = set()
articlePages = getArticleLinks(motherUrl)
summonCounter = 1

for page in list(articlePages):
    getMcKArticle(page)
    print(str(summonCounter) + ' out of ' + str(len(articlePages)) + " nightmares slayed")
    summonCounter += 1
print("Farewell good hunter. May you find worth in the waking world")
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,398评论 25 707
  • 你每天重复着同样的生活,做着同一件事,如同在一个小格子里,从来不会发现格子之外的魅力。上学时,同样是三点一线。生活...
    大梳阅读 282评论 0 0
  • 西丰大人思密达,自上上个月从原同事那听说你在沈阳因“费用”问题突然被总部调回后就一直没有你的消息了。是的,我早删了...
    德嘉阅读 188评论 1 3
  • 限于事务性的麻烦令人不悦,工作在探索中也许抓狂,工作在细致繁琐的事务性工作中会厌倦,两者之间也会会给你一个只是想工...
    Juliuslog阅读 288评论 0 0
  • 如果你是个高富帅,那么会人会问有多高,有多富,有多帅,这样分层次的话,因为高富帅也是有层次之分,而层次之分,也决定...
    羽商三少阅读 584评论 9 3