利用 Python 获取余额宝历史收益数据

最近想做一个关于用一些指数基金与余额宝组成的简单风险-无风险投资组合的实验计算，发现通达信之类的行情软件并没有提供完整的余额宝收益信息，如通达信仅有年化收益率的数据，并没有万份收益的数据。因此考虑利用 Python 做一个小的爬虫程序获取相关数据。

数据来源

简单的搜索了一下，发现网上推荐的网站多数指向一个叫理财收益网的网站，这里的较为详细的数据，不过这个网站的数据仅仅提供到2016年的12月底，17年的1月到2月并没有，所以不怎么符合条件。

然后再看了一下天天基金网，进入余额宝页面，在走势图旁边有一个 历史收益 的栏目，点击进去，可以看到有 历史净值 的数据，而且数据从 2013-5-30 到最近一天的数据，这里的数据比较适合，因此就选择从这里爬取数据。

网页分析

在编写爬虫程序之前，我们先分析一下这个网页。

Paste_Image.png

我们可以看到，这张表格下面有一个分页栏，点击下面的页数切换数据。到这里，一般思路是先看看能不能找到这个网页的数据更新的 api，如果有，就可以直接通过拼接 url 传入参数来获取数据，如果不能的话，那可以考虑使用 selenium 之类的工具模拟点击实现。

我们先用 chrome 浏览器自带的开发者工具，尝试是否能够获取的数据更新的 api 。比较幸运，这个网站是可以获取到更新数据的 url 的。url 如下：

http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=000198&page=1&per=20

然后这个 url 的返回值如下：

var apidata=
{ content:"<table class='w782 comm lsjz'><thead><tr><th class='first'>净值日期</th><th>每万份收益</th><th>7日年化收益率（%）</th><th>申购状态</th><th>赎回状态</th><th class='tor last'>分红送配</th></tr></thead><tbody><tr><td>2017-03-17</td><td class='tor bold'>1.0213</td><td class='tor bold'>3.7480%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-16</td><td class='tor bold'>1.0147</td><td class='tor bold'>3.7360%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-15</td><td class='tor bold'>1.0082</td><td class='tor bold'>3.7230%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-14</td><td class='tor bold'>1.0066</td><td class='tor bold'>3.7120%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-13</td><td class='tor bold'>1.0191</td><td class='tor bold'>3.6990%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-12</td><td class='tor bold'>0.9931</td><td class='tor bold'>3.6830%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-11</td><td class='tor bold'>0.9934</td><td class='tor bold'>3.6740%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-10</td><td class='tor bold'>0.9998</td><td class='tor bold'>3.6660%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-09</td><td class='tor bold'>0.9904</td><td class='tor bold'>3.6540%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-08</td><td class='tor bold'>0.9873</td><td class='tor bold'>3.6500%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-07</td><td class='tor bold'>0.9836</td><td class='tor bold'>3.6460%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-06</td><td class='tor bold'>0.9882</td><td class='tor bold'>3.6460%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-05</td><td class='tor bold'>0.9775</td><td class='tor bold'>3.6420%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-04</td><td class='tor bold'>0.9777</td><td class='tor bold'>3.6440%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-03</td><td class='tor bold'>0.9786</td><td class='tor bold'>3.6450%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-02</td><td class='tor bold'>0.9829</td><td class='tor bold'>3.6500%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-01</td><td class='tor bold'>0.9804</td><td class='tor bold'>3.6500%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-02-28</td><td class='tor bold'>0.9821</td><td class='tor bold'>3.6510%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-02-27</td><td class='tor bold'>0.9814</td><td class='tor bold'>3.6520%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-02-26</td><td class='tor bold'>0.9806</td><td class='tor bold'>3.6520%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr></tbody></table>"
,records:1386
,pages:70
,curpage:1};

我们可以通过返回数据得到总页数，然后通过更改 url 中的page参数，再解释 content 里面的内容就可以获取到我们想要的数据了。

Python 爬虫程序

有了上面的分析和思路，我们就可以开始编写程序了。我的 python 环境为基于 Anaconda2 的 python 2.7.12 版本，代码在 macOS Sierra 10.12.3 通过。

第一步，我们首先要拿到数据的总页数，这里有个小 Tips，这个获取数据的 url 可以不需要 per 参数，然后它的输出是默认一页10行，我在代码中为了让 url 更短小好看，因此就省略了 per 参数。

获取总记录，总页数，当前页面的代码如下：

def obtain_info_of_data(symbol):
    response = requests.get('http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=' + str(symbol))
    # return format: var apidata={...};
    # filter the tag
    content = str(response.text.encode('utf8')[13:-2])
    content_split = content.split(',')
    # obtain the info of data, curpage, pages, records
    curpage = content_split[-1].split(':')[-1]
    pages = content_split[-2].split(':')[-1]
    records = content_split[-3].split(':')[-1]
    return {'curpage': curpage, 'pages': pages, 'records': records}

在这段代码中，有几个地方需要稍微注意一下。首先这个返回值要注意编码的问题 (python2.7)，然后这个返回值的格式有点像 json 格式但其实它并不是，它的前面有一个 **var apidata = ** 以及最后多了一个 ; 。我们可以选择把它整理成 json 的格式，然后再做处理，不过我这里直接把前面到 { 的内容切掉，然后后面把 } 后的内容切掉，这样就可以得到一个以 , 分割的字符串，我们通过 split 函数对 , 进行分割，这样既可方便的把返回的字符串截取成 4 个我们需要的部分，然后后面的处理就比较简单了。

拿到这个数据相关描述信息后，我们可以开始接着爬去数据了，相关代码如下：

def obtain_data(symbol, dict_data_info):
    cur_pages = int(dict_data_info['pages'])
    pages = dict_data_info['pages']
    records = dict_data_info['records']

    data_return = []

    url = 'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=%s&page=%s'

    for cp in range(int(pages), 0, -1):
        response = requests.get(url % (symbol, str(cp)))
        content = response.text.encode('utf8')[13:-2]
        data = content.split(',')[0][10:-1]
        data_soup = bs4.BeautifulSoup(data, 'lxml')
        line_of_data = len(data_soup.select('table > tbody > tr'))

        for i in range(line_of_data, 0, -1):
            row_of_data = []
            date = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(1)' % i)[0].text
            earning_per_10k = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(2)' % i)[0].text
            annualized_return = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(3)' % i)[0].text
            row_of_data.append(date)
            row_of_data.append(earning_per_10k)
            row_of_data.append(annualized_return)
            data_return.append(row_of_data)
        print 'Finished %i' % cp
        cur_pages -= 1
        if cur_pages == 1 and len(data_return) != int(records):
            print 'Data Missing..'
    return pd.DataFrame(data_return)

这段代码主要分为两个部分，一个是遍历页面，另一个是在页面用遍历每一行的数据。这里我们用到了 BeautifulSoup 库来处理 HTML 的内容，然后在函数的最后添加了一个简单的数据完整性炎症，最后以 pandas DataFrame 的格式返回。

小结

这个获取余额宝历史收益数据的小爬虫其实并不难，只要耐心分析一个网站的结构，理顺思路就可以完成，不过代码到这里，其实并不是很完善。如果希望将这些数据更方便的用于量化交易以及其他的一些实验，还需要把 Dataframe 里面的数据再做一些处理，如万分收益率转为以1为单位的收益率可能更方便计算，然后年化收益率规整话，去掉那个百分号等。

以上代码已经上传的 Github，可以下载运行。

最后编辑于：2017.12.06 04:02:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,636评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,890评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,680评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,766评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,665评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,045评论 1赞 276
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,515评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,182评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,334评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,274评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,319评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,002评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,599评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,675评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,917评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,309评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,885评论 2赞 341

利用 Python 获取余额宝历史收益数据

数据来源

网页分析

Python 爬虫程序

小结

推荐阅读更多精彩内容