天天基金网上可以公开购买的基金有8000多个,如何从其中筛选出比较好的基金进行投资,可能会有很多策略,我这里使用了一个非常简单粗暴的方法,从六个时间维度,即'近1周', '近1月','近3月', '近6月', '近1年', '近2年',分别提取出其中盈利排名前100的基金,取他们的交集。首先需要将所有基金信息全部爬取下来,然后使用pandas进行处理。
环境
- python3 + pandas(anaconda3)
- win10
- Firefox开发版
爬取基金信息
打开天天基金网的官网,在基金排行中可以看到所有的基金数据。
首先使用浏览器分析一下HTTP请求
这是请求
这是响应
响应是一段js代码,其中rankData变量为返回的数据
var rankData = {
datas: [
"008121,万家自主创新混合C,WJZZCXHHC,2020-07-10,1.3649,1.3649,1.1037,16.1123,30.4377,43.4321,,,,,,36.49,2020-02-10,1,36.49,,0.00%,,,,",
"257070,国联安优选行业混合,GLAYXHYHH,2020-07-10,3.5262,3.8272,1.3480,16.0622,29.4113,50.5186,65.7283,151.0465,160.7943,128.0854,78.9132,334.4737,2011-05-23,1,150.6361,1.50%,0.15%,1,0.15%,1,110.7711",
...
],
allRecords: 6279,
pageIndex: 2,
pageNum: 50,
allPages: 126,
allNum: 6279,
gpNum: 1248,
hhNum: 3131,
zqNum: 1739,
zsNum: 954,
bbNum: 0,
qdiiNum: 161,
etfNum: 0,
lofNum: 260,
fofNum: 121
};
这个爬虫很简单,直接上代码
#-*- coding:utf-8 -*-
# writen by wlj @20200712
import requests
import json
import js2py,re
import pickle
#全局变量,requests使用的头部字段
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0',
'Cookie': 'st_si=12097774306782; st_sn=7; st_psi=20200712090801308-0-3225966371; st_asi=delete; ASP.NET_SessionId=d3i2hxkiu0rzmshtsa3kw514; st_pvi=49218209189172; st_sp=2020-07-11%2012%3A21%3A10; st_inirUrl=https%3A%2F%2Fwww.baidu.com%2Flink',
'Referer': 'http://fund.eastmoney.com/data/fundranking.html'
}
def spider():
#用来保存所有基金数据的列表
all_data = []
#基金排名页的url
url = 'http://fund.eastmoney.com/data/rankhandler.aspx'
#提交的参数
params = {
"op":"ph",
"dt":"kf",
"ft":"all",
"rs":"",
"gs":"0",
"sc":"3nzf",
"st":"desc",
"sd":"2019-07-11",
"ed":"2020-07-11",
"qdii":"",
"tabSubtype":",,,,,",
"pi":"5",#page_index 请求的页面的索引
"pn":"100", #page_number,一个页面中包含的最大的记录数
"dx":"1",
"v":"0.3103526639937624"
}
s = requests.Session()
#将整个表爬取下来
all_pages = 1
page = 1
while page <= all_pages:
r = s.get(url,params = params, headers = headers)
if r.status_code == 200:
t = re.findall(r'var rankData = .*?;',r.text)
#使用js2py库的eval_js方法可以执行js代码,返回rankData的值,将一个js对象,转化为一个python的字典
data = js2py.eval_js(t[0]+'rankData')
#页面总数
all_pages = data['allPages']
#将当前页面数据添加到all_data中
all_data += data['datas']
print(page)
#下一页
page += 1
#修改params参数
params['pi'] = str(page)
#将结果保存为pickle格式
pickle.dump(all_data,open('data.db','wb'))
#将结果保存为csv格式
open('data.csv','w',encoding='utf-8').write('\n'.join(data))
spider()
结果中没有title,可以结合全面手动补上表格的title,结果如下图。
筛选近期收益较好的基金
当然还要结合其它因素来选择,以往的业绩不能代表这些基金未来的走势,不作为投资建议。