如何用PowerBI自定义函数批量爬取财务报表

近期,学习了马老师的商业智能财务分析(PowerBI)课程后,不免手痒,教学中的案例数据不过瘾,于是在PowerBI学友的启发下,自己找现实数据玩了起来。那么今天的文章主要内容是怎样从PBI批量爬取在线的财务报表数据。直接进入正题。   1 了解数据源
各大财经网站找了一圈,数据最容易爬取的当选网易财经
资产负债表地址 http://quotes.money.163.com/f10/zcfzb_000333.html

上市公司代码表下载地址(PDF 文件): http://www.csrc.gov.cn/pub/newsite/scb/ssgshyfljg/201902/t20190212_350821.html 证监会官网找到的所有上市公司明细,可在PowerBI中选择PDF为数据源获取

2 数据导入
1)科目表


2)资产负债表数据



3)上市公司股票代码表


3 数据标准化
由于网易数据源的缘故,财务报表的科目明细和整体数值是分开的,那就分别作为维度表和事实表,都增加索引列,在模型建模建立连接即可。

由于资产负债表数据为二维表,我们需要用逆透视把它变成一维表(提升标题后 - 选中索引列 - 逆透视其他列),再删除掉值中的空值

对于从PDF文件获取的上市公司股票代码表,可删除默认出现的“更改的类型”步骤,因为股票代码有很多以0开头,需要以ABC文本格式才能显示出来。


前三列利用向下填充补充数据



到此单张表的数据清洗工作完成。
4 批量爬取其他公司报表
观察下网址结构,一串文字+股票代码,逻辑简单。那通过“上市公司行业分类表”中的股票代码便可批量导入


第一步,建立参数:取名“Web”

当前值可设置为当前股票代码 000333



第二步,在资产负债表的“查询设置”的源中,将代码中 000333替换为 
"&Text.From(Web)&"
即首行公式为
=Web.BrowserContents("http://quotes.money.163.com/f10/zcfzb_"&Text.From(Web)&".html")

第三步,创建自定义函数,取名zcfcb



第四步,在从PDF文件获取的上市公司股票代码表中做筛选,考虑股票代码很多,获取全部数据非常耗时,我们先只筛选前3只股票

选择“添加列”调用自定义函数,增加一列。


字段“zcfcb”的每一个单元格中的Table都是一张完整的资产负债表数据,这种方案是先解决局部,再向上逐一击破,打开表格就是完整的数据。

加载数据后,几张表建立关系。

现金流量表、利润表也照此方法搞定。
5 进一步思考
刚刚Demo的测试,我们只选取了3家公司,一切都很完美,那如果将3500+家上市公司都加载进来,批量爬取将会发生什么?
很慢!在增加了两个数量级之后,PBI爬取数据的软肋就凸显出来,读取网页表格变得非常缓慢,仅资产负债就有将近500万+行数据,全部加载到PBI耗时两个小时,一度让我非常抓狂。
缺失!由于一些不知的原因,在爬取过程中存在一些上市公司的数据缺失,返回的是空表。而且测试中发现有不稳定的情况,同一只股票单独可以抓取到数据,但放在参数里出现了错误。
6 总结
PBI的PowerQuery虽然可以批量读取数据,但它更适合对接数据库,CSV这些确定的数据源。对于获取网页数据,它对数据的结构要求非常高。我们通过案例体验式地学会PowerQuery的特性和功能,但实际工作中对于大范围爬取网页数据的需求,建议尝试其他更专业的爬虫工具。  


—— End ——


相关阅读:


用PBI分析上市公司财务数据(一)

用PowerBI分析上市公司财务数据(二)


如何用PowerBI导入网页数据




加入社群,成为分享者、创作者请联系小编微信:beyondexcel


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,783评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,360评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,942评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,507评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,324评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,299评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,685评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,358评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,652评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,704评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,465评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,318评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,711评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,991评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,265评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,661评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,864评论 2 335

推荐阅读更多精彩内容