PowerBI金融统计实践系列-人民银行贷款数据抽样篇(1)

前言

根据人民银行相关通知,商业银行需要在2020年6月30之前上报银行在3月份的自身分支机构、财务与资本数据,非同业客户信息,贷款余额和贷款发生额信息,以及担保合同和担保物信息。这一项目数据量大,数据颗粒度细,需要考虑多层次明细与总分校验,任务繁重。

为了完成这一项目,银行统计部门由简单到复杂,依次会考虑到Excel,VBA,SQL server、Oracle等各种传统工具。而微软公司近年来基于最新数据处理技术和用户需求设计而大力主推的PowerBI[1]虽然综合了Excel与数据库工具的许多优点,功能极其强大,但是由于种种原因,并未成为众多金融机构统计部门所熟知的选项。

Power BI早期是需要安装在低版本Excel之中的独立插件,后来演化成Excel高级专业增强版之中的内嵌模块,以及独立软件,如PowerBI Desktop和Power BI企业版;分成Power Query和Power Pivot两大分支,前者主要用于ETL数据抽取清洗和转换,后者用于数据聚合分析,本篇讨论的数据处理全部基于Power Query。

本篇以下主要从报表分析与编制和复核者的角度分享如何使用PowerBI完成该项目,分成三个部分:

  1. 报表与字段分析,

  2. 数据抽取和运算,

  3. 数据转换与校验

1. 报表与字段分析

从人民银行通知和下发报文模版出发,如果对每一张报表的每一个字段,综合分析其各自层级、相互关系和出现频率,那么将为后续的数据抓取、运算、转换和校验打好基础,减少差错和重复工作量。

a) 报表概况

人民银行数据抽样报表一共有七张报表,笔者将其排序如下,其中

报文列表.png

l 灰底色的两张金融机构法人和分支机构报表本身字段要求简单,记录条数少,可以依据财务报告或者从其他渠道获得信息,不再赘述。

l 蓝色深浅相间隔的五张客户、贷款与担保物是重点,因为所需要的信息量较大,相互之间勾稽关系复杂,而且部分银行业金融机构可能并没有做好全面对接人民银行抽样标准的技术与数据准备。

b) 数据层级分析

为了更加精准地分析以上五张客户和信贷与担保业务所涉及的各个字段,有必要将报表的所有字段聚合到一个字段表之中,再根据报表主题划分,根据各个字段所属报表、字段名称以及报文要求判断各个字段之间存在多大程度上的依赖关系。

大多数同名字段在各个报文之间应该保持一致,例如“贷款合同编码”字段分别在“存量贷款”、“贷款发生额”、“担保合同”、“贷款担保物”四张报文之中一共出现四次。

类似的,“企业规模”和“企业出资人经济成分”这两个字段各自出现了三次。

其次,数据有不同层级,例如分别在客户与贷款报文之中出现的报送机构“金融机构代码”,属于全金融机构的信息,可以简单的在全局为相关报文的所有数据记录赋值。而上文提及的“企业规模”和“企业出资人经济成分”两个字段属于客户级信息,可以根据客户代码为相关报文的所有数据记录赋值。不过,最细粒度的交易余额与变动信息就只能够在贷款交易级逐笔借据计算。

字段频率分析.png

那么,如何从各孤立报文出发,使用Power Query合并所有字段,然后分级讨论呢?

c) 整合字段列表

Power Query超越VBA和Excel工作表函数的一个显著优点是可以处理嵌套型结构,例如文件夹、子文件夹、Excel工作簿、Excel工作表,工作表之中的数据表、筛选区域都可以被逐层深化处理。

所以,Power Query可以将文件夹之中的所有Excel文件作为一个整体处理,而每个Excel文件除了数据格式之外,文件名、文件类型、数据与内容以及标题,甚至文件夹地址和修改日期都可以展示在二维表之中作为被处理对象。

Power Query处理文件夹.png

所以,我们可以从人民银行数据抽取的表样存放的文件夹开始,从以上存储二进制文件的Content列之中深化读取报表模版,然后将报表列标题提取为List列表,然后再展开该List列表。获取报表名称和报表字段两列,最终生成数据透视表按照不同报表和字段展开分析。

核心语句

i. 将Content列之中的二进制文件Binary转化为Table,存储在新增加的sheets列之中

= Table.AddColumn(源, "sheets", each Excel.Workbook([Content], true,true))

ii. 提取以上sheets列之中嵌套的报表内容,即空表表头

= Table.AddColumn(添加列转换表, "字段", each Table.ColumnNames([sheets][Data]{0}))

在下方截图之中,可见每一张报表的列标题已经被提取,接下来点击红色圆圈之中的左右分叉箭头,将导致每一个List在行方向展开,然后就可以得到有报表名称和报表列标题的两列数据表。

提取列标题.png

iii. 导出数据,进行分析

将以上数据加载到excel工作表之中,然后目视观察,结合业务常识,将每一个字段标注划分到金融机构、客户、贷款交易和担保四级。然后基于字段列表,以前述数据层级为行字段,报文名称为列字段生成数据透视表。

贷款相关报文.png

从以上截图中,可以很容易的发现贷款余额与发生额大多数字段名称相同,而名称相同的字段大多数逻辑与数据格式也相同,这样可以迅速深入了解报文数据要求。


[1] 微软官方介绍:https://powerbi.microsoft.com/zh-cn/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,783评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,360评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,942评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,507评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,324评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,299评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,685评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,358评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,652评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,704评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,465评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,318评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,711评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,991评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,265评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,661评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,864评论 2 335