数据分析 | 天池 - 资金流入流出预测 经验总结

图片源自天池官方网站

上一篇:数据分析 | 我怎么选择数据分析比赛网站的

2016年11月左右我刷知乎开始关注了数据分析这一块的内容,而我的工作很快就在2016年12月得知有了一些变化,自身精神状态还算不错也没有因为工作上的一点变化而状态消沉甚至更加努力。从2017年1月开始我就按照知乎上的如何快速成为数据分析师?的方法和书单开始学习,主要看这几本书:《统计学》、《利用Python进行数据分析》、《R语言实战》、《深入浅出数据分析》。纸上得来终觉浅,技术的玩意最终还是要真刀真枪地运用才能检验成果。在《R语言实战》我还没有看完的情况下就参加了天池的比赛,因为我那会觉得所学的大概已经足够应付我所要面对的内容。

选择资金流入流出预测这个比赛是因为自己本身所涉及的行业是银行业,单纯从业务上讲是对自身有好处的。比赛总共提供了4张表:用户信息表、用户申购赎回数据表、收益率表、上海银行间同业拆放利率(Shibor)表,要求通过这四张表的历史数据预测未来三十天整体的申购赎回量。从结果上来看,我们可以单纯只用一张表即用户申购赎回数据表就能预测结果了,但是为什么还要提供这些额外的信息呢?让我们抛开预测目标结果,只从提供的数据看就可以联想到很多可以好奇的内容:什么样的人(男女、城市、星座等比例)买入余额宝?申购赎回量的大小分析,申购赎回的趋势变化、上海银行间同业拆放利率(Shibor)表是什么含义、有什么作用?这些问题都可以为你做接下来的分析进行判断和微调。

电脑配置

操作系统:Windows 10 64位

处理器:Inter i7

内存:8g

硬盘:固态硬盘500G

比赛提供了从20130701到20140831的数据,数据量最大的是用户申购赎回数据表,总共有2840421条数据。由于学习了Python和R语言,因此最开始我都有尝试读取数据,结果Windows下的Python面对用户申购赎回数据表的数据直接Memory Error,只能放弃Python。Linux环境下应该不会有问题,看到很多人还是用了Python去实现,我没有尝试使用,各位可以考虑。而R Studio界面之简洁友好、读取数据又快又好、没有半点问题,最终是采取R语言来实现的。通过前期的学习只了解到了回归的处理方法而不知道更多的算法名称,我曾尝试使用回归算法去处理问题,但是其结果我并没有提交到平台上并不知道成绩到底如何。阿里的开发者论坛有很多人的经验分享,我在那边又获得了许多思考同时也了解到了一些分析方法的名称:时间序列分析、聚类分析、分类分析、关联分析等等。从题目上看和自身的经验上看,由于周末的特殊性自然会舍不得在周末的时候从中提取现金而影响那一点羊毛的,带有时间性,因此选择了时间序列分析。实际上,论坛上很多人分享的也是采用这个方法解决。在进行数据分析之前还有这样几个步骤:数据清理(消除噪音和删除不一致数据)、数据集成(多种数据源可以组合在一起)、数据选择(提取与分析任务相关的数据)。我直奔着结果而去,整合了用户申购赎回数据表的数据得到了所有每天的总购买量和总申购量,通过散点图观察了总购买量和总申购量的变化数据。


日期~总申购量


日期~总赎回量

从上面两个图可以发现2014年之前不管是总申购量还是总赎回量都比较少,但都在稳步上升。除了2014年初期总申购量有一个爆发,总申购量和总赎回量都比2013年有大幅度的增长而且维持的都比较平稳。仅仅从这两幅图就可以提出两个问题:1.为什么总申购量在2014年初会有一个爆发?2.2014年总申购量和总赎回量大幅度增长且平稳的原因是什么?关于第一个问题自然而然会想到收益率,收益率高购买的人自然也会多了。


日期~万份收益

这幅图也暴露了一个问题:2013年的那段时间收益率其实一点也不低,为什么总申购量和总赎回量都没有2014年的高呢?这个问题和上面的第二个问题其实是一样的,若对余额宝初期还有一点印象的话便会记得某一年的春节余额宝收益率高到让很多人把钱存入。查查新闻你就了解到余额宝是在2013年6月份推出的,2013年是属于余额宝的发展阶段,2014年春节高额收益率收获很多资金,当收益率下降了人们形成了撸羊毛的思想而且怎样都比存银行高,流动就比较稳定了。综合下来,我选择只使用了2014年4月开始的数据作为历史数据进行推断。前期的这些工作其实都不用花很多时间,我花的最多时间便是理解ARIMA(p,d,q)算法上。至今也没有搞得很懂,反正就按着自己的理解用了呗~至少看我决定的p,d,q三个数值得到的AIC值并不算很小,但是AIC到底在哪个范围里算小没有定论,唯一可以确定的是越小是越好的,剩下的只有将得到的数据上传之后得到排名之后才能评价了。

就这样,我提交了自己的数据得到于我而言意外的理想成绩。(第43位)


我的天池成绩排行


这篇经验总结其实并没有什么特别干货的内容存在,我相信我文中的思考思路大多数人都能想到,还有很多可以细细揣摩优化的,而我只是想要总结自己唯一一点比赛经验和仅有的成绩带给自己的成就感。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容