今天想和大家聊一聊关于数据分析与可视化,鉴于才疏学浅,对大数据的底层就不瞎哔哔了。结合自己的一些实践经验谈一谈最上层的数据BI分析与展示,也就是下图数据仓库架构图中数据可视化的部分,顺便对比几个工具的特性。
既然是漫谈,所以想到什么就说什么,并不成体系。
抛开大数据的概念不谈,很多公司多少是有一些数据的积累,但是对数据分析上停留在了“最后一公里”。有很多日志、有原始数据库、有线下的各种Excel汇总表。
数据分析用Excel可以吗? 当然可以,就像是一把瑞士军刀,Excel+VBA加上一些扩展可以做很多数据分析工作。 玩转Excel是必须的,数据公式、图表、透视表是基础,会VBA算是加分项。新手通过Excel可以入门基础的数据分析,后期逐渐拓展。
数据分析的段位
前几天看了一篇文章,说到数据分析师有四个段位,各个段位对数学、数据分析工具、编程、有不同的技能要求。
数据分析专员
进阶数据分专员
数据分析师
数据科学家 / 数据挖掘工程师 / 数据可视化工程师
会SQL、SPSS、R和Python会一两种,可视化BI工具Tableau / Power BI / 熟练使用,基础的统计学熟练,对了,PPT和Excel一定要用得溜,再加上熟悉业务,就已经能满足大多数传统公司和互联网公司的业务要求了 。
首先我们得有数据分析的数据来源,就KK目前公司里面存在的数据来源有以下几类:
服务器日志,包括App、后台系统所有的操作日志,数据量最大,存储在服务器上
业务数据库,主要是几项主要业务的订单数据,客户数据等。在 Mysql中
接口数据,HTTP、FTP 数据,主要是其他合作接口提供数据
线下Excel报表,这部分数据杂乱,整理耗费的人力最大
在整理汇集抽取清洗各种数据源的过程是最艰难(恶心)的,通常因为分布在不同的地方,而且不是统一的结构,甚至不是结构化的数据。大一点的公司会搭建数据仓库,按照上面的数据仓库结构图进行数据归集,这个我没有发言权就略过~
然后说一说图表的类型,柱状图、条形图、散点图、玫瑰图、雷达图等,一图胜千言。按照不同的目的,根据上图选择下方对应的图表就可以了。
在实际分析的过程中其实是多种图表套用。举个例子,分析一个总销售额下每个各条业务线的组成,可以用饼状图/环形图,如果要加上时间维度的话就可以选用 折线图或者面积图。
数据分析的过程就是使用各种工具对数据进行抽取分析发现问题不断深入的过程,目前在数据分析的工具上有一个趋势是自助式分析,使用数据可视化BI工具连接数据源或者导入数据后使用可视化的操作,所见即所得的分析方式。
Tableau ,这个是KK用得最多的,而且也是数据BI领域的老大哥了,在国外很火,但是在国内本土化上面还有待提高,产品是好产品。收费,有试用期可以体验。
Fine report \ Fine BI,帆软是国内做BI本土化做得比较好的公司,使用上也比较不错。
Microsoft Power BI ,Excel是数据分析可视化的鼻祖。近些年,微软基于Excel开发了Power BI的一系列插件。
BDP个人版,类似tableau 但是个人感觉在数据分析上略弱,适用于简单的数据类型,漏斗图、词云、桑基图、热力地图比较有特点。
数据观,国内的一款BI工具,免费试用一个月,数据量大时处理上不如上面几个,可以结合自己情况试用。
其实这几款工具只要会其中的一款,其他的操作上大同小异,使用上学习起来也会很容易。 需要的是针对自身的数据情况选择合适的一两款就可以。
对业务人员来说通过简单的拖拽、钻取、组合就可以处理数据进行可视化的分析,创建自己需要的报表、图表的等,不用所有需求都排到数据分析师那里。
对数据分析师来说,完全可以直接根据需求搭建一个可交互的Dashboard,在交互效果和显示上会比静态的Excel更直观,更新一键操作。下图是我根据公司业务搭建的数据监控仪表板,可以实现数据链接动态变化,另外是一些案例。
可以直接选择相应的tab项变换数据源,链接数据源,实时更新也是可以的(下面几个是Fine BI 实现的)
数据分析语言
对于可视化的实现,除了通过上面的拖拽还有通过编程进行数据分析。其中R、python是提及比较多的两种语言
python之前有一点点的基础,不过都快忘了,最近开始学习R语言,主要是几个数据可视化的模块。
总结一下
数据能反映出业务中的问题,而可视化是将问题快速的展示出来的好方法(ps:有一句话说的是给专业的人看表,给不专业的人看图,哈哈哈),数据分析过程其实很有意思,抽丝剥茧一般分析数据,选择合适的图进行展示。
在数据分析的各个阶段可以选择使用的工具如下图,有编程基础的可以选择代码型,没有代码基础的选择界面型妥妥的。
上图数据可视化方面再补充几个:Power BI 、BDP、Fine-BI、QlikView
所以,在Excel 之外还有一大堆的数据分析、可视化的工具可以选择。各个工具有各个工具的特性,数据分析的核心不变,哪个工具能节省我们的时间我们就用哪个。当你熟悉了其中的一款,学习另一款就是一两天的事。
对了最后最后安利部电影,最近热映的《头号玩家》 有条件上4D的一定要上,IMAX的其次。看导演就是一句话:“我,斯皮尔伯格,买票!”
数据分析入门书籍推荐
1、《Head First Statistics》:深入浅出统计学
2、《数据之魅-基于开源工具的数据分析》
3、《数据挖掘-市场营销、销售与客户关系管理领域应用》
4、《R语言实战》
5、《精益数据分析》
推荐阅读:
我是KK 李kui,分享一些产品的看法,工具或者资料,赠人玫瑰 手有余香~