关于数据分析这个大的概念,有三个容易混淆的词:数据探索、数据分析以及数据可视化。在最开始听到数据分析师这个词的时候,我对这个工作的理解就是使用图标将数据进行展示,得到一系列的结论。在我有机会接触数据分析,摸索着来的时候,我对数据分析工作的理解就是挖掘价值点。现在我依然还是个门外汉,某个机缘巧合下,有幸一窥某个大师进行了一次数据分析,并且成功被问住了之后,开始认真思考数据分析的意义。
数据分析的意义是价值点吗?
在提出“数据分析的意义是价值点吗”这个问题之前,我没有思考过价值点指的是什么。所以什么是价值点?是提升销量的关键点吗?是客户流失的决定性因素吗?在没有考虑客户和应用场景下的这些所谓的价值点,或许都不能算是真正的价值点。能够解决用户的痛点、帮助用户解决问题的产物或许才能够称为价值点。所以,用户的问题是什么?这个问题或许才是数据分析的真正意义。用户的问题就像是一个靶子,当立好了靶子之后,再去进行数据分析就能更好的找到得到有意义的结果。
数据分析 = 数据探索?
数据分析和数据探索这两个概念很容易混淆,有一个词叫探索性数据分析(EDA),这更加深了这两个概念混淆的可能性。数据分析着重在于分析,在前边已经提到了我对数据分析的理解,即对于确定的问题寻找因果、探查关联、为解决问题提供帮助。而数据探索的重点更多的是在探索,数据摆在那里,需要做的就是从数据中发现问题。
作为一种常识,如果一个网站的订单增加了,那么可以认为销售额是提升的。如果数据显示的恰恰相反呢?订单增加了,然而销售额却下降了。这个就是数据探索所要发现的问题。EDA 之父 John Tukey 曾言,「探索性数据是一种态度,是对我们相信存在抑或不存在的事物保持灵活的审视」。基于常识、经验以及现有的知识等,对数据进行审视,从中发现问题大概就是数据探索的意义。
数据可视化是什么?和前两者的区别?
在Nathan Yau所著的《鲜活的数据》一书中,将数据可视化比做讲故事,即让数据说话。数据分析和数据探索的都是人类凭借着自己经验、技巧、思考等手段,去发掘出数据中隐藏的关系、某些因果、反常的问题等,而数据可视化则是将这些发现的内容直白的展示给观众。或者可以理解为,数据可视化是一种工具,可以帮助研究者更加高效的将数据中潜藏的内容找出来。
以上便是我的理解。我还只是个门外汉,希望可以更多的窥探到这一领域的内容。