数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这里的数据也称观测值,是通过实验、测量、观察、调查等方式获取的结果,常常以数量的形式展现出来。
数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。
在统计学领域,有些学者将数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析。
描述性数据分析属于初级数据分析,常见的分析方法有对比分析法、平均分析法、交叉分析法等。而探索性数据分析以及验证性数据分析属于高级数据分析,常见的分析方法有相关分析、因子分析、回归分析等。
现状分析,原因分析,预测分析
数据分析过程主要包括6个既相对独立又互有联系的阶段。它们是:明确分析目的和思路、数据收集、数据处理、数据分析、数据展现、报告撰写等6步
体系化也就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。
营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等,而管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。这些都是经典的营销、管理方面的理论,需要在工作中不断实践应用,你才能体会其强大的作用。
数据来源:公司数据库,公开发行物和发行报告,互联网(政府网站等),市场调查。
数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法(参见图1-7)。一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。
数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图、帕雷托图等。
大多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。记住,在一般情况下,能用图说明问题的就不用表格,能用表格说明问题的就不用文字。
数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。所以,数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。
数据分析不应为了分析而分析,而是应该围绕你的分析目的(了解现状、找出业务变动原因、预测发展等)而进行分析。
只有对自己的目的有清晰的认识,你才知道要怎样去实现这个目的,需要通过哪些图表展现,才会知道这些图表是否能反映问题,自然而然地进行相应的问题分析,而不是连该说些什么都不知道。
仅有分析模型远远不够,围绕业务发现问题并解决问题才是数据分析的最终目的!不论高级的分析方法还是简单的分析方法,只要能够解决业务问题,就是好方法,正如我们常说的“不论黑猫还是白猫,只要能抓老鼠就是好猫”。
将数据转化为知识、结论和规律,就是数据分析的作用和价值。
对数据分析师的要求就不仅仅是单纯做分析了,更重要的是与相关业务部门进行合作,将数据真正应用到业务中,根据实际的业务发展情况识别哪些数据可用,哪些不适用,而不是孤立地在“真空环境”下进行分析。这就要求数据分析师不仅具备洞察数据的能力,还要对相关业务的背景有深入的了解,明白客户或业务部门的需求,从而将数据信息化、可视化,最后转化为生产力,帮助企业获得利润,这就是整个数据“供应链”。当然,数据分析师也需要理解这个“供应链”。
懂业务、懂管理、懂分析、懂工具,还要懂设计。懂业务也是数据敏感的体现。不懂业务的数据分析师,看到的只是一个个数字;懂业务的数据分析师,则看到的不仅仅是数字,他明白数字代表什么意义,知道数字是大了还是小了,心中有数,这才是真正意义的数据敏感性。
基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。
高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。
高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,也是数据分析中常用的指标,如GDP、总人口等。此外,绝对数也可以表现为在一定时间、地点条件下数量增减变化的绝对数,比如A国人口比B国人口多1000万人。
相对数是指由两个有联系的指标,对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。计算相对数的基本公式是:
相对数=比较数值(比数)/基础数值(基数)
分母是用做对比标准的指标数值,简称基数;分子是用做与基数对比的指标数值,简称比数。相对数一般以倍数、成数、百分数等表示,它反映了客观现象之间数量联系的程度。
频数是指一组数据中个别数据重复出现的次数。如图1-13的左图所示,某校A班共50名学生,按性别进行分组,分为男与女两个组别,男同学的频数为30,女同学的频数为20。
频率是每组类别次数与总次数的比值,它代表某类别在总体中出现的频繁程度,一般采用百分数表示,所有组的频率加总等于100%。还是用某校A班的例子,30个男同学在50个同学中出现的频率为60%,即(30÷50)×100%;而20个女同学在50个同学中出现的频率为40%,即(20÷50)×100%。
番数是指原来数量的2的N次方倍。比如翻一番为原来数量的2倍(21),翻两番为4倍(22)。如图1-15所示,这位公司发言人在讲话中就混淆了倍数与番数的概念。正确的说法应该是“公司产品销量翻一番(6.4 = 3.2×21),从去年的3.2万件提高到今年的6.4万件。此外,我们成本控制也很好,由20万元下降了50%,今年成本为10万元”。
同比是指与历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况。例如2010年12月与2009年12月相比,如图1-16的左图所示。
环比是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况。例如2010年12月与2010年11月相比
数据分析的六步曲:首先是明确分析目的和思路,然后是数据收集,第三步是将收集回来的数据进行处理,第四步是根据分析目的和思路进行数据分析,第五步是将分析出的结果通过图表的方式展现出来,最后一步是撰写数据分析报告。
数据分析三字经。
① 学习:先了解,后深入;先记录,后记忆;先理论,后实践;先模仿,后创新;
② 方法:先思路,后方法;先框架,后细化;先方法,后工具;先思考,后动手;
③ 分析:先业务,后数据;先假设,后验证;先总体,后局部;先总结,后建议。
构成政治环境的关键指标有:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、专利数量、国防开支水平、政府补贴水平、民众对政治的参与度等。
构成经济环境的关键指标有:GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。
构成社会文化环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。
构成技术环境的关键指标有:新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等因素。
何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何做(How)、何价(How much),这就构成了5W2H分析法的总框架。
例如我们需要了解公司产品的用户购买行为是怎样的。这时可在5W2H分析法的指导下整理分析用户购买行为的思路,建立用户购买行为分析框架。如图2-5所示,根据5W2H分析法列出了对用户购买行为的分析所需要了解的一些情况,比如用户购买的目的是什么,公司产品在什么方面吸引了用户等问题。
确定了分析框架后,我们再根据分析框架中的这些问题形成可量化的指标进行衡量和评价,例如月均购买次数、人均购买量、再次购买平均间隔时长。
逻辑树是分析问题最常使用的工具之一,它是将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。
把一个已知问题当成树干,然后开始考虑这个问题和哪些相关问题有关。每想到一点,就给这个问题所在的树干加一个“树枝”,并标明这个“树枝”代表什么问题,逻辑树的使用必须遵循以下三个原则。
★要素化:把相同问题总结归纳成要素。
★框架化:将各个要素组织成框架,遵守不重不漏的原则。
★关联化:框架内的各要素保持必要的相互关系,简单而不孤立。
产品(Product)、价格(Price)、渠道(Place)、促销(Promotion),即著名的4P营销理论,如图2-8所示。
★产品(Product):从市场营销的角度来看,产品是指能够提供给市场,被人们使用和消费并满足人们某种需要的任何东西,包括有形产品、服务、人员、组织、观念或它们的组合。
★价格(Price):是指顾客购买产品时的价格,包括基本价格、折扣价格、支付期限等。价格或价格决策关系到企业的利润、成本补偿,以及是否有利于产品销售、促销等问题。影响定价的主要因素有三个:需求、成本与竞争。最高价格取决于市场需求,最低价格取决于该产品的成本费用,在最高价格和最低价格的幅度内,企业能把这种产品价格定多高则取决于竞争者的同种产品的价格。
★渠道(Place):是指产品从生产企业流转到用户手上的全过程中所经历的各个环节。
★促销(Promotion):是指企业通过销售行为的改变来刺激用户消费,以短期的行为(比如让利,买一送一,营销现场气氛等等)促成消费的增长,吸引其他品牌的用户或导致提前消费来促进销售的增长。广告、宣传推广、人员推销、销售促进是一个机构促销组合的四大要素。
网站分析的发展已经较为成熟,有一套成熟的分析指标。比如IP、PV、页面停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数、流失率、关键字搜索、转化率、登录率,等等。遇到这么多指标,所有的指标都要采用吗?什么指标该采用?什么指标又不该采用?各指标之间有何联系?哪个指标先分析?哪个指标后分析?
所以我们需要梳理它们之间的逻辑关系,比如利用用户使用行为理论进行梳理。小白,这就是我们要学习的另外一个理论,即用户使用行为理论,也是非常实用的数据分析指导理论之一。
用户使用行为是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户
★PEST分析理论主要用于行业分析。
★4P分析理论主要用于公司整体经营情况分析。
★逻辑树分析理论可用于业务问题专题分析。
★用户行为理论的用途较单一,就是用于用户行为研究分析。
★5W2H分析理论的用途相对广泛,可用于用户行为分析、业务问题专题分析等。
当然,这些方法论也可以相互嵌套使用。例如,用逻辑树分析法搭建分析框架,而下一层级的问题可以从4P的角度分析,也可以用5W2H法分解问题。记住根据实际情况灵活选择使用,切勿生搬硬套。