从一个从业者的角度说说对数据分析行业的理解,希望能让“数据分析行业”在你脑海中有一个清晰的地图,也希望能够帮助陷入转行挣扎的你看清方向。
下面总结了7种数据分析常用工具以及他们的功能和优缺点,希望能够帮助到你们
excel
Excel算是最常用,使用范围最广的数据分析工具。常被归类到办公软件的类别中,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。
Excel适合于处理简单的数据分析问题,从Excel2010版本开始,Excel增加了数据分析工具包,工具包不能直接使用,而是需要使用者手动加载后才能显示菜单栏中。
常用功能和优点:
1. Data Sources 数据源:Excel是一种灵活,易于使用的电子表格,通常用于创建数据集。它可以借助数据连接功能将外部数据源中的数据提取到电子表格中,还可以从Web,Microsoft Query,SharePoint列表,OData Feed,Hadoop文件(HDFS)等来源获取数据。因此,Excel文件通常用作Power BI和Tableau的数据源。
2. 数据发掘:使用Excel需要充分了解数据特点才能找到关键的信息。Excel中的“股票”和“地理”等选项有助于快速获取数据的详细信息。
3. 数据模型和适用范围:Excel专主要用于创建具有广泛功能的结构化和简单数据模型,最适合对结构化数据进行统计分析。
4. 数据可视化:在使用excel进行数据可视化时,需要首先处理存在的数据,然后手动创建不同的图表,图形。为了使可视化易于理解,需要好好学习excel的功能。
5. Dashboards 仪表盘:Excel提供了有限的创建仪表板功能,刷新过程繁琐。
6. 用户界面:需要掌握宏和Visual Basic脚本的知识,才能发挥Excel的最大潜力。
7.语言依赖:Excel以及其他Microsoft Office程序的编程语言是VBA。另外,当你从一个透视表选取项目时,Excel使用MDX来检索字段和数值。从Analysis Services多维数据集中导入数据时,也可以手动生成MDX查询。
8. 表现:Excel的运行速度适中,但是没有办法加快。
9. 数据可得性:Excel是特定于用户的。但是,你可以使用Power BI来共享你的Excel工作簿给你的同事们。
关键知识点:excel基本函数(sumif,countif,left,rand等)、lookup(vlookup/hlookup),数据透视表
Power BI
Power BI 是一种收集、分析和可视化数据以形成可行见解的有效方法。它帮助初创公司和企业通过操作实时数据源来创建具有见解的仪表板。
这些仪表板提供了实时见解,以了解在组织内进行的流程的整体性能。你甚至可以外包 Power BI 咨询和开发,以获得最佳效果。
Power BI能够连接到用户的外部资源,包括SAP HANA,JSON,MySQL等。它可以连接到Microsoft Azure数据库,第三方数据库,文件和在线服务,例如Salesforce和Google Analytics。
Power BI的数据模型专注于数据提取,并轻松构建潜在的复杂数据模型。
常用功能和优点:
1. Data Sources 数据源:Power BI能够连接到用户的外部资源,包括SAP HANA,JSON,MySQL等。它可以连接到Microsoft Azure数据库,第三方数据库,文件和在线服务,例如Salesforce和Google Analytics。当用户从多个来源添加数据时,Tableau和Power BI会自动关联。但Power BI连接有限的数据源,同时会在每月更新中增加其数据源连接器。
2. 数据发掘:Power BI可以自由浏览数据而无需提前知道所需的答案。可以先发现关联和趋势,然后深入了解导致其发生的原因。这些系统能一目了然地了解数据。
3. 数据模型和适用范围:Power BI的数据模型专注于数据提取,并轻松构建潜在的复杂数据模型。
4. 数据可视化:使用Power BI将侧边栏中的数据插入到可视化中。它还允许用户通过使用自然语言进行查询来创建可视化效果。当深入到数据集进行分析时,Power BI确实设置了3500个数据点限制。但是,此数据点限制有一些例外:R视觉效果的最大数据点限制为1,50,000,Power BI视觉效果的最大数据点限制为30,000数据点,散点图的最大数据点限制为10,000数据点 。
5. Dashboards 仪表盘:Power BI可以轻松刷新仪表板,以创建美观的仪表板
6. 用户界面:Power BI 的界面不需要编码知识就能开发精细且复杂的可视化报表。Power BI 用户界面非常易学,也因此被用户偏爱。
7.语言依赖:DAX和M是Power BI使用的语言;两种语言在创建Power BI模型时,有着不同的使用方式,且相互独立。M是一种公式查询语言。在将数据加载到Power BI模型之前,可以使用M语言在power query编辑器中查看、编辑和准备数据。
8. 表现:Power BI更加关注报告和分析模型,使用Power BI你可以通过将你的仪表盘发表到一个工作空间里来保存和共享它,其他人可以在上面合作编辑。存储容量限制取决于工作区的类型(共享或高级)。
有 200 多个预定义代码的DAX 数据分析功能,可以对数据执行特定的分析功能。
内容翔实的报告在许多方面构成了数据的结构化表示,并从数据中揭示了有用的见解。
从不同的数据源获取数据,例如从结构化到非结构化,以及基于云端的系统到内部部署系统。
可使用 Office 365 套件通过 Power Query 和 Power Map 轻松集成到大数据分析中。
关键知识点:增删改查,特别是条件查询(where, group by, order by等)
Tableau
Tableau发行于2003年,是一种交互式数据可视化软件,被公认为增长最快的数据可视化工具,主要是因为它能够帮助用户查看和理解数据。它将原始数据转换成可理解的视觉效果,从而改变人们使用数据进行问题解决和决策的方式。
常用功能和优点:
1. Data Sources 数据源:Tableau支持数百种数据连接器,包括在线分析处理(OLAP)和大数据(例如NoSQL,Hadoop)以及云数据。
2. 数据发掘:通过Tableau,你可以自由浏览数据而无需提前知道所需的答案。可以先发现关联和趋势,然后深入了解导致其发生的原因。这些系统能一目了然地了解数据。
3. 数据模型和适用范围:Tableau可以创建简单的数据模型,例如单个表,也可以创建更复杂的数据模型,其中多个表使用关系,联接和联合的不同组合。它最适合快速,轻松地表示大数据,有助于解决大数据问题。
4. 数据可视化:使用Tableau,用户可以创建不同类型的基线可视化图表,包括热图,折线图和散点图。此外,用户可以创建数据“如果”的情况,还可以自由地在分析中使用任何数量的数据点。
6. 用户界面:Tableau 的界面不需要编码知识就能开发精细且复杂的可视化报表。Tableau有一个智能用户界面,能够容易地创建仪表盘,但Power BI更简单。
7.语言依赖:Tableau的软件工程师使用多种编程语言,但组成Tableau Desktop代码最主要的语言是C++。
8. 表现:Tableau和Power BI运行速度也适中但是可以优化和增强,Tableau胜在速度和能力。
9. 数据可得性:在Tableau上创建的可视化报表可以在Tableau服务器上被保存和共享给其他的Tableau使用者。
Tableau可以创建简单的数据模型,例如单个表,也可以创建更复杂的数据模型,其中多个表使用关系,联接和联合的不同组合。它最适合快速,轻松地表示大数据,有助于解决大数据问题。
MySQL
MySQL 作为互联网中非常热门的数据库,在高并发业务场景下,一条好的 MySQL 语句能为企业节省大量的运作时间和成本,这也是为何互联网大厂面试官最爱考察数据库底层和性能调优的原因。
因此,了解其底层原理和架构的设计非常重要,尤其是MySQL的存储引擎,很大程度上决定了 MySQL 整体的执行效率和工作性能。
SPSS
SPSS是世界上最早的统计分析软件。
常用功能和优点:
1、操作简便:界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。
2、编程方便:具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。
3、功能强大:具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。
4、数据接口:能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件,Excel的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件。
5、模块组合:SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。
6、针对性强:SPSS针对初学者、熟练者及精通者都比较适用。并且很多群体只需要掌握简单的操作分析,大多青睐于SPSS。
SAS
SAS是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。SAS把数据存取、管理、分析和展现有机地融为一体。
常用功能和优点:
1、功能强大,统计方法齐,全,新:SAS提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及多变数分析的多种统计分析过程,几乎囊括了所有最新分析方法,其分析技术先进,可靠。分析方法的实现通过过程调用完成。许多过程同时提供了多种算法和选项。
2、使用简便,操作灵活:SAS以一个通用的数据(DATA)步产生数据集,尔后以不同的过程调用完成各种数据分析。
其编程语句简洁,短小,通常只需很小的几句语句即可完成一些复杂的运算,得到满意的结果。
结果输出以简明的英文给出提示,统计术语规范易懂,具有初步英语和统计基础即可。
使用者只要告诉SAS“做什么”,而不必告诉其“怎么做”。
同时SAS的设计,使得任何SAS能够“猜”出的东西用户都不必告诉它(即无需设定),并且能自动修正一些小的错误(例如将DATA语句的DATA拼写成DATE,SAS将假设为DATA继续运行,仅在LOG中给出注释说明)。对运行时的错误它尽可能地给出错误原因及改正方法。因而SAS将统计的科学,严谨和准确与便于使用者有机地结合起来,极大地方便了使用者。
3、提供联机帮助功能:使用过程中按下功能键F1,可随时获得帮助信息,得到简明的操作指导。
Python
Python是一种面向对象、解释型计算机程序设计语言。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块轻松地联结在一起。
常用功能和优点:
1.简单:Python是一种代表简单主义思想的语言。阅读一个良好的Python程序就感觉像是在读英语一样,尽管这个英语的要求非常严格!Python的这种伪代码本质是它最大的优点之一。它使你能够专注于解决问题而不是去搞明白语言本身。
2.易学:就如同你即将看到的一样,Python极其容易上手。前面已经提到了,Python有极其简单的语法。
3:免费开源:Python是 FLOSS(自由/开放源码软件)之一。简单地说,你可以自 由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。FLOSS是基于一个团体分享知识的概念。这是为什么 Python如此优秀的原因之一——它是由一群希望看到一个更加优秀的Python的人创造并经常改进着的。
4:高层语言:当你用Python语言编写程序的时候,你无需考虑诸如如何管理你的程序使用的内存一类的底层细节。
5:可移植性:由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工 作在不同平台上)。如果你小心地避免使用依赖于系统的特性,那么你的所有Python程序无需修改就可以在下述任何平台上面运行。这些平台包括 Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS /390、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE甚至还有PocketPC和Symbian!
6.面向对象:Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语 言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。与其他主要的语言如 C++和Java相比,Python以一种非常强大又简单的方式实现面向对象编程。
7:可扩展性:如果你需要你的一段关键代码运行得更快或者希望某些算法不公开,你可以把你的部分程序用C或C++编写,然后在你的Python程序中使用它们。
8.可嵌入性:你可以把Python嵌入你的C/C++程序,从而向你的程序用户提供脚本功能。
9:丰富的库:Python标准库确实很庞大。它可以帮助你处理各种工作,包括正则表达式、 文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户 界面)、Tk和其他与系统有关的操作。记住,只要安装了Python,所有这些功能都是可用的。这被称作Python的“功能齐全”理念。除了标准库以 外,还有许多其他高质量的库,如wxPython、Twisted和Python图像库等等。
总的来说,如果想要从事数据分析这个岗位,学会用Python是非常有必要的!Python确实是一种十分精彩又强大的语言。它合理地结合了高性能与使得编写程序简单有趣的特色。
关键知识点:numpy,pandas,matplotib,seaborn包的熟练使用
python核心知识导图
关注公众号:数据分析轻松学,即可获取完整版
注意,python可以干的事儿太多了,从web开发到算法模型,瞄准你的目标-数据分析,专注学我说的这几个包就可以了。