python数据分析的一些基本概念

数据分析

定义:

商业分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。

过程:

明确分析目的与框架、数据收集、数据处理(数据清洗、数据转换)、数据分析、数据展现和撰写报告等6个阶段

数据类型:

  • 表格型数据
  • 多维数组(矩阵)
  • 通过关键列
  • 间隔平均或不平均的时间序列

excel是最广泛的数据分析工具

为什么用python进行数据分析

  • 拥有巨大活跃的科学计算社区
  • 数据科学、机器学习、学界和工业界开发重要语言
  • 胶水语言,轻松集成旧有算法和系统
  • 不仅适用于研究和原型构建,同时也适用于构建生产系统

重要的python库

1.Numpy(Numerical python)

python科学计算的基础包

  • 快速高效的多维数组对象ndarray
  • 用于对数组执行元素级计算以及直接对数组执行数学运算的函数
  • 用于读写硬盘上基于数组的数据集的工具
  • 线性代数运算、傅里叶变换,以及随机数生成
  • 成熟的C API,用于python插件和原生C、C++、Fortran代码访问Numpy的数据结构和计算工具
  • 对于数值型数据,Numpy数组在存储和处理数据时要比内置的python数据结构高效的多。
  1. pandas
    pandas提供了快速便捷处理结构化数据的⼤量数据结构和函数。
    pandas兼具NumPy⾼性能的数组计算功能以及电⼦表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能,能更加便捷地完成重塑、切⽚和切块、聚合以及选取数据⼦集等操作
    数据操作、准备、清洗是数据分析最重要的技能(耗时最⻓)
  1. matplotlib
    最流行的用于绘制图表和其他二维数据可视化的python库
    适合创建出版物上用的图表
  1. ipython 和 jupyter
    执行 → 探索 工作流(探索、试错、重复)
    ipython web notebook → jupyter notebook(支持40多种编程语言)
  2. Scipy
    一组专门解决科学计算中各种标准问题域的包的集合
  3. scikit-learm
    scikit-learm成为python的通用机器学习的工具包
  4. statsmofels
    statsmodels包含经典统计学和经济计量学的算法

运行Jupyter Notebook

pip install ipython
pip install numpy
pip install jupyter
pip install pandas
pip install matplotlib
pip install scikitlearn

notebook是Jupyter项⽬的重要组件之⼀,它是⼀个代码、⽂本(有标记或⽆标记)、数据可

视化或其它输出的交互式⽂档。

Python的Jupyter内核是使⽤IPython。

Numpy

Numpy:数组和矢量计算

  • NumPy之于数值计算特别重要的原因之⼀,是因为它可以⾼效处理⼤数组的数据
  • NumPy是在⼀个连续的内存块中存储数据,独⽴于其他Python内置对象。NumPy的C语⾔编
  • 写的算法库可以操作内存,⽽不必进⾏类型检查或其它前期⼯作。⽐起Python的内置序列,
  • NumPy数组使⽤的内存更少。

NumPy的ndarray:⼀种多维数组对象

NumPy最重要的⼀个特点就是其N维数组对象(即ndarray), 该对象是⼀个快速⽽灵活的⼤

数据集容器。你可以利⽤这种数组对整块数据执⾏⼀些数学运算,其语法跟标量元素之间的运

算⼀样。

NumPy数组的运算

不⽤编写循环即可对数据执⾏批量运算。NumPy⽤户称其为⽮量化(vectorization)。⼤⼩相等的数组之间的任何算术运算都会将运算应⽤到元素级

pandas

pandas是专⻔为处理表格和混杂数据设计的,⽽NumPy更适合处理统⼀

的数值数组数据。

两个主要数据结构:Series和DataFrame

Series

Series是⼀种类似于⼀维数组的对象,它由⼀组数据(各种NumPy数据类型)以及⼀组与之相关的数据标签(即索引)组成

DataFrame

DataFrame是⼀个表格型的数据结构,它含有⼀组有序的列,每列可以是不同的值类型(数

值、字符串、布尔值等),DataFrame既有⾏索引也有列索引。

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

数据加载、存储和⽂件格式

读写⽂本格式的数据

pandas提供了⼀些⽤于将表格型数据读取为DataFrame对象的函数,其中read_csv和

read_table⽤得最多

read_csv  # 从文件、url、文件型对象中加载带分割符的数据。默认分割符为逗号
read_table # 从文件、url、文件型对象中加载带分割符的数据。默认分割符为制表符(‘\t’)
read_fwf  # 读取定宽列格式数据(也就是说,没有分割符)
read_clipboard  #读取剪贴板中的数据,可以看作read_table的剪贴板。再将网页转换为表格时很有用
read_excel #从Excel Xls或XLSX file读取表格数据
read_hdf #读取pandas写的HDF5文件
read_html 读取HTML文档中的所有表格
read_json  #读取JSON(JAVAScript Object Notation)字符串中的数据
read_msgpack #二进制格式编码的pandas数据
read_pickle  #读取python pickle格式中存储的任意对象
read_sas  # 读取存储于SAS系统自定义存储格式的任意对象
read_sql  # (使用SQLAlchemy)读取SQL查询结果为pandas的DateFrame
read_stata  # 读取stata文件格式的数据集
read_feather # 读取Feather二进制文件格式

需要详细知识留言整理。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,393评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,790评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,391评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,703评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,613评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,003评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,507评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,158评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,300评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,256评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,274评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,984评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,569评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,662评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,899评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,268评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,840评论 2 339

推荐阅读更多精彩内容