2021-06-13第一章:数据载入及初步观察

1.1 载入数据

1.1.1 任务一:导入numpy和pandas

截屏2021-06-13 15.13.01.png

1.1.2 任务二:载入数据
1)相对路径:以当前文件夹位置为基准的路径
f = open('./titanic/test.csv')

2)绝对路径:完整的路径

  • ../ 表示当前文件所在的目录的上一级目录

  • ./ 表示当前文件所在的目录(可以省略)

  • / 表示当前站点的根目录
    使用os.getcwd() 获取得知文件当前工作目录路径(绝对路径)
    用pd.read_csv() 和pd.read_table()读取数据时,可以得到


    截屏2021-06-15 09.20.32.png

    截屏2021-06-15 09.20.42.png
  • pd.read_csv()默认分隔符为',' (逗号)

  • pd.read_table()默认分隔符为'/t' (tab)
    用pd.read_csv()和pd.read_table()读取csv文件时,二者的呈现不同,前者更加清晰,后者数据用逗号隔开,相对不清晰

用pd.read_table()读取csv文件时,需要调整参数,加上',' 即可得到与pd.read_csv()读取csv文件时的呈现相同(如图)


截屏2021-06-15 12.15.23.png

TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符

1.1.3 任务三:每1000行为一个数据模块,逐块读取

截屏2021-06-15 12.41.40.png

逐块读取的目的在于将文本分成若干块,以1000个行为为一个数据模块,chunksize=1000,对数据进行逐块统计的合并处理

1.1.4 任务四:将表头改成中文,索引改成乘客ID
header=0 表示文件第0行(索引从0开始)为列索引,这样加names会替换原来的列索引。

截屏2021-06-15 13.00.09.png

1.2 初步观察

1.2.1 任务一:查看数据基本信息
查看数据基本信息 df.info()

1.2.2 任务二:观察表格前10行和后15行数据

  • df. head (10) 和 df. tail (15)
    若将二者合并一起观察即为


    截屏2021-06-15 13.09.26.png

1.2.4 任务四:判断数据是否为空,空的返回True,其余返回False

1.3 保存数据

  • df.to_csv('./titanic/train_Chinese.csv') 是dataframe类的方法,保存csv文件到相对位置下

1.4 知道数据叫什么

1.4.1 任务一:了解dataframe和series,写个小例子

  • numpy具有优秀的计算机能,pandas在numpy的基础上,具有数据分析能力
  • pandas一维数据结构:Series(向量)二维数据结构:Dataframe
    pd.Series() 即可创建series函数


    截屏2021-06-15 14.18.31.png

    pd.Dataframe()创建Dataframe结构


    截屏2021-06-15 14.36.34.png

1.4.2 任务二:载入数据

  • df = pd.read_csv('./titanic/train.csv')

1.4.3 任务三:查看dataframe每列项

  • df.columns

1.4.4 任务四:查看Cabin所有项

  • df.Cabin

1.4.5 任务五:删除多余列
发现test_1.csv与train.csv的区别在于列a

  • df = pd.read_csv('./titanic/test_1.csv')
  • del df['a']

1.4.6 任务六:隐藏多个指定列

  • df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
    axis=1 代表跨列,axis=0代表跨行
    若用drop语法完成任务五,即为
  • df.drop('a',axis=1)

【思考回答】
若需完全删除数据结构,即为

  • df.drop('columns',axis=1,inplace='True')
  • 在这里 就是df.drop('a',axis=1, inplace='True') 使用inplace就将原数据覆盖

1.5筛选逻辑

1.5.1 任务一:以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。

  • df[df["Age"]<10]

1.5.2 任务二:以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage= df[(df["Age"]>10)&(df["Age"]<50)]
&表示两组数据集合

1.5.3 任务三:将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

截屏2021-06-15 19.37.54.png

如果缺少了midage = midage.reset_index(drop=True)这一步骤,我们会发现得出的数据不同,reset前的midage最后一条index的数字是890,但reset后最后一条index的数字是575,说明过滤掉了一些数据,那么没有reset这个步骤的话,得到的index=100的数据不一定是第100条的数据

1.5.4 任务四:将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来

  • midage.loc[[100,105,108],['Pclass','Name','Sex']]
  • loc只能通过index和columns来取,不能用数字

1.5.5 任务五:使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来

  • midage.iloc[[100,105,108],[3,4,5]]
  • iloc只能用数字索引,不能用索引名

1.6 了解数据

1.6.1 任务一:利用Pandas对示例数据进行排序,要求升序

  1. 行索引升序
  • df.sort_index(axis=0, ascending=True)
  • axis=0 代表行,ascending=True 代表升序
  1. 列索引升序
  • df.sort_index(axis=1, ascending=True)
  • axis=1 代表列
  1. 列索引降序,ascending=False 代表降序
  • df.sort_index(axis=1, ascending=False)
  • ascending=False 代表降序
  1. 让任选两列数据同时降序排序
  • df.sort_values(by=['e','d'],ascending=False)
  • 发现df.sort_index(axis=1,by=['e','d'],ascending=False)运行错误:sort_index()不与by共用

1.6.2 任务二:对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列

  • df.sort_values(by=['票价','年龄'],ascending=False)
    同时考虑以下关系
  • df.sort_values(by=['票价','是否幸存'],ascending=False)
  • df.sort_values(by=['是否幸存','乘客等级(1/2/3等舱位)'],ascending=True)
  • df.sort_values(by=['是否幸存','性别'],ascending=False)
  • 发现票价高的,乘客等级高的,男性,存活率大

1.6.3 任务三:利用Pandas进行算术计算,计算两个DataFrame数据相加结果

截屏2021-06-15 21.13.14.png

截屏2021-06-15 21.13.21.png

  • 对应的行和列的值会相加,没有对应的会变成空值NaN
  • frame_a * frame_b

1.6.4 任务四:通过泰坦尼克号数据如何计算出在船上最大的家族有多少人?

  • 最大的家族人数即为乘客的(兄弟姐妹个数+父母子女个数)的最大值
  • max(df['兄弟姐妹个数'] + df['父母子女个数'])

1.6.5 任务五:学会使用Pandas describe()函数查看数据基本统计信息

  • frame2.describe()将会看到数据基本信息统计
    count : 样本数据大小
    mean : 样本数据的平均值
    std : 样本数据的标准差
    min : 样本数据的最小值
    25% : 样本数据25%的时候的值
    50% : 样本数据50%的时候的值
    75% : 样本数据75%的时候的值
    max : 样本数据的最大值

1.6.6 任务六:分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据,你能发现什么?

  • 用df['票价'].describe()查看某一列数据基本统计数据


    截屏2021-06-15 21.37.17.png
  • 得知票价平均值约32.2,最大值512.32,可知票价差距很大;标准差约为49.69,票价波动大
  • 得知幸存概率较低
  • 得知男性乘客有577名
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容