pandas有两种数据类型:series和dataframe
series是一维数组,可以看成一组数,其中每个数对应一个index标签,就是:0、1、2、3之类的
dataframe是一个二维数组,表格型的数据结构,跟excel差不多
数据导入,还有索引行和列什么的在标签栏里找,不在赘述。
想说的是数据清洗部分:
例如这个数据,他的others中包含两个数据,一个是性别,一个是婚姻状况。目的是将这两个数据分开。
1.检索文件中的others列中的字符串含有‘woman’的,并赋值给df1。如下
2.将性别和婚姻状况分隔,用split函数:
从上可以看出,split方法实际上是将你split(‘content’)的content(字符串)进行替换,直接替换成了“,”(逗号),并且进行分隔。而在分隔之后就可以理解为一个个的数,可以通过[0]、[1]的方法来选择第几个数。如下:
del将原来的others列给删除。
3.对于数字的处理:
转换为整数:
转换为浮点数: