Python数据处理（二）：处理 Excel 数据

在本章和下一章里，我们将研究两种文件类型实例：Excel 文件和 PDF，并给出几条一般性说明，在遇到其他文件类型时可以参考。

处理 Excel 比上章讲的处理 CSV、JSON、XML 文件要难多了，下面以 UNICEF(联合国儿童基金会) 2014 年的报告为例，来讲解如何处理 Excel 数据。

相关文章：

一、安装 Python 包

要解析 Excel 文件，需要用第三方的包 xlrd。我们用 pip 来安装第三方包，在命令行输入以下安装命令：

pip install xlrd

如果提示 command not found ，则需要先安装 pip 。安装方法见 pip 官网：https://pip.pypa.io/en/stable/installing/ 。

二、解析 Excel 文件

想从 Excel 工作表中提取数据，有时最简单的方式反而是寻找更好的方法来获取数据。直接解析有时并不能解决问题。所以在解析之前先看看能不能找到其他格式的数据，比如 CSV、JSON、XML等，如果真找不到再考虑 Excel 解析。

处理 Excel 文件主要有三个库。

xlrd
读取 Excel 文件。
xlwt
向 Excel 文件写入，并设置格式。
xlutils
一组 Excel 高级操作工具(需要先安装 xlrd 和 xlwt)。

在用到这三个库的时候你需要分别安装。但本章只会用到 xlrd。

下面一步步的讲解如何解析 Excel 文件。

先导入 xlrd 库，然后打开工作簿并保存在 book 变量中。

import xlrd
book = xlrd.open_workbook('./resource/data.xlsx')

与 CSV 不同，Excel 工作簿可以有多个标签(tab)或工作表(sheet)。想要获取数据，我们要找到包含目标数据的工作表。

如果有几个工作表，你可以猜一下索引号，但如果工作表很多的话就没法猜了。所以你应该知道 book.sheet_by_name(somename) 命令，其中 somename 是你要访问工作表的名字。

我们来看一下工作表都有哪些名字:

import xlrd

book = xlrd.open_workbook('./resource/data.xlsx')

for sheet in book.sheets():
    print(sheet.name)

book.sheets() 列出所有的 sheet，sheet.name 打印出 sheet 的名字。输出：

Data Notes
Table 9

我们要找的工作表是 Table 9。所以我们把这个名字添加到脚本中:

import xlrd

book = xlrd.open_workbook('./resource/data.xlsx')

sheet = book.sheet_by_name('Table 9')
print(sheet)

运行会输出类似这样的值：

<xlrd.sheet.Sheet object at 0x106af8898>

要查看 sheet 都有什么方法，可以用 print(dir(sheet))。从打印的结果中找到一个 nrows 方法，sheet.nrows 返回这个 sheet 一共有多少行。我们将用 nrows 来遍历每一行的内容。

import xlrd

book = xlrd.open_workbook('./resource/data.xlsx')

sheet = book.sheet_by_name('Table 9')

for i in range(sheet.nrows):
    print(sheet.row_values(i))

运行程序得到如下图的输出：

image

取到表格的数据之后，接下来就该想怎么格式化这些数据，将有用的信息提取出来。提取信息的格式有很多种，这里我们用其中一种：

{
  u'Afghanistan': {
        'child_labor': {
            'female': [9.6, ''],
            'male': [11.0, ''], 
            'total': [10.3, '']
        },
        'child_marriage': {
         'married_by_15': [15.0, ''],
         'married_by_18': [40.4, '']
        } 
    }, 
  u'Albania': {
    'child_labor': {
        'female': [9.4, u'  '],
        'male': [14.4, u'  '],
      'total': [12.0, u'  ']
    },
    'child_marriage': {
        'married_by_15': [0.2, ''],
        'married_by_18': [9.6, '']
        } 
    },
    ...
}

如何确定有用的数据从第几行开始

能够读取 Excel 数据之后，还要从中提取有用的信息，了解如何从纷繁复杂的数据提取关键数据很重要。

方法一：用软件打开Excel直观判断

首先最简单的方法是用软件打开 Excel 文件直观的看，如下图：

image

我们上面定义的格式是以国家为键，所以首先应该找到国家。观察 Excel 表格，从第15 行开始显示国家数据。Child labour 和 Child marriage 的数据从第E列到第N列。

方法二：用程序多次试验

如果不想用第一种方法，或者电脑上没有软件可以打开文件，可以尝试第二种方法：写代码多次试验。

这个方法用到了计数器原理。先打印前10行，看有没有想要的数据，如果没有再打印11-20行，这样一个区间一个区间的排查，直到确定准确的行数。

代码如下：

import xlrd

book = xlrd.open_workbook('./resource/data.xlsx')

sheet = book.sheet_by_name('Table 9')

count = 0
for i in range(sheet.nrows):
    if count < 10:
        row = sheet.row_values(i)
        print(i, row)
    count += 1

先打印排查了前10行，查看控制台输出没有找到想要的国家数据，继续调整试验：

import xlrd

book = xlrd.open_workbook('./resource/data.xlsx')

sheet = book.sheet_by_name('Table 9')

count = 0
for i in range(10, sheet.nrows):
    if count < 10:
        row = sheet.row_values(i)
        print(i, row)
    count += 1

我们已经知道了前10行没有想要的数据，所以 range 直接改成 range(10, sheet.nrows) 从第10行开始打印，其他代码不变。再次运行程序，得到如下输出：

image

可以看到从第14行开始出现了国家名字，这就是我们要找的数据。

三、组装数据

找到想要的数据在第几行第几列之后，就可以按之前定义的格式写代码提取组装数据啦。

import xlrd
import pprint

book = xlrd.open_workbook('./resource/data.xlsx')

sheet = book.sheet_by_name('Table 9')

# 定义存放数据的字典
data = {}
for i in range(14, sheet.nrows):
    row = sheet.row_values(i)
    # 取出国家名字
    country = row[1]
    # 按照给定的格式组装数据
    data[country] = {
        'child_labor': {
            'total': [row[4], row[5]],
            'male': [row[6], row[7]],
            'female': [row[8], row[9]],
        },
        'child_marriage': {
            'married_by_15': [row[10], row[11]],
            'married_by_18': [row[12], row[13]],
        }
    }
    # 最后一个国家是 Zimbabwe，判断到 Zimbabwe 之后就 break 跳出循环
    if country == 'Zimbabwe':
        break

# 打印数据
pprint.pprint(data)

打印复杂对象时使用 pprint 格式更美观。

四、总结

处理 Excel 的三个库：xlrd，xlwt，xlutils。根据需要决定用哪些库。
解析出 Excel 之后，通过两种方法确定想要数据的位置：用图形化界面打开直接观察和通过程序一步步筛选。如果不知道一个对象都有什么命令，可以打印 dir(obj) 来查看，其中 obj 是想要查看相关命令的对象。
提前想好最终想输出的格式，有格式之后组装数据会比较容易。
打印复杂对象时使用 pprint 格式更美观。

以上就是用 python 解析 Excel 数据的完整教程。下节会讲处理PDF文件，以及用Python解决问题，欢迎关注。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342

Python数据处理（二）：处理 Excel 数据

一、安装 Python 包

二、解析 Excel 文件

如何确定有用的数据从第几行开始

方法一：用软件打开Excel直观判断

方法二：用程序多次试验

三、组装数据

四、总结

推荐阅读更多精彩内容