Python数据可视化day04|下载数据

我们将访问并可视化以两种常见格式存储的数据:CSV 和JSON。

CSV文件格式

将数据作为一系列以逗号分隔的值写入文件的文件被称为CSV文件。例如:

2014-1-5,61,44,26,18,7,-1,56,30,9,30.34,30.27,30.15,,,,10,4,,0.00,0,,195

分析CSV文件头

csv 模块包含在Python标准库中,可用于分析CSV文件中的数据行,让我们能够快速提取感兴趣的值。下面先来查看sitka_weather_07-2014.csv文件下载地址地址文件的第一行,其中包含一系列有关数据的描述:

➜ highs_lows.py
import csv

filename = 'sitka_weather_07-2014.csv'

with open(filename) as f:
    reader = csv.reader(f)
    header_row = next(reader)
    print(header_row)

打印结果:

['AKDT', 'Max TemperatureF', 'Mean TemperatureF', 'Min TemperatureF', 'Max Dew PointF', 'MeanDew PointF', 'Min DewpointF', 'Max Humidity', ' Mean Humidity', ' Min Humidity', ' Max Sea Level PressureIn', ' Mean Sea Level PressureIn', ' Min Sea Level PressureIn', ' Max VisibilityMiles', ' Mean VisibilityMiles', ' Min VisibilityMiles', ' Max Wind SpeedMPH', ' Mean Wind SpeedMPH', ' Max Gust SpeedMPH', 'PrecipitationIn', ' CloudCover', ' Events', ' WindDirDegrees']

打印文件头及其位置

➜ highs_lows.py
import csv

filename = 'sitka_weather_07-2014.csv'
with open(filename) as f:
    reader = csv.reader(f)
    header_row = next(reader)

    for index, column_header in enumerate(header_row): 
        print(index, column_header)

输出如下,其中指出了每个文件头的索引:

(0, 'AKDT')
(1, 'Max TemperatureF')
(2, 'Mean TemperatureF')
(3, 'Min TemperatureF')
(4, 'Max Dew PointF')
(5, 'MeanDew PointF')
(6, 'Min DewpointF')
(7, 'Max Humidity')
(8, ' Mean Humidity')
(9, ' Min Humidity')
(10, ' Max Sea Level PressureIn')
(11, ' Mean Sea Level PressureIn')
(12, ' Min Sea Level PressureIn')
(13, ' Max VisibilityMiles')
(14, ' Mean VisibilityMiles')
(15, ' Min VisibilityMiles')
(16, ' Max Wind SpeedMPH')
(17, ' Mean Wind SpeedMPH')
(18, ' Max Gust SpeedMPH')
(19, 'PrecipitationIn')
(20, ' CloudCover')
(21, ' Events')
(22, ' WindDirDegrees')

提取并读取数据
知道需要哪些列中的数据后,我们来读取一些数据。首先读取每天的最高气温:

➜ highs_lows.py
import csv

#从文件中获取最高气温
filename = 'sitka_weather_07-2014.csv'

with open(filename) as f:
    reader = csv.reader(f)
    header_row = next(reader)

    highs = []
    for row in reader:
        highs.append(row[1])


    print(highs)

下面显示了highs 现在存储的数据:

['64', '71', '64', '59', '69', '62', '61', '55', '57', '61', '57', '59', '57', '61', '64', '61', '59', '63', '60', '57', '69', '63', '62', '59', '57', '57', '61', '59', '61', '61', '66']

我们提取了每天的最高气温,并将它们作为字符串整洁地存储在一个列表中。
下面使用int() 将这些字符串转换为数字,让matplotlib能够读取它们:

--snip--
highs = []
    for row in reader:
        high = int(row[1])  #将字符串准换为数字
        highs.append(high)
    print(highs)

绘制气温图表

为可视化这些气温数据,我们使用matplotlib创建一个显示每日最高气温的简单图形:

➜ highs_lows.py
import csv
from matplotlib import pyplot as plt

#从文件中获取最高气温
--snip--
#根据数据绘制图形
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(highs, c='red')
# 设置图形的格式
plt.title("Daily high temperatures, July 2014", fontsize=24)
plt.xlabel('', fontsize=16)
plt.ylabel("Temperature (F)", fontsize=16) 
plt.tick_params(axis='both', which='major', labelsize=16)

plt.show()
气温折线图

模块datetime

再添加数据之前,要将字符串'2014-7-1'使用模 块datetime 中的方法strptime()将其转换为一个表示相应日期的对象:

>>> from datetime import datetime
>>> first_date = datetime.strptime('2018-4-21','%Y-%m-%d')
>>> print(first_date)

输出结果为:

2018-04-21 00:00:00

方法strptime() 可接受各种实参,并根据它们来决定如何解读日期。
模块datetime中设置日期和时间格式的实参

实参 含义
%A 星期的名称,如Monday
%B 月份名,如January
%m 用数字表示的月份(01~12)
%d 用数字表示月份中的一天(01~31)
%Y 四位的年份,如2018
%y 两位的年份,如18
%H 24小时制式的小时数(00~23)
%I 12小时制式的小时数(01~12)
%p am或pm
%M 分钟数(00~59)
%S 秒数(00~61)

在图表中添加日期

➜ highs_lows.py
import csv
from datetime import datetime

from matplotlib import pyplot as plt

#从文件中获取日期和最高气温
filename = 'sitka_weather_07-2014.csv'

with open(filename) as f:
    reader = csv.reader(f)
    header_row = next(reader)

    dates,highs = [],[]
    for row in reader:
        current_date = datetime.strptime(row[0], "%Y-%m-%d") 
        dates.append(current_date)

        high = int(row[1])
        highs.append(high)


#根据数据绘制图形
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(dates,highs, c='red')
# 设置图形的格式
plt.title("Daily high temperatures, July 2014", fontsize=24)
plt.xlabel('', fontsize=16)
fig.autofmt_xdate()
plt.ylabel("Temperature (F)", fontsize=16) 
plt.tick_params(axis='both', which='major', labelsize=16)

plt.show()
添加日期的图表

添加最低温度数据列表

➜ highs_lows.py
--snip--
#从文件中获取日期和最高气温和最低气温
filename = 'sitka_weather_2014.csv'

with open(filename) as f:
    reader = csv.reader(f)
    header_row = next(reader)

    dates,highs,lows = [],[],[]
    for row in reader:
        current_date = datetime.strptime(row[0], "%Y-%m-%d") 
        dates.append(current_date)

        high = int(row[1])
        highs.append(high)

        low = int(row[3])
        lows.append(low)

#根据数据绘制图形
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(dates,highs, c='red')
plt.plot(dates,lows, c='blue')
# 设置图形的格式
plt.title("Daily high temperatures, July 2014", fontsize=24)
--snip--
两条数据图表

给图表区域着色

--snip--
#根据数据绘制图形
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(dates, highs, c='red', alpha=0.5) 
plt.plot(dates, lows, c='blue', alpha=0.5)
plt.fill_between(dates, highs, lows, facecolor='blue', alpha=0.1)  #最高与最低温区间填充颜色
--snip--
最高温与最低温的区间着色图

错误检查

如果要调取的数据列表出现数据缺失会引发异常,所以要进行检查,下面引入缺失数据的death_valley_2014.csv文件

➜ highs_lows.py
--snip--
#从文件中获取日期和最高气温和最低气温
filename = 'death_valley_2014.csv'

with open(filename) as f:
--snip--

因为缺失数据,所以会出现下面的错误提示:

Traceback (most recent call last):
  File "/Users/qwe/Downloads/python/loading_data/day1/higt_low.py", line 22, in <module>
    high = int(row[1])
ValueError: invalid literal for int() with base 10: ''

该traceback指出,Python无法处理其中一天的最高气温,因为它无法将空字符串(' ' )转换为整数。只要看一下death_valley_2014.csv,就能发现其中的问题:

--snip--
#从文件中获取日期和最高气温和最低气温
filename = 'death_valley_2014.csv'

with open(filename) as f:
    reader = csv.reader(f)
    header_row = next(reader)

    dates,highs,lows = [],[],[]
    for row in reader:
❶       try:  #对于每一行,尝试从中提取日期、最高气温和最低气温
            current_date = datetime.strptime(row[0], "%Y-%m-%d") 
            high = int(row[1])
            low = int(row[3])
❷       except ValueError:   #只要缺失其中一项数据,Python就会引发ValueError 异常,而我们可打印一条错误消息, 指出缺失数据的日期
            print(current_date, 'missing data')
❸       else:
            dates.append(current_date)
            highs.append(high)
            lows.append(low)

#根据数据绘制图形
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(dates, highs, c='red', alpha=0.5) 
plt.plot(dates, lows, c='blue', alpha=0.5)
plt.fill_between(dates, highs, lows, facecolor='blue', alpha=0.1)
# 设置图形的格式
❹title = "Daily high and low temperatures - 2014\nDeath Valley, CA"
plt.title(title, fontsize=20)
--snip--

在❷处打印错误消息后,循环将接着处理下一行。如果获取特定日期的所有数据时没有发生错误,将运行else 代码块,并将数据附加到相应列表的末 尾(见❸)。鉴于我们绘图时使用的是有关另一个地方的信息,我们修改了标题,在图表中指出了这个地方(见❹)
缺失数据提示:

(datetime.datetime(2014, 2, 16, 0, 0), 'missing data')
过滤掉错误显示的图表
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,968评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,682评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,254评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,074评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,964评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,055评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,484评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,170评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,433评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,512评论 2 308
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,296评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,184评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,545评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,150评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,437评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,630评论 2 335

推荐阅读更多精彩内容