[Xarray] 1. 数据结构

Xarray的数据结构

参考Xarray官方文档，Python气象数据处理进阶之Xarray(1)：Xarray的数据结构

数据结构

在Xarray中，数据是由结构和标签的，分为以下几种：

1.DataArray:

带有标注或命名维度的多维数组。DataArray将metadata（例如：维名称，坐标和属性）添加到基础的未标记的数据结构，例如numpy和Dask数组。

2.Datasets:

具有类似字典结构的尺寸对其的DataArray对象的集合。因此，可以在单个DataArray的维度上执行的大多数操作都可以在Dataset上执行。

Dataset是多个DataArray的集合

3.Variable:

类似于NetCDF的变量。由dimensions，data和attributes组成。variable和numpy数组之间的主要功能区别在于，对variable的数字运算可以通过维名称实现数组广播。

通俗的讲，variables < DataArray < Dataset (<指包含于)。这种解释不完全正确，但是初学者可以这样理解。

Xarray中的数据结构如何被识别和标记

Xarray通过对维命名的操作实现数据筛选和处理，实现数据的标记和命名通过以下几个定义实现：

*Dimension: 每一轴的维名称(e.g.,('x','y','z'))。

*Coordinate: 坐标或刻度。类似于字典的序列，将每个点标记。比如说dimension是纬度，那么对应的coordinate就是纬度坐标(90°N，89°N，88°N……89°S，90°S)。

*Index: 索引号，也可以说是位置标号。a[0]代表a数组的一个数，0就是index。


#CN05.1格点资料

f = xr.open_dataset('CN05.1_Tmax_1961_2017_daily_05x05.nc')

print(f)

#<xarray.Dataset>

#Dimensions: (latitude: 82, longitude: 142, time: 20574)

#Coordinates:

# * longitude (longitude) float64 69.75 70.25 70.75 71.25 ... 139.2 139.8 140.2

# * latitude (latitude) float64 14.75 15.25 15.75 16.25 ... 54.25 54.75 55.25

# * time (time) datetime64[ns] 1961-01-01 1961-01-02 ... 2017-04-30

#Data variables:

# tmax (time, latitude, longitude) float32 ...

#Attributes:

# CDI: Climate Data Interface version 1.6.5rc3 (http://code.zmaw.d...

# Conventions: CF-1.4

# history: Thu Aug 23 09:34:52 2018: cdo -r remapcon,grid05x05 daily/0...

# CDO: Climate Data Operators version 1.6.5rc3 (http://code.zmaw.d...

可以看到，该文件是一个Datasets，里面含有变量：Data Variables，数据集的维度有经度纬度和时间，各自有各自的坐标Coordinates，同样数据集还有一些属性来表明数据集信息。

我们可以通过：


print(f.variables)

print(f.dims)

print(f.coords)

来分别查看数据集中包含的变量，维，坐标。

再比如NCEP的位势高度资料：


f = xr.open_dataset('hgt.1948.nc')

print(f)

#<xarray.Dataset>

#Dimensions: (lat: 73, level: 17, lon: 144, time: 366)

#Coordinates:

# * level (level) float32 1000.0 925.0 850.0 700.0 ... 50.0 30.0 20.0 10.0

# * lat (lat) float32 90.0 87.5 85.0 82.5 80.0 ... -82.5 -85.0 -87.5 -90.0

# * lon (lon) float32 0.0 2.5 5.0 7.5 10.0 ... 350.0 352.5 355.0 357.5

# * time (time) datetime64[ns] 1948-01-01 1948-01-02 ... 1948-12-31

#Data variables:

# hgt (time, level, lat, lon) float32 ...

#Attributes:

# Conventions: COARDS

# title: mean daily NMC Reanalysis (1948)

# description: Data is from NMC initialized reanalysis\n(4x/day). It co...

# platform: Model

# history: created 99/05/11 by Hoop (netCDF2.3)

# References: (http://www.esrl.noaa.gov/psd/data/gridded/data.ncep.reana...

# dataset_title: NCEP-NCAR Reanalysis 1

基本同上。

需要说明的是，ncl数据中存在short格式，在读取时需要使用short2flt()函数，但是在Python中不存在short格式，默认均为float，无需考虑这一点。

如何创建一个DataArray

有时我们通过其他手段读取了相关数据，但是数据是np.array格式的，我们需要将其转换为DataArray，亦或我们需要输出一个NC文件，需要将计算后的数组转为DataArray格式，这就用到了创建的方法。

创建一个DataArray需要什么？

1.Data: 数据，可以是numpy ndarray，series，DataFrame，pandas.panel等格式

2.coords: 坐标列表或字典

如果是列表，则应为元组列表。其中第一个元素为dimension name，第二个元素是对应的坐标array_like对象。

用字典格式比较好

3.dims: 维名称列表

如果省略，并且coords是元组列表，则维度名称取自coords。

4.attrs: 属性

5.names: 变量名

以上，除了data外，都不是必须的。

创建示例如下：


data = np.array([[1,2,3],[4,5,6]])

level = ['500', '850', '1000']

times = pd.date_range('2000-01-01', periods=2)

foo = xr.DataArray(data, coords=[times, level], dims=['time', 'level'])

print(foo)

#<xarray.DataArray (time: 2, level: 3)>

#array([[1, 2, 3],

# [4, 5, 6]])

#Coordinates:

# * time (time) datetime64[ns] 2000-01-01 2000-01-02

# * level (level) <U4 '500' '850' '1000'

上面提到，除了data以外，其他都是不必要的


foo = xr.DataArray(data)

print(foo)

#<xarray.DataArray (dim_0: 2, dim_1: 3)>

#array([[1, 2, 3],

# [4, 5, 6]])

#Dimensions without coordinates: dim_0, dim_1

如果是从一个DataFrame数据转化为DataArray的话（这种操作通常是为了将Pandas和Xarray联合使用）：


df = pd.DataFrame({'x': [0, 1], 'y': [2, 3]}, index=['a', 'b'])

df.index.name = 'abc'

df.columns.name = 'xyz'

print(df)

#xyz x y

#abc

#a 0 2

#b 1 3

print(xr.DataArray(df))

#<xarray.DataArray (abc: 2, xyz: 2)>

#array([[0, 2],

# [1, 3]])

#Coordinates:

# * abc (abc) object 'a' 'b'

# * xyz (xyz) object 'x' 'y'

会自动识别行列的名称和序号。

官方文档还有更复杂的例子，需要的话再去官网查看。

在创建了数据之后，我们同样可以使用相关的操作获取DataArray的各种信息：


a = foo.values

a = foo.dims

a = foo.coords

a = foo.attrs

如果想对DataArray的值修改可以通过以下两种方法：


foo.values = foo.values+1

foo = foo+1

两种结果是等价的，但官方只给出了第一种方法。

通过指令foo.attrs['units'] = 'meters'赋予属性信息，比如给一个单位、备注等等。
通过指令foo.name = 'hgt'赋予名称信息。

*通过指令foo.rename('temperature')改名，比如通过hgt计算得到了一个新变量，需要改名，就可以用这个指令。

在得到一个DataArray后，用于画图时，比如我们需要获取它的经度和纬度（在这里，刚刚的例子是时间和高度），那么可以直接通过


foo.coords['time']

foo['time']

这两种方式取出坐标信息。

要修改或者删除某坐标信息的话，原理和修改数据是一样的：


foo['time'] = pd.date_range('1999-01-02',periods = 2)

del foo['time']

如何创建一个Dataset

官网给出一个以气候数据为例的Dataset结构：

image

display: inline-block;

color: #999;

padding: 2px;">Dataset数据结构

</center>

一个数据集，包含了数据主体(Temperature,Precipitation)，维度坐标(latitude,longitude)。

根据官网的例子，一个Dataset是这样创建的，实际上与DataArray类似：


temp = 15 + 8 * np.random.randn(2, 2, 3)

precip = 10 * np.random.rand(2, 2, 3)

lon = [[-99.83, -99.32], [-99.79, -99.23]]

lat = [[42.25, 42.21], [42.63, 42.59]]

ds = xr.Dataset({'temperature': (['x', 'y', 'time'], temp),

'precipitation': (['x', 'y', 'time'], precip)},

coords={'lon': (['x', 'y'], lon),

'lat': (['x', 'y'], lat),

'time': pd.date_range('2014-09-06', periods=3),

'reference_time': pd.Timestamp('2014-09-05')})

#<xarray.Dataset>

#Dimensions: (time: 3, x: 2, y: 2)

#Coordinates:

# lon (x, y) float64 -99.83 -99.32 -99.79 -99.23

# lat (x, y) float64 42.25 42.21 42.63 42.59

# * time (time) datetime64[ns] 2014-09-06 2014-09-07 2014-09-08

# reference_time datetime64[ns] 2014-09-05

#Dimensions without coordinates: x, y

#Data variables:

# temperature (x, y, time) float64 15.09 7.656 20.82 ... 2.477 10.53 17.56

# precipitation (x, y, time) float64 3.444 2.694 6.921 ... 7.351 2.099 5.972

实际上这个例子与我们通常接触的不太一样，因为大部分数据的lat和lon都是一维的。

对Dataset的操作和DataArray基本一致，不再重复。

最后编辑于：2022.01.13 14:32:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,468评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,620评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,427评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,160评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,197评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,334评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,775评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,444评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,628评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,459评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,508评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,210评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,767评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,850评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,076评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,627评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,196评论 2赞 341