HDF5数据初步了解可以参考这个链接:https://zhuanlan.zhihu.com/p/104145585
h5py 是一个用于操作HDF5文件的Python库,它提供了一种高级的接口来读取和写入HDF5数据。在h5py中,Group 和 Dataset 对象类似于Python字典,因此它们提供了类似的方法,比如 keys(), values(), items(), 和 iter(),以及 get() 方法。以下是这些方法的用法:
1.keys()
keys()
方法返回一个表示HDF5组中所有成员(数据集或子组)名称的视图。类似于Python字典的 keys() 方法。
import h5py
with h5py.File('example.h5', 'r') as f:
print(list(f.keys())) # 打印所有组的名称
2.values()
values()
方法返回一个代表HDF5组中所有成员(数据集或子组)对象的视图。
with h5py.File('example.h5', 'r') as f:
for value in f.values():
print(value) # 打印每个组的详细信息
3.items()
items()
方法返回一个包含HDF5组中所有成员的名称和对象的元组对的视图。
with h5py.File('example.h5', 'r') as f:
for name, obj in f.items():
print(name, obj) # 打印每个成员的名称和详细信息
4.iter()
iter()
方法返回一个迭代器,可以用于迭代HDF5组中的成员名称。
with h5py.File('example.h5', 'r') as f:
for name in iter(f):
print(name) # 打印每个成员的名称
5.get()
get()
方法用于从HDF5组中获取指定名称的成员(数据集或子组)。如果该成员不存在,则返回指定的默认值。
with h5py.File('example.h5', 'r') as f:
dataset = f.get('dataset_name', default=None) # 获取名为 'dataset_name' 的数据集
if dataset is not None:
# 处理数据集
这些方法使得h5py的Group对象在操作上类似于Python的字典,提供了一种方便的方式来遍历和访问HDF5文件中的数据集和组。最后再简单看一个fast5文件(单条reads)的内容:
fast5 = 'test_exsample.fast5'
f = h5py.File(fast5, 'r')
# 打印结构
print(
list(f.keys()),"\n",
list(f.values()),"\n",
list(f.items()),"\n",
list(iter(f)),"\n",
list(f.get('Raw/Reads').values()),"\n",
f['Raw/Reads']
)
#['Analyses', 'Raw', 'UniqueGlobalKey']
# [None, <HDF5 group "/Raw" (1 members)>, <HDF5 group "/UniqueGlobalKey" (3 members)>]
# [('Analyses', None), ('Raw', <HDF5 group "/Raw" (1 members)>), ('UniqueGlobalKey', <HDF5 group #"/UniqueGlobalKey" (3 members)>)]
# ['Analyses', 'Raw', 'UniqueGlobalKey']
# [<HDF5 group "/Raw/Reads/Read_994" (1 members)>]
# <HDF5 group "/Raw/Reads" (1 members)>
f.close()