Python 二进制数据

二进制数据


本篇内容主要介绍二进制数据的编解码问题,涉及的模块有 base64、struct、chardet。

base64


base64 模块主要提供将二进制数据编码为可打印的 ASCII 字符以及将这些编码解码回二进制数据的函数。本篇主要介绍模块中的两个函数 b64encode()b64decode()

b64encode() 和 b64decode()

>>> import base64
# 编码
>>> s = b'hello world'
>>> base64.b64encode(s)       
b'aGVsbG8gd29ybGQ='
# 解码
>>> s1 = b'aGVsbG8gd29ybGQ=' 
>>> base64.b64decode(s1)
b'hello world'

b64encode() 的作用是对 bytes-like object 进行 Base64 编码,并返回编码后的 bytesb64decode() 的作用是解码经 Base64 编码过的 bytes-like object 或者 ASCII 字符串,并返回解码过的 bytes

更多关于 base64 模块的详细信息,可参考:

https://docs.python.org/3.8/library/base64.html

struct


struct 模块,可以执行 Python 值和以 Python bytes 对象表示的 C 结构之间的转换。这可以用来处理存储在文件中或者是从网络等其他来源获取的二进制文件。接下来主要介绍 pack()unpack() 两个函数的使用方法.

pack() 和 unpack()

>>> from struct import Struct
>>> record_struct = Struct('>hhl')
>>> record_struct.pack(1,2,3)
b'\x00\x01\x00\x02\x00\x00\x00\x03'
>>> record_struct.unpack(b'\x00\x01\x00\x02\x00\x00\x00\x03')
(1, 2, 3)

pack 函数是把数据类型变为 bytes,而 unpack 是将 bytes 变为相应的数据类型。

这里通过创建实例 Struct,指定一个格式 >hhl,这里 > 表示 big-endian 大端模式,也就是将高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。h 表示对应 2 字节带符号整数,对应 C 的 short 类型;l 代表 4 字节带符号整数,对应 C 的 long 类型。

关于 struct 模块定义的数据类型可以参考 Python 的官方文档:

https://docs.python.org/3/library/struct.html#format-strings

https://docs.python.org/3/library/struct.html#format-characters

pack()unpack() 操作能够以模块级别的函数被调用,示例如下:

>>> from struct import *
>>> pack('hhl', 1, 2, 3) 
b'\x01\x00\x02\x00\x03\x00\x00\x00'
>>> unpack('hhl', b'\x01\x00\x02\x00\x03\x00\x00\x00')
(1, 2, 3)

这样的操作,在代码同样结构出现多个地方的时候,需要多次书写格式。建议创建 Struct 实例,指定格式代码后所有操作集中处理。这样也能够更简单地维护代码。

chardet


chardet 是一个第三方库,是一个通用字符编码检测器。顾名思义,即是用以检测编码。

安装 chardet

使用 chardet 需要安装(若是安装了 Anaconda,可以跳过),使用如下命令:

$ pip install chardet

使用 chardet

举例说明,如何使用 chardet 进行编码检测。示例代码如下:

>>> import chardet
>>> chardet.detect(b'Hello world!')
{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

检测出的编码是 ascii,这里有个参数 confidence,这里的 1.0(即是 100% ) 表示检测的概率。

尝试检测 GBK 编码的中文:

>>> data = "黄河西来决昆仑,咆哮万里触龙门".encode('gbk')
>>> chardet.detect(data)
{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

检测的编码是 GB2312,注意到 GBK 是 GB2312 的超集,两者是同一种编码,检测的概率是 99%,language 字段指出的语言是 Chinese。

可尝试对日文进行检测:

>>> data = 'いちだい さんぜん だいせん せかい'.encode('euc-jp')
>>> chardet.detect(data)
{'encoding': 'EUC-JP', 'confidence': 0.99, 'language': 'Japanese'}

使用 chardet 模块进行编码检测,能够有效获取编码进行转换,方便后续的使用。

下面的链接罗列了 chardet 支持的编码列表:

https://chardet.readthedocs.io/en/latest/supported-encodings.html

参考资料


来源

  1. David M. Beazley;Brian K. Jones.Python Cookbook, 3rd Edtioni.O’Reilly Media.2013.
  2. Luciano Ramalho.Fluent Python.O'Reilly Media.2015
  3. “base64 — Base16, Base32, Base64, Base85 Data Encodings”.docs.python.org.Retrieved 26 January 2020
  4. “struct — Interpret bytes as packed binary data”.docs.python.org.Retrieved 26 January 2020
  5. "Usage".chardet.readthedocs.io.Retrieved 28 January 2020
  6. "Supported encodings".chardet.readthedocs.io.Retrieved 28 January 2020
  7. 廖雪峰.“Python 教程”.liaoxuefeng.com.[2020-01-28].

以上就是本篇的主要内容


欢迎关注微信公众号《书所集录》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容