- python使用unicode作为中间编码
s.decode('gb2312') 表示将s以gb2312
的方式解码为unicode编码
s.encode('gb2312') 表示将s从unicode编码转换为'gb2312'
- Python2的源码中在第一行添加:
# -*- coding: utf-8 -*-
表示解释器在处理该文件时使用utf-8的格式。也就意味着我们定义a_str='你好'
时a_str类型为str,但是其编码格式为utf-8.
其他:
- unicode是一个标准,以32位长度为基础,给所有的符号以唯一的编号
- 以unicode的方式将数据存储的话,比较浪费空间,所以出现了utf-8,utf-32等基于unicode的编码格式