一、定义
JSON(JavaScript Object Notation,JavaScript对象表示法,读作“Jason”)是一种由道格拉斯·克罗克福特构想和设计、轻量级的数据交换语言,该语言以易于让人阅读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。尽管JSON是JavaScript的一个子集,但JSON是独立于语言的文本格式,并且采用了类似于C语言家族的一些习惯。
JSON 数据格式与语言无关,脱胎自JavaScript,但当前很多编程语言都支持 JSON 格式数据的生成和解析。JSON 的官方 MIME 类型是 application/json,文件扩展名是 .json。详见:https://baike.baidu.com/item/JSON/2462549?fr=aladdin
二、JSON的语法
在 JS 语言中,一切都是对象。因此,任何支持的类型都可以通过 JSON 来表示,例如字符串、数字、对象、数组等。
- 对象(字典)。使用花括号。
- 数组(列表)。使用方括号。
- 整形、浮点型、布尔类型还有null类型。
- 字符串类型(字符串必须要用双引号,不能用单引号)。
注意:json本质上就是一个字符串。
三、JSON与XML比较
JSON与XML最大的不同在于XML是一个完整的标记语言,而JSON不是。这使得XML在程序判读上需要比较多的功夫。主要的原因在于XML的设计理念与JSON不同。XML利用标记语言的特性提供了绝佳的延展性(如XPath),在数据存储,扩展及高级检索方面具备对JSON的优势,而JSON则由于比XML更加小巧,以及浏览器的内建快速解析支持,使得其更适用于网络数据传输领域。
实例比较:用XML表示中国部分省市数据如下:
<?xml version="1.0" encoding="utf-8"?>
<country>
<name>中国</name>
<province>
<name>黑龙江</name>
<cities>
<city>哈尔滨</city>
<city>大庆</city>
</cities>
</province>
<province>
<name>广东</name>
<cities>
<city>广州</city>
<city>深圳</city>
<city>珠海</city>
</cities>
</province>
<province>
<name>台湾</name>
<cities>
<city>台北</city>
<city>高雄</city>
</cities>
</province>
<province>
<name>新疆</name>
<cities>
<city>乌鲁木齐</city>
</cities>
</province>
</country>
用JSON表示如下:
{
"name": "中国",
"province": [{
"name": "黑龙江",
"cities": {
"city": ["哈尔滨", "大庆"]
}
}, {
"name": "广东",
"cities": {
"city": ["广州", "深圳", "珠海"]
}
}, {
"name": "台湾",
"cities": {
"city": ["台北", "高雄"]
}
}, {
"name": "新疆",
"cities": {
"city": ["乌鲁木齐"]
}
}]
}
可以看到,JSON 简单的语法格式和清晰的层次结构明显要比 XML 容易阅读,并且在数据交换方面,由于 JSON 所使用的字符要比 XML 少得多,可以大大得节约传输数据所占用的带宽。
四、JSON序列化为字符串
json.dumps()这个函数,接受python的基本数据类型,然后将其序列化为string,注意这里的基本数据类型指的是int
、float
、str
、list
、dict
、tuple
。
实例:
import json
data_json = {
"name": "中国",
"province": [{
"name": "黑龙江",
"cities": {
"city": ["哈尔滨", "大庆"]
}
}, {
"name": "广东",
"cities": {
"city": ["广州", "深圳", "珠海"]
}
}, {
"name": "台湾",
"cities": {
"city": ["台北", "高雄"]
}
}, {
"name": "新疆",
"cities": {
"city": ["乌鲁木齐"]
}
}]
}
data_string_ascii = json.dumps(data_json)
data_string = json.dumps(data_json,ensure_ascii=False)
print(data_string_ascii)
print('数据类型为:{}'.format(type(data_string_ascii)))
print(data_string)
print('数据类型为:{}'.format(type(data_string)))
结果:
{"name": "\u4e2d\u56fd", "province": [{"name": "\u9ed1\u9f99\u6c5f", "cities": {"city": ["\u54c8\u5c14\u6ee8", "\u5927\u5e86"]}}, {"name": "\u5e7f\u4e1c", "cities": {"city": ["\u5e7f\u5dde", "\u6df1\u5733", "\u73e0\u6d77"]}}, {"name": "\u53f0\u6e7e", "cities": {"city": ["\u53f0\u5317", "\u9ad8\u96c4"]}}, {"name": "\u65b0\u7586", "cities": {"city": ["\u4e4c\u9c81\u6728\u9f50"]}}]}
数据类型为:<class 'str'>
{"name": "中国", "province": [{"name": "黑龙江", "cities": {"city": ["哈尔滨", "大庆"]}}, {"name": "广东", "cities": {"city": ["广州", "深圳", "珠海"]}}, {"name": "台湾", "cities": {"city": ["台北", "高雄"]}}, {"name": "新疆", "cities": {"city": ["乌鲁木齐"]}}]}
数据类型为:<class 'str'>
注意:json
在dump
的时候,只能存放ascii
的字符,因此会将中文进行转义。若要显示中文,这时候我们可以使用ensure_ascii=False
关闭这个特性。
五、字符串反序列化为python基本数据类型
json.loads()函数,接受一个合法字符串,然后发序列为python的基本数据类型。
import json
data_string = '{"name": "中国", "province": [{"name": "黑龙江", "cities": {"city": ["哈尔滨", "大庆"]}}, {"name": "广东", "cities": {"city": ["广州", "深圳", "珠海"]}}, {"name": "台湾", "cities": {"city": ["台北", "高雄"]}}, {"name": "新疆", "cities": {"city": ["乌鲁木齐"]}}]}'
data_json = json.loads(data_string,encoding='utf-8')
print('原数据类型为:{}'.format(type(data_string)))
print('反序列过后数据类型为:{}'.format(type(data_json)))
print(data_json)
结果:
原数据类型为:<class 'str'>
反序列过后数据类型为:<class 'dict'>
{'name': '中国', 'province': [{'name': '黑龙江', 'cities': {'city': ['哈尔滨', '大庆']}}, {'name': '广东', 'cities': {'city': ['广州', '深圳', '珠海']}}, {'name': '台湾', 'cities': {'city': ['台北', '高雄']}}, {'name': '新疆', 'cities': {'city': ['乌鲁木齐']}}]}
注意:在json.loads()前加上错误处理,否则字符串中有非法字符。而没有捕捉到,那么程序就会崩溃。
六、文件的读写操作
1、将json数据直接dump到文件中:
json
模块中除了dumps
函数,还有一个dump
函数,这个函数可以传入一个文件指针,直接将字符串dump
到文件中。示例代码如下:
import json
data_json = {
"name": "中国",
"province": [{
"name": "黑龙江",
"cities": {
"city": ["哈尔滨", "大庆"]
}
}, {
"name": "广东",
"cities": {
"city": ["广州", "深圳", "珠海"]
}
}, {
"name": "台湾",
"cities": {
"city": ["台北", "高雄"]
}
}, {
"name": "新疆",
"cities": {
"city": ["乌鲁木齐"]
}
}]
}
with open('city.json','w',encoding='utf-8') as fp:
json.dump(data_json,fp,ensure_ascii=False)
city.json文件显示结果:
{"name": "中国", "province": [{"name": "黑龙江", "cities": {"city": ["哈尔滨", "大庆"]}}, {"name": "广东", "cities": {"city": ["广州", "深圳", "珠海"]}}, {"name": "台湾", "cities": {"city": ["台北", "高雄"]}}, {"name": "新疆", "cities": {"city": ["乌鲁木齐"]}}]}
注意:json
在dump
的时候,只能存放ascii
的字符,因此会将中文进行转义。若要显示中文,这时候我们可以使用ensure_ascii=False
关闭这个特性。另外,文件编码格式需要指定为uft-8,否则打开的为非中文。
2、直接从文件中读取json:
import json
with open('city.json','r',encoding='utf8') as fp:
data_string = json.load(fp)
print(data_string)
print(type(data_string))
结果:
{'name': '中国', 'province': [{'name': '黑龙江', 'cities': {'city': ['哈尔滨', '大庆']}}, {'name': '广东', 'cities': {'city': ['广州', '深圳', '珠海']}}, {'name': '台湾', 'cities': {'city': ['台北', '高雄']}}, {'name': '新疆', 'cities': {'city': ['乌鲁木齐']}}]}
<class 'dict'>