可变类型是个神奇的存在。神奇的东西都比较容易让人懵逼。
本篇主要内容:本人干的一件蠢事和可变类型的复制问题。
前阵子遇到个有点儿麻烦的额外任务,要从一万多条网址的返回信息中提取某个字段。费了半天劲儿搞通了网络连接之后,发现速度极慢,一条就要两三秒。完整走下来得十多个小时,根本行不通。于是我就想弄个多线程同时爬。
以我的笨蛋程度,能想到就是把所有的网址分成几十份儿,然后用多线程同时处理。然后,就出问题了。二十个线程跑了起来,但处理的是同一条数据,依旧龟速!百思不得其解的我,折腾了一个下午之后,检查了一下被分成二十份儿的网址列表,结果,每 一 个 都 是 一 万 多 条 ! ! !
呼~ 等我平息一下想抽自己的冲动。呼~~好了,下面正式给大家介绍一下我干的傻缺事儿。
*
号惨案的始末
所有的网址放在一个dict(字典)中,key是递增的整型,value是网址字串。(事后想想,要是直接放在list里屁事儿都没有了。之所以用dict是惯性使然啊。)通过循环把整个字典分成多个字典的过程中,出现了下面的灵异事件。
>>> li
[{}, {}, {}, {}, {}]
>>> li[2]
{}
>>> li[2].update({2:'hehe'})
>>> li
[{2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}]
明明只是给第三个dict增加元素,为什么其他几个也都被改变了?想不通的二傻子第一次带着工作上的问题回家了。在家里的电脑上照原样试了一遍,结果是正常的!像这样:
>>> li2
[{}, {}, {}, {}, {}]
>>> li2[3].update({3:'hehehe'})
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}]
懵逼状态又持续了一个早上。
对一个dict操作,同时改变了其他几个,那说明它们指向的肯定同一个地址。我突然想起前面刚看过的一遍介绍python对象的博文,用id()
可以查看对象的身份,也就是它的存储地址。于是我进行了如下操作。
>>> for i in li:
... print(id(i))
...
4321485256
4321485256
4321485256
4321485256
4321485256
哑_巴里!一毛一样啊,我*[允悲]。几乎与此同时,我反应过来问题出在创建list的地方。本傻子是这样做的:
>>> li = [{}]*5
>>> li
[{}, {}, {}, {}, {}]
#python的乘`*`很神奇,字符也可以用。
>>> 'a~~'+'pei!'*3
'a~~pei!pei!pei!'
#它是单纯的克隆n倍,所以对可变dict做*就出问题了。
而在家实验的时候,是这样创建:
>>> li2 = []
>>> for i in range(5):
... li2.append({})
>>> for i in li2:
... print(id(i))
...
4321485192
4324359240
4324359816
4324214216
4324360008
[生无可恋.jpg]*666
前一个用乘的方式,是将同一个dict重复5遍,所有这5个其实是同一个。反应过来之后,很快改掉初始的赋值方式,中午吃饭的时间就爬到了所有数据。但是这个不为外人知晓的蠢事萦绕脑中久久无法释怀,必须得说出来,请大家尽情的嘲笑我一秒钟...
唉,这种二笔错误估计就我会犯。借鉴性不大,稍微再说一下可变类型的复制吧。
等号=
拷贝
python可变类型数据的复制向来是个麻烦事。简单的用等号“=”赋值给新变量的话,新变量以及它的各个元素和原来的变量是完全一致的。不,它们根本就是同一个东西。
>>> li3 = li2
>>> for i in range(5):
... print(id(li2[i]),id(li3[i]))
...
4321485192 4321485192
4324359240 4324359240
4324359816 4324359816
4324214216 4324214216
4324360008 4324360008
>>> print(id(li2),id(li3))
4324199240 4324199240
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}]
>>> li3
[{}, {}, {}, {3: 'hehehe'}, {}]
>>> li3.append('hhhh')
>>> li3
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
看到没,两个list的地址相同,每个元素的地址也都相同。这种情况下对li3或它的元素做增减替换等操作,结果li和li3都会变。
copy.copy() & copy.deepcopy()
想要复制出一个不同的变量,就要用copy
模块。copy
又有浅拷贝和深拷贝之分,主要是对于可变类型的影响比较大。
>>> import copy
>>> li4 = copy.copy(li2)
>>> print(id(li2),id(li4))
4324199240 4324371016
>>> for i in range(5):
... print(id(li2[i]),id(li4[i]))
...
4321485192 4321485192
4324359240 4324359240
4324359816 4324359816
4324214216 4324214216
4324360008 4324360008
上面这个就是浅拷贝,两个list的地址不同,但是它们中的元素地址相同。所以对元素进行操作还是会影响两个。但是如果是对list操作,比如append(),extend()等,就不会改变原来。效果如下。
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li4
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li4[0].update({0:'zero'})
>>> li4
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']
>>> li4.append(444)
>>> li4
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh', 444]
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']
但是如果是深拷贝的话,新创建的list和它的元素就都相互不影响了。如下:
>>> li5 = copy.deepcopy(li2)
>>> li5
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, {}]
>>> li5.pop(-1)
'hhhh'
>>> li5[2]='aho'
>>> li5
[{0: 'zero'}, {}, 'aho', {3: 'hehehe'}, {}]
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
如果用id()
查看的话,它们的地址也都不一样。就不再重复做了。
总之呢,用list和dict的时候,再小心都不为过。
原文地址:卖蠢日志 | 一个*号引发的惨案,来自我家微信公号,欢迎关注。