在Python3连接mysql要用到pymysql
模块。
一般用的是普通游标,执行select等语句fetchall
时是直接存入内存,有内存不够的风险。这时可以用SSCursor
,貌似中文叫做流式游标?连接时需要这样:
conn = pymysql.connect(dbhost, dbuser, dbpass, dbname, charset='utf8')
cur = conn.cursor(pymysql.cursors.SSCursor)
# 也可以cur = pymysql.cursors.SSCursor(conn)
总之,在执行select等sql语句后
cur.execute(sql)
可以通过for
循环遍历cur
,此时cur
相当于生成器,不会直接存储所有数据,而是在循环时一条一条生成数据。
for i in cur:
print(i)
或者存储需要的数据
l = (i[0] for i in cur)
# 数据量不大时也可以用列表生成式l = [i[0] for i in cur]
即使只select
一种数据,出现的结果也是元组,类似于(1,)
,而一般需要的数据只是元组里的这个1
,若使用
l = (i for i in cur)
由于没有解包元组,得不到想要的结果。
生成器的介绍还是看官方文档比较好。
类似于
def func():
for i in range(3):
print(i)
func() # 0, 1, 2
要改写成生成器,只需要把print()
变成yield
,这个函数本身就可以循环了。
def func():
for i in range(3):
yield i
for i in func():
print(i) # 0, 1, 2
生成器只能循环一次。之后再度对它循环不会生成值。
cur.execute(sql)
l = (i[0] for i in cur)
r = (i[1] for i in cur)
尽管r
不生成任何值,但上面这段代码不会报错。
如果是这样
cur.execute(sql)
l = [i[0] for i in cur]
r = [i[1] for i in cur]
调试时会发现r
是一个空列表。
实际上要达成目的应该老老实实的这样写
cur.execute(sql)
l, r = [], []
for i in cur:
l.append(i[0])
r.append(i[1])
由于cur
本身就是一个生成器,实在不想用上面的写法的话,就在for循环里直接处理i[1]
这样的数据吧。
相对于list而言,生成器没有长度的概念,无法使用len()
判断长度,因此也不能判空。
def func():
for i in range(0):
yield i
if func():
print(1) # 1
l = (i for i in range(0))
if l:
print(1) # 1
因此,在执行一条select
语句后,想知道实际有没有结果,不能用以下方式判断
cur.execute(sql)
if cur:
for i in cur:
pass
为了写入csv等,需要完整对齐的数据的话,可以这样
cur.execute(sql)
for i in cur:
if i:
l.append(i)
break
else:
l.append('')
很奇怪的for...else...
语法,感觉自己在瞎写了,应该有其他方式来实现,而不是非要用这种逻辑。不过,能抓到老鼠就是好猫。
要插入几十万以上数据想节省时间的话,可以这样
# datas是一个list,里面又包含几十万个list
bigN = 50000 # 一次插5万条,设置的太高mysql也不让插那么多
for i in range(len(datas)//bigN):
l, r = i * bigN, (i + 1) * bigN
sql = "insert ... values %s"
sql = sql % ','.join(datas[l:r])
cur.execute(sql)
if r + bigN > len(datas):
sql = "insert ... values %s"
sql = sql % ','.join(datas[r:]) # 边界条件,保证尾部元素都能插入
cur.execute(sql)
不过以上代码没有检查datas
长度小于bigN
的情况,这个时候由于len(datas)//bigN
为0,是不会进行循环的,这点也要注意。