最近在工作中遇到一个问题,其实是自己给自己挖了一个坑,并且还义无反顾的跳了进去,问题描述:
在python(python 2.X) 执行postgresql 数据插入的时候,出现下面这样的情况:
其实我的postgresql 得字符编码格式设置的是没问题的,具体执行
那一定是执行插入数据的语句出了问题,查看了一下自己的插入数据命令:
def insert_tale(self, tablename, field_list, data):
self.connect_db()
cur = self.connect_db().cursor()
filed_str = '('+'%s, '*(len(field_list)-1) + '%s' +')'
filed_str = filed_str%tuple(field_list)
for i in data:
if isinstance(i, unicode):
data[data.index(i)] = i.encode('utf8')
values_ = tuple(data)
sql_ = u"insert into %s %s values %s;" % (tablename, filed_str, values_)
cur.execute(sql_)
self.commit_db()
好像也没什么问题,重新调整了一下实现方式,如下是可以正常插入中文, 并可正常显示成中文的代码实现
def insert_tale(self, tablename, field_list, data):
self.connect_db()
cur = self.connect_db().cursor()
filed_str = '('+'%s, '*(len(field_list)-1) + '%s' +')'
filed_str = filed_str%tuple(field_list)
for i in data:
if isinstance(i, int):
data[data.index(i)] = str(i)
values_ = "'" + "', '".join(data) + "'"
sql_ = u"insert into %s %s values (%s);" % (tablename, filed_str, values_)
cur.execute(sql_)
self.commit_db()
具体的差别,可以看到,就是在问题代码中,使用的list转tuple的tuple方法,而在正常代码中使用的是字符串的操作方式。
两者具体啥区别呢,举几个例子来观察现象:
同样是unicode编码,放在列表或者字符串后通过格式化字符串进行转义就不一样了
这就是为什么在执行insert操作的时候,如果不进行encode转义就会报TypeError错误,因为在sql语句中会出现这样的形式
insert into test (id, name, age, addr, phone) values (1, u"\u8fd9\u662f", 12, u"\u6d4b\u8bd5\u4ee3\u7801", '1234567890');
这是postgresql所不允许的。
而转为utf-8格式后插入就会出现最上面图中的数据格式,所以,在字符串转义的时候一定要注意的就是
不要转义list或者tuple格式的数据,如果在像insert语句那样需要(.....)的,记住(....)放在字符串中来构建,转义的时候,尽量只转义字符串,数字等基本格式的数据