简单明白彻底解决 MySQL 中文编码问题

简单明白彻底解决 MySQL 中文编码问题

1. 问题重现

mysql> create database school;
mysql> use school;
mysql> create table student(name varchar(10));
mysql> insert into student values("Clarke");
mysql> select * from student;
+--------+
| name   |
+--------+
| Clarke |
+--------+
mysql> insert into student values("唐三");

# 插入中文失败
ERROR 1366 (HY000): Incorrect string value: '\xE5\x94\x90\xE4\xB8\x89' for column 'name' at row 1

2. 分析和解决

2.1 数据库编码设置

2.1.1 查看 MySQL 程序编码设置

mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | latin1                    |
| character_set_connection | latin1                    |
| character_set_database   | latin1                     |
| character_set_filesystem | binary                     |
| character_set_results    | latin1                    |
| character_set_server     | latin1                    |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+

可以看到,设置里有很多的编码设置是 latin1,这个编码是无法正确显示中文的,如果你的设置也是这样,这就是导致中文编码问题的可能原因。

关于这些设置的含义:

option desc
character_set_client 客户端使用的字符编码,如果客户端连接时没有设置,或者服务端已配置为忽略客户端的设置
character_set_connection 客户端设置连接数据库时的字符编码,如果客户端没有指明,则连接数据库使用该设置的编码
character_set_database 当前选中数据库的默认字符编码,如果没有选中数据库(use <database>),则和 character_set_server 的值一致
character_set_filesystem 文件系统的编码格式,把操作系统上的文件名转化成此字符集,即把 character_set_client转换character_set_filesystem, 默认binary是不做任何转换的
character_set_results 数据库给客户端返回时使用的编码格式,如果客户端连接时没有指明,则使用该编码
character_set_server 数据库服务器默认编码格式,创建数据库时默认使用
character_set_system 数据库系统使用的编码格式,这个值一直是utf8,不需要设置,它是为存储系统元数据的编码格式
character_sets_dir 这个变量是字符集安装的目录

更多说明:MySQL doc - 5.1.7 Server System Variables

2.1.2 修改编码设置

编码设置中我们需要关注的是下面 5 个字符编码设置:

# 服务端相关
character_set_server
character_set_database #当前选中数据库的编码,这个设置不需要手动修改​

# 客户端相关
character_set_client
character_set_connection
character_set_results

修改编码设置的方式有三种。

方式1: session 范围修改

mysql> set character_set_server=utf8mb4

建议使用 utf8mb4 编码而不是 utf8,因为 MySQL 的 utf8 编码有点小问题,可以自行百度 MySQL 中 utf8 和 utf8mb4 的区别

这种修改方式是 session 范围的,也就是当前的 MySQL 连接结束后,设置就失效了。

其他几个编码设置也一样修改。

方式2: global 范围修改

mysql> set global character_set_server=utf8mb4

global 范围下的修改,重新连接依然有效,直到 MySQL 服务端重启。

方式3: 修改配置文件

想要编码设置在 MySQL 服务端重启后依然生效,可以修改配置文件。

不同平台的配置文件位置不一样,可以通过下面命令查看:

➜  ~ mysql --verbose --help | grep my.cnf

/etc/my.cnf /etc/mysql/my.cnf /usr/local/mysql/etc/my.cnf ~/.my.cnf

更多说明: MySQL 官方文档:4.2.2.2 Using Option Files

除了~/.my.cnf文件是用户级别的外,其他几个位置都是系统级别的,如果该位置没有my.cnf文件,就新建一个文本文件,命名为 my.cnf

windows 系统下,这个文件叫 my.ini

my.cnf文件中添加以下内容:

[mysqld]
character_set_server=utf8mb4
collation_server=utf8mb4_unicode_ci 
[client]
default_character-set=utf8mb4

更多信息参考: A.11 MySQL 8.0 FAQ: MySQL Chinese, Japanese, and Korean Character Sets

配置项说明:

  • character-set-server 设置影响 character_set_server 的值,character_set_database 的值在未选中当前数据库的情况下下,默认跟随 character_set_server 的值。

  • default-character-set 影响 character_set_client, character_set_connection, character_set_results 三者的值。

在 MySQL 连接终端中执行 SET NAMES <charset>也是影响的 character_set_client, character_set_connection, character_set_results 三者的值

  • collation_server 影响 orderby 的排序结果,建议设置 character-set-server 的同时也要设置

关于 character_set_server 和 collation_server: MySQL doc - sysvar_character_set_server

修改配置文件后重启 MySQL,再查看下编码设置,

mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8mb4                    |
| character_set_connection | utf8mb4                    |
| character_set_database   | utf8mb4                    |
| character_set_filesystem | binary                     |
| character_set_results    | utf8mb4                    |
| character_set_server     | utf8mb4                    |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+

可以看到已经生效了,5 个相关设置已经修改为 utf8mb4。

三种修改方式,优先选择修改配置文件,其次的选择或者想要灵活设置的话,可以在终端会话中设置。

2.2 已创建的数据库的编码

如果上面的配置已经修改完成,可能仍然有中文编码问题,因为对于已经创建完成的数据库和表,它的编码在创建时已经确定了,前面的配置项(character_set_server)已经不能影响了,需要逐个修改相应的数据库,表,列。

2.2.1 具体数据库的编码

查看完整的数据库创建语句:

mysql> show create database school;
+----------+-------------------------------------------------------------------+
| Database | Create Database                                                   |
+----------+-------------------------------------------------------------------+
| school   | CREATE DATABASE `school` /*!40100 DEFAULT CHARACTER SET latin1 */ |
+----------+-------------------------------------------------------------------+

可以看到数据库 school 的默认编码仍然是 latin1,改起:

mysql> alter database school character set 'utf8mb4';

mysql> show create database school;
+----------+--------------------------------------------------------------------+
| Database | Create Database                                                    |
+----------+--------------------------------------------------------------------+
| school   | CREATE DATABASE `school` /*!40100 DEFAULT CHARACTER SET utf8mb4 */ |
+----------+--------------------------------------------------------------------+

2.2.2 表的编码

在前一节,数据库 school 的默认编码已经修改为 utf8mb4,接下来看数据表的默认编码:

mysql> show create table student;
+---------+---------------------------------------------------------------------------------------------------+
| Table   | Create Table                                                                                      |
+---------+---------------------------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
  `name` varchar(10) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+---------+---------------------------------------------------------------------------------------------------+

看到数据表 student 的默认编码仍然是 latin1,再改起:

mysql> alter table student character set 'utf8mb4';
Query OK, 0 rows affected (0.03 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show create table student;
+---------+-------------------------------------------------------------------------------------------------------------------------+
| Table   | Create Table                                                                                                            |
+---------+-------------------------------------------------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
  `name` varchar(10) CHARACTER SET latin1 DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 |
+---------+-------------------------------------------------------------------------------------------------------------------------+

2.2.3 列的编码

在上一节可以看到,数据表 student 的默认编码已经修改为 utf8mb4,但是列 name 的编码还是 latin1,改起!

mysql> alter table `student` change `name` `name` text character set 'utf8mb4';
Query OK, 1 row affected (0.04 sec)
Records: 1  Duplicates: 0  Warnings: 0

mysql> show create table student;
+---------+--------------------------------------------------------------------------------+
| Table   | Create Table                                                                   |
+---------+--------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
  `name` text
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 |
+---------+--------------------------------------------------------------------------------+

到这里,对于已经存在的数据库,修改完成,再插入中文试试:

mysql> insert into student value("昊天");
Query OK, 1 row affected (0.00 sec)

mysql> select * from student;
+--------+
| name   |
+--------+
| Clarke |
| 昊天   |
+--------+
2 rows in set (0.00 sec)

成功!到此,中文编码的问题就解决了。

2.3 防御性编码

为了防止意外的情况发生,我们可以采取更健壮的防御性编码的方式,哪怕数据库服务端的编码设置不正确,我们仍然可以插入中文数据。

具体就是在创建数据表的时候指定默认编码:

mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | latin1                     |
| character_set_connection | latin1                     |
| character_set_database   | latin1                     |
| character_set_filesystem | binary                     |
| character_set_results    | latin1                     |
| character_set_server     | latin1                     |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)

# 指定存储引擎,编码,排序规则
mysql> create table course(name varchar(32)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
Query OK, 0 rows affected (0.03 sec)

mysql> insert into course value('高数');
Query OK, 1 row affected (0.01 sec)

mysql> select * from course;
+--------+
| name   |
+--------+
| 高数   |
+--------+
1 row in set (0.00 sec)

或者直接在创建数据库的时候就指定编码:

mysql> create database school DEFAULT CHARACTER SET utf8mb4;

3. 总结

解决 MySQL 中文编码问题的步骤:

  1. 查看数据库编码设置

  2. 修改编码设置,在终端中修改设置项,或者修改配置文件 my.cnf 以永久生效

  3. 对于之前创建的数据库,修改数据库,数据表,数据列的默认编码

最佳实践:防御性编码,在数据库创建语句中指定默认编码。

参考:

MySQL 5.7 官方文档

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,319评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,801评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,567评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,156评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,019评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,090评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,500评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,192评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,474评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,566评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,338评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,212评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,572评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,890评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,169评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,478评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,661评论 2 335

推荐阅读更多精彩内容