字符集,排序规则,Unicode

序言

show character set;
--查看mysql支持的字符集,部分输出如下
Character Describption Default collation Maxlen
ascii US ASCII ascii_general_ci 1
big5 Big5 Traditional Chinese(繁体中文) big5_chinese_ci 2
binary Binary pseudo charset binary 1
gb18030 China National Standard GB18030 gb18030_chinese_ci 4
gb2312 GB2312 Simplified Chinese gb2312_chinese_ci 2
gbk GBK Simplified Chinese gbk_chinese_ci 2
utf16 UTF-16 Unicode utf16_general_ci 4
utf16le UTF-16LE Unicode utf16le_general_ci 4
utf32 UTF-32 Unicode utf32_general_ci 4
utf8 UTF-8 Unicode utf8_general_ci 3
utf8mb4 UTF-8 Unicode utf8mb4_0900_ai_ci 4
show collation;
--查看mysql支持的collation

指定字符集与排序规则

服务器的字符集与排序规则

  • character_set_server的默认值为utf8mb4

    show variables like 'character_set_server';
    --输出的Value列为utf8mb4
    
  • my.ini中可以设置character_set_server的值:

    character-set-server=utf8;
    --在my.ini中添加上述行,重启服务,即可设置character_set_server的值
    
  • 在运行过程中,可以更改character_set_server的值:

    set character_set_server = gbk;
    
  • 如果未在create database语句中指定字符集和排序规则,则会将character_set_servercollation_server作为默认值

  • 若只指定了字符集没有指定排序规则,则使用字符集对应的默认的排序规则

数据库的字符集与排序规则

  • 可以在create databasealter database时指定字符集和排序规则

    create database d character set gbk collate gbk_bin;
    alter database d character set gb2312 collate gb2312_bin;
    
    use d;
    SELECT @@character_set_database, @@collation_database;
    --此sql语句用于输出当前数据库的字符集与排序规则
    
  • 当前数据库的字符集和排序规则,可以通过查看character_set_databasecollation_database来确定。若当前没有默认数据库,则character_set_databasecollation_databasecharacter_set_servercollation_server相同

    create database d0 character set gbk collate gbk_bin;
    create database d1 character set utf8 collate utf8_bin;
    
    use d0;
    show variables like 'character_set_database';
    --输出的character_set_database值为gbk
    
    use d1;
    show variables like 'character_set_database';
    --输出的character_set_database值为utf8
    
  • 数据库的字符集和排序规则会产生以下影响:

    • create table未指定字符集和排序规则时,则采用数据库的字符集和排序规则

    • load data未指定字符集和排序规则,则使用数据库的字符集来解释文件中的信息

    • 创建的存储过程和函数未指定字符集和排序规则,则使用数据库的字符集和排序规则

      use d0; --create database d0 character set gbk collate gbk_bin;
      delimiter \
      
      create procedure p0(in str varchar(111))
      begin
              select charset(str);
      end\
      
      delimiter ;
      
      call p0("szn");
      --输出:gbk
      
      use d1; --database d1 character set utf8 collate utf8_bin;
      delimiter \
      
      create procedure p1(in str varchar(111))
      begin
              select charset(str);
      end\
      
      delimiter ;
      
      call p1("szn");
      --输出:utf8
      
      use d1; --database d1 character set utf8 collate utf8_bin;
      delimiter \
      
      create procedure p_set(in str varchar(111) character set gb2312)
      begin
              select charset(str);
      end\
      
      delimiter ;
      
      call p_set("szn");
      --输出:gb2312
      

表的字符集与排序规则

  • 可以在create tablealter table时指定表的字符集和排序规则

    create table t0(name varchar(1024)) character set gbk collate gbk_bin;
    alter table t0 character set utf8;
    
  • 若未指定表的字符集和排序规则,则使用对应数据库的字符集和排序规则

  • 若表中的列未指定字符集和排序规则,则对应的列使用表的字符集和排序规则

列的字符集与排序规则

  • create tablealter table时指定列的字符集和排序规则

    create table t2(name varchar(1024) character set gbk collate gbk_bin);
    alter table t2 modify column name varchar(1024) character set utf8 collate utf8_bin;
    
  • 使用alter table将列的字符集进行更改时,若字符集不兼容,则可能会丢失数据

字符串字面量的字符集与排序规则

  • 字符串字面量的默认字符集和排序规则由character_set_connectioncollation_connection指定

  • 字符串字面量可以设定字符集与排序规则:

    show variables like 'character_set_connection';
    --输出值:utf8
    
    set @b = "szn";
    select charset(@b);
    --输出值:utf8
    
    set @c = _gbk"哈" COLLATE gbk_bin;
    --字符串字面量前指定编码方式,这种方式称为介绍器(Character Set Introducers)
    
    select charset(@c);
    --输出值:gbk
    
  • 字符串字面量指定字符集并不会更改其值,解析器最终仍按照character_set_connection进行处理

    set @c0 = _gbk"哈" COLLATE gbk_bin;
    set @c1 = _utf8"哈" COLLATE utf8_bin;
    select hex(@c0), hex(@c1);
    --两个输出均为"哈"的utf8编码 E59388
    

Character Set Introducers

  • 字符串字面量,十六进制字面量,位字面量都有一个可选的字符集和排序规则设置,这称为介绍器

  • 介绍器告诉解析器后面字符串使用的字符集,但是不会改变字符串的值

    set @s0 = _utf8 0xE59388;
    set @s1 = _gbk 0xB9FE;
    set @s2 = _gbk X'B9FE';
    set @s3 = _utf8 b'111001011001001110001000';
    set @s4 = _utf8 0b111001011001001110001000;
    select @s0, @s1, @s2, @s3, @s4;
    --输出:哈,哈,哈,哈, 哈
    
    SET @v1 = X'000D' | X'0BC0';
    --@V1是bigint类型
    
    SET @v2 = _binary X'000D' | X'0BC0';
    --@v2是字符串
    
    SELECT HEX(@v1), HEX(@v2);
    --输出:BCD, 0BCD
    
    select @v1 + 1, @v2 + 1, "0BCD" + "1";.
    --输出:3022, 1, 1
    

连接的字符集与排序规则

  • 每个客户端的连接都有特定且可更改的字符集和排序规则

  • 客户端发起sql查询,至结果返回到客户端:

    • character_set_client表明客户端发送过来的sql语句的字符集
    • 服务器将接收到的sql语句的字符集转换为character_set_connection
    • 服务器将sql的执行结果的字符集转换为character_set_results
  • character_set_client不允许一些字符集设置:

    ucs2
    utf16
    utf16le
    utf32
    
  • set character set会同时将character_set_clientcharacter_set_results设定为给定值,并且将character_set_connection设置为character_set_database的值

    set character_set_client = ascii;
    set character_set_results = big5;
    set character_set_database = gb2312;
    set character_set_connection = gbk;
    
    set character set latin2;
    show variables like 'character%';
    
    Variable_name Value
    character_set_client latin2
    character_set_connection gb2312
    character_set_database gb2312
    character_set_results latin2
  • my.ini中添加default-character-set=latin2,重启服务,将会同时更改character_set_client,character_set_connection,character_set_resultslatin2

  • 可以在登录mysql时:mysql -u root -p --default-character-set=latin1

  • set names gb2312;
    --等效于下面三句代码
    
    set character_set_client = gb2312;
    set character_set_results = gb2312;
    set character_set_connection = gb2312;
    

Unicode支持

​ The Unicode Standard includes characters from the Basic Multilingual(使用多种语言的) Plane (BMP) and supplementary(追加的) characters that lie outside the BMP.

​ BMP characters have these characteristics:

  • Their code point values are between 0 and 65535 (or U+0000 and U+FFFF).
  • They can be encoded in a variable-length encoding using 8, 16, or 24 bits (1 to 3 bytes).
  • They can be encoded in a fixed-length encoding using 16 bits (2 bytes).
  • They are sufficient(充分的) for almost all characters in major(主要的) languages.

​ Supplementary characters lie outside the BMP:

  • Their code point values are between U+10000 and U+10FFFF).
  • 占用的空间比BMP内的字符大,最多占用4字节

mysql支持的unicode

字符集 单个字符占用空间 支持的字符 描述
utf8mb4 1到4字节 BMP and supplementary A UTF-8 encoding of the Unicode character set
utf8mb3 1到3字节 BMP only A UTF-8 encoding of the Unicode character set
utf8 1到3字节 BMP only An alias for utf8mb3.
ucs2 2字节 BMP and supplementary The UCS-2 encoding of the Unicode character set
utf16 2或4字节 BMP and supplementary The UTF-16 encoding for the Unicode character set . Like ucs2 but with an extension for supplementary characters.
utf16le 2或4字节 BMP and supplementary The UTF-16LE encoding for the Unicode character set. Like utf16 but little-endian rather than big-endian.
utf32 4字节 BMP and supplementary The UTF-32 encoding for the Unicode character set
  • utf8当前是utf8mb3的别称,但是utf8mb3将在mysql将来的版本被删除。有时候utf8会变成utf8mb4的别称,所以为了避免模糊不清,请考虑使用utf8mb4

  • 对于BMP字符,utf8mb4utf8mb3具有相同编码值,占用的空间也相同。即utf8mb4utf8mb3的超集

  • 对于补充字符,utf8mb4需要四个字节来存储

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,393评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,790评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,391评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,703评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,613评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,003评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,507评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,158评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,300评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,256评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,274评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,984评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,569评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,662评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,899评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,268评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,840评论 2 339

推荐阅读更多精彩内容