MUTF-8（Modified UTF-8）

内容来自网络

在Android应用程序的Dex文件中，所有的字符串都是使用一种叫做MUTF-8（Modified UTF-8）的编码格式进行编码的。

所谓的MUTF-8编码，其实是对UTF-16字符编码的再编码。

具体的实现可以查看MUTF-8编码的代码（代码位于libcore\dex\src\main\java\com\android\dex\Mutf8.java中）：
public final class Mutf8 {
...
public static void encode(byte[] dst, int offset, String s) {
final int length = s.length();
for (int i = 0; i < length; i++) {
char ch = s.charAt(i);
if (ch != 0 && ch <= 127) { // U+0000 uses two bytes.
dst[offset++] = (byte) ch;
} else if (ch <= 2047) {
dst[offset++] = (byte) (0xc0 | (0x1f & (ch >> 6)));
dst[offset++] = (byte) (0x80 | (0x3f & ch));
} else {
dst[offset++] = (byte) (0xe0 | (0x0f & (ch >> 12)));
dst[offset++] = (byte) (0x80 | (0x3f & (ch >> 6)));
dst[offset++] = (byte) (0x80 | (0x3f & ch));
}
}
}
...
}

如果UTF-16编码的字符，其值小于等于0x7F（127）的话，则MUTF-8直接用一个字节对其编码。这时，MUTF-8编码是完全和ASCII码兼容的。也就是说，如果字符串只使用了常用的一些可见字符的话，那么MUTF-8编码就基本上退化成了ASCII码。这里还有一个特例，如果UTF-16编码字符的值为0的话，MUTF-8编码将用两个字节来表示，而不是一个字节，因此要判断一下编码值非0。

所以，对于UTF-16编码字符的数值范围在0x1~0x7F之间的情况，MUTF-8编码格式如下：

因为对数值0做了特殊处理，所以经过MUTF-8编码后的值不可能为0（实际上0被MUTF-8编码用来表示字符串结束，和C语言的字符串表示法相兼容）。

接下来，代码要处理的情况是，UTF-16编码字符的数值范围在0x80~0x7FF之间的情况，当然还要包括0x0这种情况。

在这些情况下，MUTF-8编码将使用两个字节。对于第一个字节，前三个比特位是110，后面的5个比特位用来存放UTF-16编码字符数值的高5位。而对于第二个字节，前两个比特位是10，后面6个比特位用来存放UTF-16编码字符数值的低6位。对于数值为0x0的这种特殊情况，其MUTF-8编码后的值为0xC0和0x80。大致的编码格式如下图：

最后，如果UTF-16编码字符的数值范围在0x80~0xFFFF之间的话，MUTF-8将使用三个字节对其进行编码。

对于第一个字节，前四个比特位是1110，后面的4个比特位用来存放UTF-16编码字符数值的高4位。对于第二个字节，前两个比特位是10，后面6个比特位用来存放UTF-16编码字符数值的中间6位。而对于第三个字节，前两个比特位仍然是10，后面6个比特位用来存放UTF-16编码字符数值的最低6位。大致的编码格式如下：

在Android的官方Dex文件格式的文档中，对MUTF-8编码有如下描述，总结的很到位：

1）MUTF-8使用1到3个字节对UTF-16字符进行编码；

2）对于数值为0的情况，使用两个字节对其进行编码（编码后的值为0xC0和0x80）；

3）采用类似于C语言中的空字符串（NULL，单字节数值为0）作为字符串结尾的标志；

4）对于UTF-16码点范围在U+10000到U+10FFFF的情况（补充字符），数值对中的每一个数值采用3字节对其编码。也就是说，对于这种情况，表示一个字符总共需要使用6个字节。

前面三点很好理解，对于第四点，理解起来有点困难，这里特别说明一下。

大家知道UTF-16使用16位来对字符进行编码，那么其取值范围就应该是0x0到0xFFFF，这已经可以表示很多字符了。但是，世界太大了，要表示的字符太多了，最终发现16位不够用了。那怎么办呢，只能继续扩展，将取值范围又向上扩展，从0x10000到0x10FFFF，称作扩展字符。这些扩展字符的值，显然不能再用16位来表示了，那就用两个16位值来表示。对于这种表示一个扩展字符使用两个16位数值的情况，UTF-16称作代替数值对（Surrogate Pair），其编码规则如下：

1）先将UTF-16补充码的数值减去0x10000；

2）将减掉之后的数值分为两个10比特的数值，假设高10位的值表示为Vh，低10位的值表示为Vl；

3）对于数值对中第一个16位的双字节来说，用0xD800加上高10位的值Vh；

4）对于数值对中第二个16位的双字节来说，用0xDC00加上低10位的值Vl。

具体的码表如下：

这里举个例子，假设要编码的UTF-16编码的数值为U+10437，编码步骤如下：

1）将数值将去0x10000，0x10437-0x10000=0x437；

2）0x437的二进制表示是0000 0000 0100 0011 0111，所以高10位是0000000001（也就是0x1），而低10位是0000110111（也就是0x37）；

3）第一个16位双字节的值是0xD800+0x1=0xD801；

4）第二个16位双字节的值是0xDC00+0x37=0xDC37。

所以，UTF-16编码数值为U+10437的扩展字符，最终被UTF-16编码成0xD801和0xDC37。

还要注意一点，由于0xD800到0xDFFF都被UTF-16用来编码扩展字符了，所以这段范围内的数值会被UTF-16保留下来，不能表示其它任何字符了。

经过上面的解释，对于第四点就非常好理解了。由于UTF-16的扩展编码的两个16位数值的取值范围是在0xD800到0xDFFF，肯定是大于0x7FF的，因此处在MUTF-8编码的第三种情况下。所以，数值对中的每一个16位的值，MUTF-8都会使用3个字节对其进行编码。由于每个UTF-16的补充字符都需要用两个16位的值对来表示，所以MUTF-8编码过后会使用6个字节。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341

MUTF-8（Modified UTF-8）

推荐阅读更多精彩内容