从字节码角度剖析Java类文件

1 Java类文件简析

所谓 Java 类文件，就是通常用 javac 编译器产生的 .class 文件。这些文件具有严格定义的格式。Java 源文件经过 javac 编译器编译之后，将会生成对应的二进制文件。

Java 能够实现"一次编译，到处运行”，靠的是 class 文件的功劳。无论是哪种平台（如：Mac、Windows、Linux 等），只要安装了虚拟机都可以直接运行字节码。

有了字节码，也就解除了 Java 虚拟机和 Java 语言之间的耦合。目前 Java 虚拟机已经可以支持很多除 Java 语言以外的其他语言了，如 Groovy、JRuby、Jython、Scala 等，因为这些语言经过编译之后也可以生成能够被 JVM 解析并执行的字节码文件。而虚拟机并不关心字节码是由哪种语言编译而来的。如下图所示：

如果从纵观的角度来看 class 文件，class 文件里只有两种数据结构：无符号数和表。

无符号数：属于基本的数据类型，以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数，无符号数可以用来描述数字、索引引用、数量值或者字符串（UTF-8编码）。
表：表是由多个无符号数或者其他表作为数据项构成的复合数据类型，class文件中所有的表都以“_info”结尾。其实，整个 Class 文件本质上就是一张表。在一张表中可以包含其他无符号数和其他表格。

2 class 文件结构

无符号数和表组成了 class 中的各个结构，这些结构按照预先规定好的顺序紧密的从前向后排列，相邻的项之间没有任何间隙。如下图所示：

当 JVM 加载某个 class 文件时，JVM 就是根据上图中的结构去解析 class 文件，加载 class 文件到内存中，并在内存中分配相应的空间。具体某一种结构需要占用大多空间，可以参考下图：

3 实例分析

接下来通过一个 Java 代码实例来详细分析下class 文件结构，Test.java代码如下：

import java.io.Serializable;

public class Test implements Serializable, Cloneable{
      private int num = 1;
      
      public int add(int i) {
           int j = 10;
           num = num + i;
           return num;
      }
}

经过 javac 编译后，得到的类文件Test.class，用vim查看HelloWorld.class

vim HelloWorld.class

打开文件后输入

:%!xxd

按回车即可看到如下一串串十六进制符号

该文件中是由十六进制符号组成的，每两个字符代表一个字节，这一段十六进制符号组成的长串是严格遵守 Java 虚拟机规范。接下来就一步一步看下JVM是如何解析它们的.

魔数 magic number

在class文件开头的四个字节是class文件的魔数，它是一个固定的值--0XCAFEBABE。魔数是class文件的标志，也就是说它是判断一个文件是不是class格式文件的标准，如果开头四个字节不是 0XCAFEBABE，那么就说明它不是 class 文件，不能被 JVM 识别或加载。

版本号

紧跟在魔数后面的两个字节代表当前 class 文件的版本号。前两个字节 0000 代表次版本号（minor_version），后两个字节 0034 是主版本号（major_version），对应的十进制值为 52，也就是说当前 class 文件的主版本号为 52，次版本号为 0。所以综合版本号是 52.0，也就是 jdk1.8.0。

常量池
紧跟在版本号之后的是一个叫作常量池的表（cp_info）。在常量池中保存了类的各种相关信息，比如类的名称、父类的名称、类中的方法名、参数名称、参数类型等，这些信息都是以各种表的形式保存在常量池中的。

常量池中的每一项都是一个表，其项目类型共有 14 种，如下表所示：

可以看出，常量池中的每一项都会有一个u1大小的tag值。tag值是表的标识，JVM解析class文件时，通过这个值来判断当前数据结构是哪一种表。以上14种表都有自己的结构，我们就以 CONSTANT_Class_info 和 CONSTANT_Utf8_info 这两张表举例说明，因为其他表也基本类似。

首先，CONSTANT_Class_info 表具体结构如下所示：

table CONSTANT_Class_info {
    u1  tag = 7;
    u2  name_index;
}

tag：占用一个字节大小。值为 7，查看上面标识位为7的表是CONSTANT_Class_info 类型表。
name_index：是一个索引值，可以将它理解为一个指针，指向常量池中索引为 name_index 的常量表。比如 name_index = 2，则它指向常量池中第 2 个常量。

接下来再看 CONSTANT_Utf8_info 表具体结构如下：

table CONSTANT_utf8_info {
    u1  tag;
    u2  length;
    u1[] bytes;
}

tag：值为1，表示是 CONSTANT_Utf8_info 类型表。
length：length 表示 u1[] 的长度，比如 length=5，则表示接下来的数据是 5 个连续的 u1 类型数据。
bytes：u1 类型数组，长度为上面第 2 个参数 length 的值。

引申：String长度最大是多少
在java代码中声明的String字符串最终在class文件中的存储格式就 CONSTANT_utf8_info。因此一个字符串最大长度也就是u2所能代表的最大值65536个，但是需要使用2个字节来保存 null 值，因此一个字符串的最大长度为 65536 - 2 = 65534(字符串最大长度为65534个字节，并不代表一个字符串中就可以保存65534个字符。因为在utf-8编码下，一个数字和一个英文字母占一个字节，但是一个汉字却可以占用2~4个字节。因此如果使用字面量的方式声明中文字符串的长度会远远小于65534。)，这种String长度的限制是编译期的限制。

那么运行时的最大长度是多少呢？
String内部是以char数组的 value 存储的，数组的长度是int类型的 count，那么String允许的最大长度就是Integer.MAX_VALUE(2147483647) 了。java中一个char占2个字节，也就是16位。String的运行时最大占用空间计算公式如下：

运行时大概需要约4GB的内存才能存储最大长度的字符串。

在常量池内部的表中也有相互之间的引用。用一张图来理解 CONSTANT_Class_info 和 CONSTANT_utf8_info 表格之间的关系，如下图所示：

理解了常量池内部的数据结构之后，接下来就看一下实例代码的解析过程。因为开发者平时定义的 Java 类各式各样，类中的方法与参数也不尽相同。因为开发者平时定义的Java类各式各样，类中的方法与参数也不尽相同。所以常量池的元素数量也就无法固定，因此class文件在常量池的前面使用2个字节的容量计数器，用来代表当前类中常量池的大小。如下图所示：

红色框中的001d转化为十进制就是29，也就是说常量计数器的值为29。其中下标为0的常量被JVM留作其他特殊用途，因此Test.class中实际的常量池大小为这个计数器的值减1，也就是 28个。

第一个常量，如下所示：

0a转化为10进制后为10，通过查看常量池14种表格图中，可以查到tag=10的表类型为CONSTANT_Methodref_info，因此常量池中的第一个常量类型为方法引用表。其结构如下：

CONSTANT_Methodref_info {
    u1 tag = 10;
    u2 class_index;        指向此方法的所属类
    u2 name_type_index;    指向此方法的名称和类型
}

可以看到 class_index 与 name_type_index 都是 u2 类型的无符号数，也就是说在“0a”之后的 2 个字节指向这个方法是属于哪个类，紧接的 2 个字节指向这个方法的名称和类型。它们的值分别是：

0006：十进制 6，表示指向常量池中的第 6 个常量。
0015：十进制 21，表示指向常量池中的第 21 个常量。

至此，第 1 个常量就解读完毕了。紧接着的就是第 2 个常量，如下所示：

tag 09 表示是字段引用表 CONSTANT_FIeldref_info ，其结构如下：

CONSTANT_Fieldref_info{
    u1 tag;
    u2 class_index;        指向此字段的所属类
    u2 name_type_index;    指向此字段的名称和类型
}

同样也是 4 个字节，前后都是两个索引。

0005：指向常量池中第 5 个常量。
0016：指向常量池中第 22 个常量。

到现在为止我们已经解析出了常量池中的两个常量。剩下的 21 个常量的解析过程也大同小异，这里就不一一解析了。实际上我们可以借助 javap 命令来帮助我们查看 class 常量池中的内容：

javap -v Test.class

上述命令执行后，显示结果如下：

正如我们刚才分析的一样，常量池中第一个常量是 Methodref 类型，指向下标 6 和下标 21 的常量。其中下标 21 的常量类型为 NameAndType，它对应的数据结构如下：

CONSTANT_NameAndType_info{
    u1 tag;
    u2 name_index;    指向某字段或方法的名称字符串
    u2 type_index;    指向某字段或方法的类型字符串
}

而下标在21的NameAndType的name_index和type_index分别指向了13和14，也就是“<init>”和“()V”。因此最终解析下来常量池中第 1 个常量的解析过程以及最终值如下图所示：

仔细解析层层引用，最后我们可以看出，Test.class 文件中常量池的第 1 个常量保存的是 Object 中的默认构造器方法。

访问标志（access_flags）

紧跟在常量池之后的常量是访问标志，占用两个字节，如下图所示：

访问标志代表类或者接口的访问信息，比如：该 class 文件是类还是接口，是否被定义成 public，是否是 abstract，如果是类，是否被声明成 final 等等。各种访问标志如下所示：

我们定义的Test.java是一个普通Java类，不是接口、枚举或注解。并且被public修饰但没有被声明为final和abstract，因此它所对应的access_flags为0021（0X0001 和 0X0020 相结合）。

类索引、父类索引与接口索引计数器

在访问标志后的 2 个字节就是类索引，类索引后的 2 个字节就是父类索引，父类索引后的 2 个字节则是接口索引计数器。如下图所示：

可以看出类索引指向常量池中的第 5 个常量，父类索引指向常量池中的第 6 个常量，并且实现的接口个数为 2 个。再回顾下常量池中的数据：

从图中可以看出，第5个常量和第6个常量均为CONSTANT_Class_info表类型，并且代表的类分别是“Test”和“Object”。再看接口计数器，因为接口计数器的值是2，代表这个类实现了 2 个接口。查看在接口计数器之后的 4 个字节分别为：

0007：指向常量池中的第 7 个常量，从图中可以看出第 7 个常量值为"Serializable"。
0008：指向常量池中的第 8 个常量，从图中可以看出第 8 个常量值为"Cloneable"。

综上所述，可以得出如下结论：当前类为 Test 继承自 Object 类，并实现了“Serializable”和“Cloneable”这两个接口。

字段表

紧跟在接口索引集合后面的就是字段表了，字段表的主要功能是用来描述类或者接口中声明的变量。这里的字段包含了类级别变量以及实例变量，但是不包括方法内部声明的局部变量。

同样, 一个类中的变量个数是不固定的，因此在字段表集合之前还是使用一个计数器来表示变量的个数，如下所示：

0002 表示类中声明了 2 个变量（在 class 文件中叫字段），字段计数器之后会紧跟着 2 个字段表的数据结构。

字段表的具体结构如下：

CONSTANT_Fieldref_info{
    u2  access_flags    字段的访问标志
    u2  name_index          字段的名称索引(也就是变量名)
    u2  descriptor_index    字段的描述索引(也就是变量的类型)
    u2  attributes_count    属性计数器
    attribute_info
}

继续解析 Text.class 中的字段表，其结构如下图所示：

字段访问标志

对于 Java 类中的变量，也可以使用 public、private、final、static 等标识符进行标识。因此解析字段时，需要先判断它的访问标志，字段的访问标志如下所示：

字段表结构图中的访问标志的值为0002，代表它是private类型。变量名索引指向常量池中的第9个常量，变量名类型索引指向常量池中第10个常量。第9和第10个常量分别为“num”和“I”，如下所示：

因此可以得知类中有一个名为 num，类型为 int 类型的变量。对于第 2 个变量的解析过程也是一样，就不再赘复。

注意：

字段表集合中不会列出从父类或者父接口中继承而来的字段。
内部类中为了保持对外部类的访问性，会自动添加指向外部类实例的字段。

方法表

字段表之后跟着的就是方法表常量。方法表常量应该是以一个计数器开始的，因为一个类中的方法数量是不固定的，如图所示：

上图表示 Test.class 中有两个方法，但是我们只在 Test.java 中声明了一个 add 方法，这是为什么呢？这是因为默认构造器方法也被包含在方法表常量中。

方法表的结构如下所示：

CONSTANT_Methodref_info{
    u2  access_flags;        方法的访问标志
    u2  name_index;          指向方法名的索引
    u2  descriptor_index;    指向方法类型的索引
    u2  attributes_count;    方法属性计数器
    attribute_info attributes;
}

可以看到，方法也是有自己的访问标志，具体如下：

我们主要来看下 add 方法，具体如下：

从图中我们可以看出 add 方法的以下字段的具体值：

access_flags = 0X0001 也就是访问权限为 public。
name_index = 0X0011 指向常量池中的第 17 个常量，也就是“add”。
type_index = 0X0012 指向常量池中的第 18 个常量，也即是 (I)。这个方法接收 int 类型参数，并返回 int 类型参数。

属性表

在之前解析字段和方法的时候，在它们的具体结构中我们都能看到有一个叫作 attributes_info 的表，这就是属性表。

属性表并没有一个固定的结构，各种不同的属性只要满足以下结构即可：

CONSTANT_Attribute_info{
    u2 name_index;
    u2 attribute_length length;
    u1[] info;
}

JVM 中预定义了很多属性表，这里重点讲一下 Code 属性表。

我们可以接着刚才解析方法表的思路继续往下分析：

可以看到，在方法类型索引之后跟着的就是“add”方法的属性。0X0001 是属性计数器，代表只有一个属性。
0X000f 是属性表类型索引，通过查看常量池可以看出它是一个 Code 属性表，如下所示：

Code 属性表中，最主要的就是一些列的字节码。通过 javap -v Test.class 之后，可以看到方法的字节码，如下图显示的是 add 方法的字节码指令：

JVM 执行 add 方法时，就通过这一系列指令来做相应的操作。

最后编辑于：2020.04.19 12:06:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341

从字节码角度剖析Java类文件

1 Java类文件简析

2 class 文件结构

3 实例分析

推荐阅读更多精彩内容