文件结构
Java class文件是8位字节的二进制流,数据项按顺序存储在class文件中,相邻的项之间没有任何间隔,这样可以使class文件紧凑。占据多个字节空间的项按照高位在前的顺序分为几个连续的字节存放。在class文件中,可变长度项的大小和长度位于其实际数据之前。这个特性使得class文件流可以从头到尾被顺序解析,首先读出项的大小,然后读出项的数据。Class文件中有两种数据结构:无符号数和表。可以对比xml、json,二进制文件没有空格和换行,节省空间,提高性能,但放弃了可读性。
魔数
每个Java class文件的前4个字节被称为它的魔数(magic number):0xCAFEBABE。魔数的作用在于,可以轻松地分辨出Java class文件和非Java class文件。
class文件的下面4个字节包含了主、次版本号。对于Java虚拟机来说,版本号确定了特定的class文件格式,通常只有给定主版本号和一系列次版本号后,Java虚拟机才能够读取class文件。如52对应JDK1.8。
常量池
constant_pool_count和constant_pool
constant_pool_count:两个字节表示常量池的长度,编号从1开始;
CP_info:每个常量池入口都从一个长度为一个字节的标志开始(tag),这个标志指出了列表中该位置的常量类型。JDK 1.7以后共有14种不相同表结构的数据。
访问标志access_flags
紧接常量池后的两个字节称为access_flags,它展示了文件中定义的类或接口的几段信息,包括这个Class是类还是接口;是否定义为public类型;是否为abstrct类型;在access_flags中所有未使用的位都必须由编译器置0,而且Java虚拟机必须忽略它。
类索引
接下来的两个字节为this_class项,它是一个对常量池的索引。在this_class位置的常量池入口必须为CONSTANT_Class_info表。该表由两个部分组成——标签和name_index。标签部分是一个具有CONSTANT_Class值的常量,在name_index位置的常量池入口为一个包含了类或接口全限定名的CONSTANT_Utf8_info表。
父类索引与接口索引集合同理。
字段表集合
紧接在interfaces后面的是对在该类或者接口中所声明的字段的描述。首先是名为fields_count的计数,它是类变量和实例变量的字段的数量总和。在这个计数后面的是不同长度的field_info表的序列(fields_count指出了序列中有多少个field_info表)。在fields列表中,不列出从超类或者父接口继承而来的字段。字段表结构如下图所示:
方法表集合
紧接着fields后面的是对在该类或者接口中所声明的方法的描述。只包括在该类或者接口中显式定义的方法。
属性表集合
在Class文件、字段表、方法表中都可以携带自己的属性表集合。相对于其它表,属性表的限制相对较小,不再要求各个属性表有严格的顺序,可以写入自定义的属性信息,JVM也预定义了21项属性表。对于每个属性,它的名称需要从常量池中引入一个CONSTANT_Utf8_info类型的常量来表示,而属性值的结构则完全自定义,只需要一个u4的长度属性去说明属性值所占用的位数即可,一个属性表结构如下图所示:
字节码指令
Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需参数(称为操作数,Operands)而构成。操作码的长度为1个字节,因此最大只有256条,是基于栈的指令集架构。
字节码与数据类型
在Java虚拟机的指令集中,大多数的指令都包含了其操作所对应的数据类型信息。iload中的i表示的是int。i代表对int类型的数据操作,l代表long,s代表short,b代表byte,c代表char,f代表float,d代表double,a代表reference。也有不包含类型信息的:goto与类型无关;Arraylength操作数组类型。
加载与存储指令
加载和存储指令用于将数据在栈帧中的局部变量表和操作数栈之间来回传输,这类指令包括:
- 将一个局部变量加载到操作栈:iload
- 将一个数值从操作数栈存储到局部变量表:istore
- 将一个常量加载到操作数栈:bipush。
- 扩充局部变量表的访问索引的指令:wide
运算指令
运算或算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新存入到操作栈顶。大体上算术指令可以分为两种:对整型数据进行运算的指令与对浮点型数据进行运算的指令,无论是哪种算术指令,都使用Java虚拟机的数据类型,由于没有直接支持byte、short、char和boolean类型的算术指令,对于这类数据的运算,应使用操作int类型的指令代替。
注:e = a + b + c + d +e,操作数栈的深度依然是2。
类型转换指令
类型转换指令可以将两种不同的数值类型进行相互转换,这些转换操作一般用于实现用户代码中的显示类型转换操作,或者用来处理字节码指令中数据类型相关指令无法与数据类型一一对应的问题。
宽化类型处理:int i= 1;long l = i;
窄化类型处理:User user = new User(); Object obj = user;
处理窄化类型转换时,必须显式地使用转换指令来完成,这些转换指令包括:i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l和d2f。
对象创建与访问指令
虽然类实例和数组都是对象,但Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令。对象创建后,就可以通过对象访问指令获取对象实例或者数组实例中的字段或者数组元素,这些指令如下:
- 创建类实例的指令:new;
- 创建数组的指令:newarray、anewarray、multianewarray;
- 访问类字段(static字段,或者称为类变量)和实例字段(非static字段,或者称为实例变量)的指令:getstatic、putstatic、getfield、putfield;
- 把一个数组元素加载到操作数栈的指令:baload、caload、saload、iaload、laload、faload、daload、aaload;
- 将一个操作数栈的值存储到数组元素中的指令:bastore、castore、sastore、iastore、fastore、dastore、aastore;
- 取数组长度的指令:arraylength;
- 检查类实例类型的指令:instanceof、checkcast。
class Demo
{
public static void main(String[ ] args){
User user = new User();
User[] users = new User[10];
int[] is = new int[10];
user.name = "hello";
String username = user.name;
}
}
class User{
String name;
static int age;
}
字节码指令为:
Code:
stack=2, locals=5, args_size=1
0: new #2 // class User
3: dup
4: invokespecial #3 // Method User."<init>":()V
7: astore_1
8: bipush 10
10: anewarray #2 // class User
13: astore_2
14: bipush 10
16: newarray int
18: astore_3
19: aload_1
20: ldc #4 // String hello
22: putfield #5 // Field User.name:Ljava/lang/String;
25: aload_1
26: getfield #5 // Field User.name:Ljava/lang/String;
29: astore 4
31: return
1234567891011121314151617181920
操作数栈管理指令
如同操作一个普通数据结构中的堆栈那样,Java虚拟机提供了一些用于直接操作操作数栈的指令,包括:
- 将操作数栈的栈顶一个或两个元素出栈:pop、pop2;(不常用)
- 复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶:dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2;
- 将栈最顶端的两个数值互换:swap。
控制转移指令
控制转移指令可以让Java虚拟机有条件或无条件地从指定的位置指令而不是控制转移指令的下一条指令继续执行程序,从概念模型上理解,可以认为控制转移指令就是在有条件或无条件地修改PC寄存器的值。如:goto等。
class Demo {
public static void main(String[ ] args){
int a = 10;
if(a > 10){
System.out.println(">10");
}else{
System.out.println(">=10");
}
}
}
字节码指令为:
Code:
stack=2, locals=2, args_size=1
0: bipush 10
2: istore_1
3: iload_1
4: bipush 10
6: if_icmple 20
9: getstatic #2 // Field java/lang/System.out:Ljava/io/PrintStream;
12: ldc #3 // String >10
14: invokevirtual #4 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
17: goto 28
20: getstatic #2 // Field java/lang/System.out:Ljava/io/PrintStream;
23: ldc #5 // String >=10
25: invokevirtual #4 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
方法调用
- invokevirtual:用于调用对象的实例方法,根据对象的实际类型进行分派(虚方法分派),这也是Java语言中最常见的方法分派方式。
- invokeinterface:用于调用接口方法,它会在运行时搜索一个实现了这个接口方法的对象,找出适合的方法进行调用。
- invokespecial:用于调用一些需要特殊处理的实例方法,包括实例初始化方法、私有方法和父类方法。
- invokestatic:用于调用类方法(static 方法)
异常处理指令
在Java程序中显示抛出异常的操作(throw语句)都由athrow指令来实现,除了用throw语句显示抛出异常情况之外,Java虚拟机规范还规定了许多运行时异常会在其他Java虚拟机指令检测到异常状况时自动抛出。而在Java虚拟机中,处理异常(catch语句)不是由字节码指令来实现的,而是采用异常表来完成的。
class Demo
{
public static void main(String[ ] args){
int a = 0;
throw new RuntimeException("Exception......");
}
}
12345678
字节码指令为:
Code:
stack=3, locals=2, args_size=1
0: iconst_0
1: istore_1
2: new #2 // class java/lang/RuntimeException
5: dup
6: ldc #3 // String Exception......
8: invokespecial #4 // Method java/lang/RuntimeException."<init>":(Ljava/lang/String;)V
11: athrow
12345678910