我们在创建普通对象的时候只需要new关键字就解决了,但是在new的背后到底经历了什么呢?我们创建一个对象的过程到底是什么样子呢?
对象的创建
我们的Java虚拟机在遇到一条字节码new指令时,首先经历以下的步骤:
我们先不介绍类加载过程,后面如果出了相关博文会在这里给一个超链接(点击跳转)。
在我们的类检查通过后,也就是到了我们的虚拟机为我们的新生对象分配内存。我们的内存分配方式有两种
指针碰撞
假设Java堆中内存是绝对规整的,所有被使用过的内存都放在一边,空闲的内存被放在另一边,中间放着一个指针作为分界点的指示器,那所分配的内存就仅仅是把那个指针向空闲方向挪动一段与对象大小相等的举例,这种分配方式称为“指针碰撞”(Bump ThePointer)。一般使用Serial、ParNew等带压缩整理过程的收集器。
空闲列表
假设Java堆中的内存并不是规整的,已被使用的内存和空闲的内存相互交错在一起,那就没有办法简单地进行指针碰撞了,虚拟机就必须维护一个列表,记录上哪些内存块是可用的,在分配的时候从列表中找到一块足够大的空间划分给对象实例,并更新列表上的记录,这种分配方式称为“空闲列表”(Free List)。一般使用CMS这种基于清除(Sweep)算法的收集器。
注意,因为我们的虚拟机创建对象是非常频繁的,所以仅仅只是修改一个指针的位置,在并发里也是不安全的。比如给A对象分配内存,指针还没来得及修改,对象B又同时使用了原来的指针来分配内存的情况。我们针对这种并发安全的问题也提出了两种解决方案:
- 同步处理。对我们的分配内存空间的操作进行同步处理,采用CAS配上自旋的方式保证更新操作的原子性。
- 本地线程分配缓冲。把我们分配内存的动作按照线程划分在不同的空间之中进行,也就是每个线程在Java堆中都预先分配一小块内存,称为本地线程分配缓冲区。哪个线程要分配内存,就在哪个线程的本地缓冲区分配,只有本地缓冲区用完了,分配新的缓冲区时才需要同步锁定。虚拟机是否使用缓冲区,可以通过参数-XX:+/-UseTLAB参数来设定。
分配完内存就需要将我们的内存空间都初始化为零值了。然后开始往我们的对象的对象头里填充一些信息,比如该对象是哪个类的实例、如何才能找到类的元数据信息、对象的哈希码、对象的GC分代年龄等信息。至此,我们从虚拟机的角度来看,一个对象已经产生了。但是从Java程序来看,我们还需要进行构造函数(<init>()),按照按程序员的意愿对对象进行初始化,一个真正可用的对象才算完全被构造出来。
(补充:为了能在多数情况下能够更快的分配内存,设计了一个叫作LinearAllocation Buffer的分配缓冲区,通过空闲列表拿到一大块分配缓冲区之后,在它里面仍然可以使用指针碰撞方式来分配。)
对象的布局
我们上面介绍了到了在虚拟机中一个对象的创建,我们接下来介绍的就是对象在堆内存中的存储布局。可以划分为三个部分:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。
对象头
我们的对象头主要包括了两类信息。
- 第一类是用于存储对象自身的运行时数据,如哈希码(HashCode)、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等,简称“Mark Word”。
- 第二类便是类型指针,即对象指向它的类型元数据的指针,Java虚拟机通过这个指针来确定该对象是哪个类的实例。(但是并不是所有对象都会保留的,在下面定位的时候会具体谈到!)
关于我们的Mark Word会根据对象的状态来复用空间,也就是处于什么状态,就会如何分配我们的比特存储空间。比如处于对象未被同步锁锁定的状态下(无锁态),Mark Word的32个比特存储空间中的25个比特用于存储对象哈希码,4个比特用于存储对象分代年龄,2个比特用于存储锁标志位,1个比特固定为0。下面给上其他状态的空间分布:
实例数据
实例数据是我们对象真正存储的有效信息,也就是我们在程序代码里面所定义的各种类型的字段内容,无论是从父类继承下来的,还是在子类中定义的字段都必须记录起来。具体的存储顺序可以受到虚拟机分配策略参数(-XX:FieldsAllocationStyle参数)和字段在Java源码中定义顺序的影响。
对齐填充
没有特别的含义,它仅仅起着占位符的作用。由于HotSpot虚拟机的自动内存管理系统要求对象起始地址必须是8字节的整数倍,换句话说就是任何对象的大小都必须是8字节的整数倍。对象头部分已经被精心设计成正好是8字节的倍数(1倍或者2倍),因此,如果对象实例数据部分没有对齐的话,就需要通过对齐填充来补全。
对象的定位
我们创建对象是为了后续使用对象,Java程序会通过栈上的reference数据(指向对象的引用)来操作堆上的具体对象。具体的主流对象访问方式主要使用句柄和直接指针两种。
句柄访问
如果使用句柄访问的话,Java堆中将可能会划分出一块内存来作为句柄池,reference中存储的就是对象的句柄地址,而句柄中包含了对象实例数据与类型数据各自具体的地址信息,结构如下:
使用句柄来访问的最大好处就是reference中存储的是稳定句柄地址,在对象被移动(垃圾收集时移动对象是非常普遍的行为)时只会改变句柄中的实例数据指针,而reference本身不需要被修改。
直接指针
如果使用直接指针的话,那么我们的Java堆中对象的内存布局就必须考虑如何放置访问类型数据的相关信息,reference中存储的直接就是对象实例数据,如果只是访问对象本身的话,就会了少了一次间接访问的开销,结构如下:
使用直接指针访问的优点是速度快,少了一次指针定位的时间开销。如果对象访问十分频繁的话,那么便是极为可观的执行成本!
对象垃圾判断
我们的对象在被垃圾回收器回收的时候会进行判断对象是否是垃圾,然后才选择是否回收。而我们进行判断的两种方式如下:
引用计数算法
在对象中添加一个引用计数器,如果被引用计数器加 1,引用失效时计数器减 1,如果计数器为 0 则被标记为垃圾。原理简单,效率高,但是在 Java 中很少使用,因为存在对象间循环引用的问题,导致计数器无法清零。
可达性分析算法
主流语言的内存管理都使用可达性分析判断对象是否存活。基本思路是通过一系列称为 GC Roots 的根对象作为起始节点集,从这些节点开始,根据引用关系向下搜索,搜索过程走过的路径称为引用链,如果某个对象到 GC Roots 没有任何引用链相连,则会被标记为垃圾。可作为 GC Roots 的对象包括虚拟机栈和本地方法栈中引用的对象、类静态属性引用的对象、常量引用的对象。
通过两种方式总结后的存活判断
- 堆中是否存在该实例
- 加载该类的classloader是否已经被回收
- 该类的java.lang.Class对象在任何地方没有被引用,也就是不能够通过反射方法获取该类信息
谈谈四种引用
在上面对象定位说到了reference是传统的某块内存、对象的引用。但是在JDK1.2之后,我们的引用被细分成了四种引用,通过强弱依次递减分别是,强引用,软引用,弱引用,虚引用四种。
-
强引用。最常见的引用,例如
Object obj = new Object()
就属于强引用。只要对象有强引用指向且 GC Roots 可达,在内存回收时即使濒临内存耗尽也不会被回收。 - 软引用。弱于强引用,描述非必需对象。在系统将发生内存溢出前,会把软引用关联的对象加入回收范围以获得更多内存空间。用来缓存服务器中间计算结果及不需要实时保存的用户行为等。
- 弱引用。弱于软引用,描述非必需对象。弱引用关联的对象只能生存到下次 YGC (Young GC)前,当垃圾收集器开始工作时无论当前内存是否足够都会回收只被弱引用关联的对象。由于 YGC 具有不确定性,因此弱引用何时被回收也不确定。
- 虚引用。最弱的引用,定义完成后无法通过该引用获取对象。唯一目的就是为了能在对象被回收时收到一个系统通知。虚引用必须与引用队列联合使用,垃圾回收时如果出现虚引用,就会在回收对象前把这个虚引用加入引用队列。
参考资料
深入理解Java虚拟机:JVM高级特性(第三版)