首先我们来看一下维基百科对零拷贝给出的定义:
零拷贝描述了一种计算机中的操作,即CPU在执行某项任务时不需要先将数据从内存中的一个位置移动到另一个位置就可以完成操作,从而节省了CPU时钟周期和内存带宽。
从上面的描述可以看出,其实只要是节省了一次或多次数据的复制就可以称之为零拷贝了,这其实是一种广义的定义。在Netty中对于零拷贝有三个层次的实现,我们就一条条分析一下。
避免数据流经用户空间
在操作系统层面,将数据从来源设备A发送到目标设备B时,需要先将数据从A的内核空间读缓冲区复制到用户空间缓冲区(即应用程序提供的一块buffer),再从用户空间缓冲区复制到B的内核空间写缓冲区。零拷贝的作用就是省去了上面用线划掉的这个过程,将数据从A的内核读缓冲直接移动到B的内核写缓冲里,即整个数据的流动都在内核空间完成,不需要再向用户空间里走一遍了。例如将磁盘中的一个文件发送到网络中时,正常情况下我们需要在程序中开辟一块buffer, 先将数据从磁盘中读到这个buffer中,这个过程里就发生了数据从磁盘到内核空间读缓冲再到用户空间程序buffer的数据流动。随后我们再从自己的buffer中将数据写入到socket,实际上发生了从用户空间程序buffer到内核空间socket写缓冲的数据流动。Netty在这一层对零拷贝实现就是FileRegion
类的transferTo()
方法,我们可以不提供buffer完成整个文件的发送,不再需要开辟buffer循环读写。
这里再多啰嗦一句,如果有朋友疑惑为什么OS要把内存分成内核空间和用户空间两部分然后还要来回复制,那就应该去复习一下操作系统原理了,简单来说就是为了保护用户程序不会破坏操作系统内核,同时不允许用户程序直接操作硬件而是应该让操作系统代劳。
避免数据从JVM Heap到C Heap的拷贝
在JVM层面,每当程序需要执行一个I/O操作时,都需要将数据先从JVM管理的堆内存复制到使用C malloc()或类似函数分配的Heap内存中才能够触发系统调用完成操作,这部分内存站在Java程序的视角来看就是堆外内存,但是以操作系统的视角来看其实都属于进程的堆区,OS并不知道JVM的存在,都是普通的用户程序。发现了没有,这样一来JVM在I/O时永远比使用native语言编写的程序多一次数据复制,这是所有基于VM的编程语言都绕不开的问题,而且是纯粹的人为多增加了一个步骤。那么问题来了,为什么不直接使用JVM堆区数据的地址而是要复制一下呢?原因很简单,虚拟机只是一个用户程序,它本身并没有直接访问硬件的能力,因此所有的I/O操作都需要借助于系统调用来实现。在Linux系统中,与I/O相关的read()
和write()
系统调用,都需要传入一个指向你在程序中分配的一片内存区域起始地址的指针,然后操作系统会将数据填入这片区域或者从这片区域中读出数据。这里如果直接使用JVM堆中对应byte[]
类型的地址的话就会有两个无法解决的问题:一是Java中的对象实际的内存布局跟C是不一样的,不同的JVM可能有不同的实现,byte[]
的首地址可能只是个对象头,并不是真实的数据;二是垃圾收集器的存在使得JVM会经常移动对象的位置,这样同一个对象的真实内存地址随时都有可能发生变化,JVM知道地址变了,但是操作系统可不知道。明确上面这些以后我们就不难理解,Netty中对零拷贝思想的第二处实现,就是在适当的位置直接使用堆外内存从而避免了数据从JVM Heap到C Heap的拷贝。
减少数据在用户空间的多次拷贝
在我们写代码时有很多时候会将数据多次移动来实现一些功能,比如在Netty中我们可能会先将ByteBuffer
中的字节数据读到自己开辟的一处byte[]
中再遍历处理,这样就多了一次数据的复制。有时候可能需要将多个ByteBuffer组合起来使用才能完成某些业务逻辑,这样就需要再开辟一个更大的字节数组将所有ByteBuffer都复制过来,更要命了。这里Netty的第三个层次的实现,就是提供了CompositeByteBuf
类,它提供了对多个ByteBuffer
的一个"视图",可以将它们逻辑上当成一个完整的ByteBuffer
来操作,这样就免去了重新分配空间再复制数据的开销。
明白上面这三条以后相信大家对零拷贝就有了一个全面的认识了。对于操作系统来说,它指的是数据在内核空间直接流动而不需要经过用户空间;对于普通程序员来说,零拷贝又多出了VM缺陷引起的复制和用户自己业务逻辑上的复制两个层次的概念。