背景
由于前段时间在学习mysql相关的知识,其中涉及到了wal redo log以及磁盘的问题,在此记录一下。
Page Cache
page Cache 是现代操作系统为了弥补硬盘写入速度的不足,而引入内存作为文件系统的缓存,它会把当前系统的所有剩余的内存作为page cache。
page Cache是在内核中的,也就是说是在内核态的,page cache在磁盘的读写过程中都有用到,在读磁盘的过程,系统会把磁盘内容读取到page cache中,而在写磁盘的过程中,是先会写到page Cache中,由操作系统选择合适的时机再写入磁盘,比如在系统内存不足的时候。其实写磁盘的过程是涉及到用户态和内核态的转换的,我们采用网上的一张图来解释一下:
对于一般的io,我们关注Buffered IO这条线,
对于写: 用户通过文件系统的api调用,之后会写入到page Cache,这个时候就会涉及到用户态向内核态的转换,这个时候就必须将用户的buffer的文件copy到内核的的page Cache中,这就浪费了cpu的时间。系统在合适的时间进行磁盘的写操作。
对于读: 用户通过文件系统的api调用,会读取page cache的内容,如果这个时候要读取的内容不在page Cache中,系统就会把磁盘的内容读取到page Cache中,之后copy page cache的内容到用户buffer,这里涉及到内核态向用户态的转换。
对于mmap也就是memory mapped files,内核会将程序的虚拟内存映射到page Cache中,也就是图中的mmap这条线,从图中可以看出少了file System这么一步,也就是在该文件的操作,可以直接反应到page Cache中,就不会进行内核态与用户态之间的切换,极大的提高了速度的读取效率。
对于Direct io,我们看图上的Direct io这条线,这个机制更狠,直接让用户和磁盘对接,这种的话,对于写操作就会直接映射buffer到磁盘,以DMA的方式进行传输,这种减少了复制内容到page Cache的这步操作。
这些操作,在java中都有体现,如MappedByteBuffer类和DirectByteBuffer类
zero copy
zero copy是在网络传输中用到的,是调用系统api sendfile来实现的,一般的的socket的流程如下(参考网上的图片):
同时参考网上的说明:
- 操作系统从磁盘读取数据,并写入到内核空间的page cache中。
- 应用程序从内核空间读取数据,并复制到用户空间中。
- 应用程序将用户空间中的数据写回到内核空间的socket缓冲中去。
-
操作系统将socket缓冲中的数据复制到网卡缓冲中,并经过网卡发送出去。
可以看到这种传统发送数据的方式经过了四次数据复制和两次系统调用,效率很差。那么使用sendfile系统调用后是什么情况呢?
使用sendfile可以直接从page cache复制数据到网卡缓冲,避免了不必要的系统调用和数据复制,非常高效。
这些操作,在java中也有体现,如FileChannel.transferTo()和FileChannel.transferFrom()操作
参考引用
额外记录
进程的RSS为进程使用的所有物理内存(file_rss+anon_rss),即Anonymous pages+Mapped apges(包含共享内存)。cgroup RSS为(anonymous and swap cache memory),不包含共享内存。两者都不包含file cache