Memcached是一个分布式的高性能内存对象缓存系统,可以缓存数据,如果没有它,就必须从数据库中获取数据,加重数据库的负担.
减轻数据库负载,减少应用程序对数据库的调用,加快了数据的访问.
即使是通过在硬盘上设立高速缓存(cache)的方式,也无法满足海量的数据查询需求。一个典型的实例就是搜索网站,在某些时刻,1s内服务器收到的查询请求会达到千万级别。
在硬盘表现得日益无力时,人们自然而然就想到了速度更快的内存。Memcached系统就是这种思路的产物。把频繁使用的数据放入内存,在CPU收到数据请求后,就可以直接从内存中返回所需要的结果,而不必访问硬盘。由于内存在访问速度上比硬盘快好几个数量级,因此这种方式就可以大大提高数据库运行的速度和效率。
通过在内存里同一维护一个巨大的hashtable,Memcached能够存储各种格式的数据
Memcached的缓存系统是分布式的,也就是允许在不同的主机上的多个用户同时访问这个系统.这种方式不仅解决了以往只能单机共享的缺憾,还减轻了数据库的压力,同时提高了访问并获取数据的速度
Memcached缓存技术的特点
1.协议简单
服务器与客户端使用简单的基于文本的协议相互通信.
2.使用了基于libevent的事件处理方法
libevent是一个程序库,能吧linux李痛得kqueue等事件处理功能封装成一个同一的接口.
3.基于key-value的数据管理
Memcached在实际应用中,以守护进程daemon的形式驻留在服务器内存中,等待客户端的连接.通信时,客户端首先与服务器建立连接,随后存取数据
4.自行管理内存
Memcached缓存给系统的基础是内存,Mem保存的数据都存储在Mem内置的内存存储空间中,而不是文件,这就是快速的原因
Memcached的内存管理算法Slab Allocator
1)工作原理
初衷:减少内存碎片,提高工作效率
实现:事先将系统分配给Memcached的内存划分为许多下该桶长度的页(默认1M)
然后将不同的页划分为不同长度的块(chunk)
2)通过Slab Allocator缓存记录
Memcached收到一条数据时,会根据数据大小选择何时的块进行存储.Memcached中维持一张表(FreeList[])记录空闲块信息.
通过这种方法,Memcached成功避免malloc和alloc式的内存管理;同时,通过固定内存块管理,避免了内存碎片的产生.
3)Slab Allocator的缺点
解决了内存碎片的问题,但是也带来新的问题.造成了内部碎片的问题:eg,申请85空间,但是只能返回100空间,就有15B的内碎片产生
4)Memcached的内存删除机制
客户端向Memcached提交数据时,除了指明key值外,还需要指明这条数据的有效期,超过有效期,客户端就无法看到这个数据了.
Memcached自身不会释放已分配的内存.通过这种方式,实现对内存空间的重复利用.
Memcached优先选择已超时的记录的空间,即使如此,依旧可能出现追加新数据时空间不足的问题.
这时就使用LRU机制来分配空间.:当Memcached的内存空间不足时(无法从Slab Class获取新的空间时)Memcached就会从最近未被使用的记录中搜索,并将其空间分配给新的记录.
5)支持分布式数据管理
Memcached是一个高性能的分布式缓存系统.然而服务端没有分布式功能,各个服务器不会相互通信.分布式实现依赖于客户端的程序库,这也是Memcached的一大特点
(1)Memcached的分布方法
a.向Memcached添加数据,首先根据客户端算法利用key选择保存的服务器;
b.服务器选定后,保存数据
c.获取数据时,以相同的key,相同的算法可以定位到相同的服务器位置,从而获取数据
(2)Memcached的分布式算法
Memcached使用的分布式算法中,我们简单介绍两种:余数哈希;一致性哈希
A.余数哈希
根据服务器台数的余数进行哈希,求得键的哈希值,再处理服务器台数,根据余数选择服务器,
缺点:当添加或者移除服务器时,缓存重组的代价太大,
当添加服务器,访问数据,Memcached命中率下降,那么就增加了数据库服务器的负载.
B.一致性哈希
使用一致性哈希可以有效避免服务器发生改变后对整个系统的影响.此外通过虚拟节点还可以避免负载不均衡的情况
一致性哈希是将整个哈希值空间组织成一个虚拟的圆环,如假设某哈希函数H的值空间是0~(2^32 -1)(即哈希值是一个32位的无符号整型),这个哈希空间为环
哈希空间按顺时针方向组织.为确定每台服务器在空间上的位置,按照服务器主机名或者IP地址对每台服务器进行Hash寻址.然后需要使用hash算法来判断数据应该存储在哪个服务器:首先,将数据根据key值使用相同的函数H计算出哈希值h,根据h确定数据在环上的位置,从此位置延环顺时针向下寻找,遇到的第一个服务器就是其应该存储的服务器.
注:一致性哈希方式,使得服务器保存的哈希值空间是一个范围,而不是一个特定的余数系列.所以减少了增删服务器后的影响.
一致性哈希的容错性与可扩展性
eg容错
对上图,当Server3服务器故障时,数据的存储指示D发生了改变,存放在了Server2上边,系统的存储数据变化最少
eg扩展
假设增加服务器Server4
那么只是B存储在Server4上边了,整体的影响只是发生在了新增节点的区间部分
一致性哈希的虚拟节点
为了解决负载均衡问题,引入了虚拟节点概念,通过虚拟节点可以使得数据更均匀分布在系统的服务器上
eg只有两台服务器时,如图,那么会有很少的数据存放在server2上边
引入虚拟节点可以解决这个问题,
所谓虚拟节点的机制,就是将每台服务器在空间上映射为多个虚拟节点,大概数据哈希到系统空间时,仍然按照顺时针方向找响应的存储节点,但是找到的却是虚拟节点.然后存储到实际对应的服务器上