一、大数据特点
随着互联网Web2.0应用的大规模兴起,大量结构化(零售、财务、生物信息学、地理数据)、半结构化(Web日志、电子邮件、文档)和非结构化(图像、视频、传感器数据、网页)数据产生,对这些数据的存储,相比于传统关系型数据库存储来说,在数据量极、数据操作复杂度、三高(“高效”、“高可用”、“高扩展”)性需求等方面要求更高。
目前一般认为大数据具有以下四个特征,即Volume(指数据规模大,通常PB甚至ZB级别), Variety(指多种数据类型), Value(大数据的高价值), Velocity(处理速度高)。
二、 针对大数据的四个特征,大数据的存储问题主要归纳为以下几个问题:
1、如何利用现有的存储介质组合来构建大数据的存储架构?
磁盘读写性能差,与主存之间的速度有很大差距,传统的主存-磁盘存储架构无法适应大数据的储存管理要求。而目前,主流的新型存储设计观点是IBM的存储级主存技术SCM。它的性能特点可以使其存在于存储系统的不同层次上:既可以作为主存,也可以作为内存与二级存储之间的缓存,也可以作为二级存储器。
在众多存储介质中,如闪存(Flash memory),相变存储PCM(Phase-Change Memory)发展迅速,而且已经有将之用于大数据存储相关研究中。SSD是闪存存储的最主要形式,它没有机械寻道操作,随机读的延迟低;可以实现异地更新;低耗能。但是由于写入数据的时候,需要通过加压的方式对存储单元进行电子填充,随机写操作速度慢,而且芯片的块擦除次数有限,超过一定擦除次数后闪存单元就不可用,存在很大的寿命限制的问题。相对于闪存,相变存储器(玻璃材质构成)读写的速度都很高,寿命长,由于不需要刷新电流耗能超低。
那么,对于考虑存储介质的大数据存储,研究重点主要集中在减少对存储介质的写操作来延长存储介质的使用寿命,以及大数据存储的集群架构环境中负载均衡,基于多存储介质的分层存储架构等方面。下面综述这三方面现有研究技术和方法.......未完待续。。。
2、大量数据在分布式环境下的存储分配问题?简要介绍hadoop数据的切分策略?一致性原理?副本策略?