一、大数据背景与趋势
1.计算机体系结构与硬件系统巨大发展
a.CPU.内存.GPU.硬盘
2.数据管理系统发展
a.关系型数据库
三大数据库:
ORACLE.MS-SQLserver.IBM-DB2
B.早期 针对事务处理系统(transaction processing )大量并发需求,少量读写操作
90s Data Warehouse :数据仓库 读取大量数据分析操作
2000年代 多种发展:数据流处理,GIS,多媒体数据库,Web后端
2010年代 大数据
3.大数据的概念与挑战
1.大数据分析重要性
EMC Digital Universe with R&A by IDC 2014
2013:每个人产生的数据量4.4ZB/person (1ZB=10^21字节 )数据的利用率2%
2020:每个人产生数据量:60~70ZB/person 。数据利用率20%
大数据分析已经引起了广泛关注。
2.大数据概念:
1.数据量巨大Volume;
数据种类繁多Variety;
数据产生速度,更新速度快Velocity。
2.与传统关系型数据库对比:传统先设计系统后采集数据;大数据先有数据,然后需要分析。
处理需求更加丰富;数据密度降维
3.大数据与云计算:云计算提供平台
4.大数据处理平台:关系型;云平台;云平台+SQL;No-SQL:
图数据处理:Google Pregel,Apache Giraph,Graphlab,Neo4j;
5.研究生春季课程:大数据分析与大规模数据分析
二、高速数据更新
1.不同类型系统的Velocity
Velocity是事务处理系统、数据流系统的主要设计目标;
数据分析
数据分析
新数据—》存储数据
数据仓库
数据更新方式:夜间离线更新;需要在线更新。
目标:支持在线更新的同时保持好的读性能。
传统数据更新操作问题:数据分析是顺序读取,数据更新是随机读写。
TPC www.tpc.org 测试
Our approach:使用SSD缓存在线更新。
日志记录分析及重要性
从各种硬件设备软件系统收集日志记录。
用于支持安全管理,故障排查,用户行为分析等重要应用。
目标:存储处理大量日志数据:存储10PB;提高日志获取能力:1.2GB/s(100TB/day)
基于时间窗口的连接操作:找匹配
挑战:日志获取是分布的,希望同一段时间的日志记录在同一个机器节点上。
增量更新
数据的新鲜性
增量计算:数据量增大-》计算量增大
Mapreduce编程模型
Mapreduce/Hadoop 模型
MapReduce增量计算:粗粒度、细粒度