RAID:Redundant Arrays of Independent Drives 独立冗余磁盘阵列,独立磁盘构成的具有冗余功能的阵列。
GFS:Google File System Google文件系统
HDFS:Hadoop Dsitributed File System Hadoop分布式文件系统
Zookeeper:分布式应用程序协调服务,是Hadoop和Hbase的重要组件
Hadoop:Apache基金会所开发的分布式系统基础架构。
MapReduce:一种变成模型,用于大规模数据集(TB以上)的并行计算,是编程模型,也是计算框架。
shuffle:洗牌、混洗。在MapReduce中shuffle 更像是洗牌的逆过程,将无规则的map输出按制定的规则“打乱”成具有一定规则的数据。其它理解:分布式计算需要将不同服务器上的相关数据合并到一起进行下一步计算,这就是shuffle
Yarn:Yet Another Resource Negotiator 分布式集群资源调度框架
Hive:基于Hadoop的一个数据仓库工具,可将结构化工具映射为一张数据库表,并提供简单的SQL查询功能。
Spark:类似Hadoop MapReduce 的通用并行框架,拥有Hadoop MapReduce的所有优点,不同于MapReduce的是:Job中间输出可以保存在内存中国,从而不需要读写HDFS,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Google "三驾马车":GFS (对应产品 HDFS)、MapReduce(对应产品 MapReduce、Spark等)、BigTable(对应产品 Hbase等)
RDBMS:关系型数据库管理系统
NoSQL:非关系型、分布式、支持海量数据存储的数据库设计模式(也有人理解为Not Only SQL)
HBase:分布式、面向阵列的开源数据库,是一种NoSQL 数据库
Storm、Spark Streaming 、Flink :大数据流计算框架
OLTP:On-Line Transaction Processing 在线事务处理
OLAP:On-Line Analytical Processing 在线分析处理