核心:
HDFS:全称为Hapdoop分布式文件系统(Hadoop Distribute File System),提供了高吞吐量的访问和应用程序数据。
Hadoop MapReduce:基于YARN的大数据集的并行处理系统。
Hadoop Common:支持其他Hadoop模块的通用功能,包括序列化、Java RPC和持久化数据结构等。
其他子项目:
Ambari:是一个部署、管理和监控Apache Hadoop集群的开源框架,它提供一个直观的操作工具盒一个健壮的Hadoop API,可以隐藏复杂的Hapdoop操作,使集群操作大大简化。
HBase:可扩展的分布式列示数据库,支持大表的结构化存储
Hive:分布式数据仓库系统,提供基于类似SQL的查询语言
Mahout:机器学习和数据挖掘领域经典算法的实现
Pig:一个高级数据流语言和执行环境,用来检索海量数据集
Spark:一个快速和通用的计算引擎,Spark提供了一个简单而富有表现力的编程模型,支持多种应用包括ETL、机器学习、数据流处理和图形计算
Sqoop:在关系型数据库与Hadoop系统之间进行数据传输的工具
Tez:是从MapReduce计算框架演化而来的通用DAG计算框架,可作为MapReduce/Pig/Hive等系统的底层数据处理引擎,它天生融入Hapdoop2.0种的资源管理平台YARN
Zookeeper :提供Hapood集群高性能的分布式的协调服务。