Kafka-分布式发布-订阅消息系统,最初是由LinkedIn公司所开发,Scala语言编写,之后加入Apache旗下,成为了Apache的子项...
MapReduce 一、简介 MapReduce起源,在介绍大数据编年史时有提到Google最早在04年发表论文MapReduce,之后Doug...
一、简介 简介YARN(Yet Another Resource Negotiator)分布式通用资源管理框架,它作为一个专门的资源管理框架从M...
一、简介 简介HDFS是Hadoop非常重要的核心之一,它也是由Doug Cutting基于Google公司03年10月开源的论文GFS做的开源...
大数据的4V特征数据规模巨大(Volume)、数据类型多样(Variety)、生成和处理速度极快(Velocity)、价格巨大但密度较低(Val...
我们知道在传统的DBMs系统中,一般都具有表分区的功能,通过表分区能够在特定的区域检索数据,减少扫描成本,在一定程度上提高了查询效率,当然我们还...
一、数据仓库建模的意义一个公司中会有多个业务业务系统,比如:OA系统、订单系统、财务系统、人事系统、仓储系统等,因此需要按照一定的组织结构将所有...
1、数仓分层原则 优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一...
import timeimport tkinter as tkfrom tkinter import ttkfrom tkinter.filed...