240 发简信
IP属地:北京
  • Resize,w 360,h 240
    5-kafka(分布式消息队列)

    Kafka-分布式发布-订阅消息系统,最初是由LinkedIn公司所开发,Scala语言编写,之后加入Apache旗下,成为了Apache的子项...

  • Resize,w 360,h 240
    4-MapReduce+Spark(分布式计算框架)

    MapReduce 一、简介 MapReduce起源,在介绍大数据编年史时有提到Google最早在04年发表论文MapReduce,之后Doug...

  • Resize,w 360,h 240
    3-YARN(分布式资源管理框架)

    一、简介 简介YARN(Yet Another Resource Negotiator)分布式通用资源管理框架,它作为一个专门的资源管理框架从M...

  • Resize,w 360,h 240
    2-HDFS(分布式文件系统)

    一、简介 简介HDFS是Hadoop非常重要的核心之一,它也是由Doug Cutting基于Google公司03年10月开源的论文GFS做的开源...

  • Resize,w 360,h 240
    1-大数据技术概览

    大数据的4V特征数据规模巨大(Volume)、数据类型多样(Variety)、生成和处理速度极快(Velocity)、价格巨大但密度较低(Val...

  • 分区和分桶区别

    我们知道在传统的DBMs系统中,一般都具有表分区的功能,通过表分区能够在特定的区域检索数据,减少扫描成本,在一定程度上提高了查询效率,当然我们还...

  • 数据仓库中的ER实体模型和维度模型

    一、数据仓库建模的意义一个公司中会有多个业务业务系统,比如:OA系统、订单系统、财务系统、人事系统、仓储系统等,因此需要按照一定的组织结构将所有...

  • Resize,w 360,h 240
    数仓建设规范

    1、数仓分层原则 优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一...

  • Excel内页签信息合并(可勾选合并页签和合并列)

    import timeimport tkinter as tkfrom tkinter import ttkfrom tkinter.filed...