240 投稿
收录了23篇文章 · 5人关注
  • 数仓--Theory--数仓的数据模型详解

    什么是数据模型 数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这...

  • 数仓--Theory--数仓元数据及管理

    需要进行对比学习,弄清楚是hive元数据还是数仓元数据,两者有很大的区别,存储位置也是不一样的 Hive元数据 元数据包括:表名、表所属的数据库...

  • Resize,w 360,h 240
    Hbase使用Coprocessor构建二级索引

    最近在学习Hbase二级索引的构建,虽然网上方案挺多,代码也并不复杂,但还是花了不少时间,主要是集群环境的调试踩了不少坑,毕竟新手... 这里将...

    0.4 cwjbest 0 6
  • Spark on YARN

    启动SparkOnYARN 确认HADOOP_CONF_DIR或者YARN_CONF_DIR指向的目录包含Hadoop集群的配置文件。Spark...

  • PySpark on Yarn的相关依赖的解决方式

    问题 Spark on Yarn[http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop...

    0.9 Kent_Yao 6 16
  • Resize,w 360,h 240
    Hive on Spark安装配置详解及避坑指南

    个人主页:http://www.linbingdong.com 简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请...

    0.5 Jeffbond 22 30 1
  • Resize,w 360,h 240
    airflow 介绍

    声明:本文转自我的个人博客,有兴趣的可以查看原文。转发请注明来源。 最近工作需要,使用airflow搭建了公司的ETL系统,顺带在公司分享了一次...

  • 搭建Hive所遇过的坑

    一.基本功能: 1.启动hive时报错 解决方案: 2.启动hive时报错: 解决方案: 3.启动hive时报错 解决方案: 4.启动hive时...

  • Resize,w 360,h 240
    各个公司的大数据架构

    美团 数据收集特性: 对于数据收集平台,日志数据是多接口的,可以打到文件里观察文件,也可以更新数据库表。关系型数据库是基于Binlog获取增量的...

  • Resize,w 360,h 240
    基于docker搭建superset可视化分析平台

    对于可视化分析方面,因为自己tableau已经用的很熟了,想增加对superset的认识和熟练程度,想搭建一个superset可视化分析平台,以...

    0.8 ccccfys 2 15

专题公告

大数据hdfs, yarn, spark, hbase等等系统的优化和维护