概述 数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明...
业务背景 Spark读取文件时,对于可切分的文件,会将文件切分为一系列 Split ,每个Split对应一个Task。一般而言,Split的大小与HDFS的Block大小相当...
作者: 康凯森 日期: 2018-04-17 分类:OLAP 1 系统架构 1.1 What is Kylin 1.2 What is Doris 2 数据模型 2.1 Ky...
谈到Spark内存管理,估计大家都会想到:static memory manager,unified memory manager,execution memory,stor...
Kudu 是一个基于 Raft 的分布式存储系统,它致力于融合低延迟写入和高性能分析这两种场景,并且能很好的嵌入到 Hadoop 生态系统里面,跟其他系统譬如 Clouder...
本文首发于Gevin的博客 原文链接:Flask 入门指南 未经 Gevin 授权,禁止转载 1. 初识Flask Flask 是一个微框架(Micro framework)...
安装所需的依赖: 安装python: 安装python的virtualenv环境 安装superset 可能遇到的问题 如果执行fabmanager create-admin...
Druid单机版安装及离线导入数据 1.概述 本文快速安装基于单机服务器,很多配置可以默认不需要修改,数据存储在操作系统级别的磁盘。推出快速安装的目的,便于了解并指导基于Dr...
“麒麟出没,必有祥瑞。”—— 中国古谚语 前言 随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临。但是海量数据的收集只是大数据...
Druid基本概念及架构介绍 1.什么是Druid Druid是一个专为大型数据集上的高性能切片和OLAP分析而设计的数据存储。Druid最常用作为GUI分析应用程序提供动力...
本系列的最后一部分是有关垃圾收集(GC)日志的JVM参数。GC日志是一个很重要的工具,它准确记录了每一次的GC的执行时间和执行结果,通过分析GC日志可以优化堆设置和GC设置,...
内存管理的目的就是让我们在开发中怎么有效的避免我们的应用出现内存泄漏的问题。内存泄漏大家都不陌生了,简单粗俗的讲,就是该被释放的对象没有释放,一直被某个或某些实例所持有却不再...
红黑树(英语:Red–black tree)是一种自平衡二叉查找树,是在计算机科学中用到的一种数据结构,典型的用途是实现关联数组。在了解红黑树之前我们需要简述一下二叉查找树。...