大数据技术架构 - 简书

发简信

大数据技术架构

3
关注
41
粉丝
17
文章
32289

字数
16

收获喜欢
3

总资产

IP属地：天津

大数据技术架构

实时数仓 | 你想要的数仓分层设计与技术选型
数据仓库概念的提出都要追溯到上世纪了，我们认为在大数据元年之前的数仓可以称为传统数仓，而后随着海量数据不断增长，以及Hadoop生态不断发展，主要基于Hive/HDFS的离线...

527 0 1
大数据技术架构

干货 | Kafka 内核知识梳理，附思维导图
前面我们已经分享过几篇Kafka的文章，最近简单梳理了下Kafka内核相关的知识，涵盖了Kafka架构总结，副本机制，控制器，高水位机制，日志或消息存储，消息发送与消费机制等...

437 0 0

大数据技术架构

Hive调优 | Hive常见的几种优化模式
Hive和MapReduce中拥有较多在特定情况下优化的特性，如何利用好相关特性，是Hive性能调优的关键。本文就介绍那些耳熟但不能详的几种Hive优化模式。一、本地模式 ...

427 0 0
大数据技术架构

Hive调优 | Hive常见数据倾斜及调优技巧
Hive在执行MapReduce任务时经常会碰到数据倾斜的问题，表现为一个或者几个reduce节点运行很慢，延长了整个任务完成的时间，这是由于某些key的条数比其他key多很...

245 0 0
大数据技术架构

HBase调优 | HBase性能调优之内存篇
这是使用 HBase 最不可避免的一个话题，就是 HBase 的性能调优，而且通常建立在我们对 HBase 内部运行机制比较了解的基础上进行的，因此无论怎么说，调优这块都是一...

842 0 0
大数据技术架构

从原理到参数解析，HBase 刷写与合并机制介绍
HBase 是目前主流的 NoSQL 数据库，是一个高可靠、高性能、高伸缩的分布式 KV 存储系统，本文讲解 HBase 两个核心机制——刷写（Flush）与合并（Compa...

709 0 1
大数据技术架构

一文了解 Zookeeper 基本原理与应用场景
Zookeeper 是一个高性能、高可靠的分布式协调系统，是 Google Chubby 的一个开源实现，目前在分布式系统、大数据领域中使用非常广泛。本文将介绍 Zookee...

304 0 1

大数据技术架构

HBase 性能测试之读写P999延时压测实践
我们在使用HBase的时候，必须要能够清楚HBase服务端的性能，这对HBase的合理使用以及性能调优都非常重要，所以一般在使用HBase之前，建议做一些必要的基准性能测试，...

704 0 0
大数据技术架构

Apache Kafka 版本演进及特性介绍
前段时间有一个同事问到：Kafka 0.8.2 只能使用Zookeeper连接吗？虽然仍有一部分Kafka的老用户在使用 0.8.x 版本，但 Kafka 0.8.x 确实是...

3626 1 3
大数据技术架构

HBase原理 | HBase核心原理与应用场景
HBase是大数据NoSQL领域里非常重要的分布式KV数据库，是一个高可靠、高性能、高伸缩的分布式存储系统，目前国内知名公司都有在大规模使用，社区也非常活跃。本文就是学习HB...

487 0 1
大数据技术架构

Apache Impala 介绍与使用指南
一、引言最近在梳理大数据相关技术栈，查询引擎篇中重点介绍了Phoenix、Impala及Presto，一时想起自己开始使用Impala时的一个笔记。于是找到笔记拿出来分享，...

2016 0 0
大数据技术架构

基于Telegraf+Influxdb+Grafana的监控平台介绍
最近在做大数据监控平台的方案调研，做了一些开源解决方案的尝试，今天分享一下基于Telegraf+InfluxDB+Grafana的监控平台整体部署过程。文章开始会简单介绍下 ...

1067 0 0

大数据技术架构

HBase 集成 Phoenix 构建二级索引实践
Phoenix 在 HBase 生态系统中占据了非常重要的地位，本文主要包括以下几方面内容： Phoenix 介绍 CDH HBase 集成 Phoenix 使用 Phoen...

452 0 2
大数据技术架构

一文读懂 HBase 核心知识
一、HBase核心概述 HBase（Hadoop Database）是一个基于Google BigTable论文设计的开源、高可靠性、高性能、可扩展的分布式存储系统。HBas...

675 0 0
大数据技术架构

一文彻底搞懂 CMS GC 参数配置
近期整理多个 HBase 集群的 JVM 参数，发现都是默认的 CMS GC 配置，如何调优 JVM 参数就成了一个绕不过的话题。因此，为了寻求一个 CMS GC 的 JVM...

6180 0 0

个人介绍

数据仓库、数据湖技术，存储计算分离，批流一体，核心引擎等大数据技术。欢迎关注！