┌───────────────────────────────────────────────────┐│2019年12月23日18:55:55更新│ 若redis有密码...
┌───────────────────────────────────────────────────┐│2019年12月23日18:55:55更新│ 若redis有密码...
多多点赞,因为分享是一种美德 http://zhouxunwang.cn/api_a.php?id=25 位置查询 http://zhouxunwang.cn/api_a.p...
面试如果被问道,那么需要说出彩来,特别时参数 Hive动态分区参数配置 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修...
写在前面 本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理 本文主要介绍Spark Streaming基本概念、kafka集成、Offse...
首先摆出我们常用的一种设定。 关于spark-submit的执行过程,读Spark Core的源码能够获得一个大致的印象。今天事情比较多,所以之后会另写文章专门叙述关于Spa...
面试很容易被问到,也容易被问倒!!!Hbase官网建议每张表的列族数建议设在1-3之间,so,Why?从5个方面说明以下问题: 列族数对Flush的影响 在Hbase中,调用...
在Kafka、Storm、Flink、Spark Streaming等分布式流处理系统中(没错,Kafka本质上是流处理系统,不是单纯的“消息队列”),存在三种消息传递语义(...
Kafka配合Spark Streaming是大数据领域常见的黄金搭档之一,主要是用于数据实时入库或分析。 为了应对可能出现的引起Streaming程序崩溃的异常情况,我们一...
整理于【Spark面试2000题】Spark core面试篇03 ,梅峰谷大数据 1.Spark使用parquet文件存储格式能带来哪些好处? 如果说HDFS 是大数据时代分...
面试官心理分析 这个问题是肯定要问的,说白了,就是看你有没有实际干过 es,因为啥?其实 es 性能并没有你想象中那么好的。很多时候数据量大了,特别是有几亿条数据的时候,可能...
随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache Flume、Fluentd、Logstash、Chukwa、Scribe、S...
Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法,分别是:(1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命令行...
1-预分区 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够...
目录 1、利用Binlog和Kafka实时同步mysql数据到Elasticsearch(一) - 开启Binlog日志2、利用Binlog和Kafka实时同步mysql数据...
数据倾斜分为两大类:聚合倾斜和join倾斜,针对不同的倾斜类型采用不同解决方案 数据倾斜解决方案上分为:缓解数据倾斜和彻底解决数据倾斜 1.数据倾斜表现形势 导致数据倾斜的算...
所谓ELKK 是指 Elasticsearch, Logstash, Kibana, Kafka 这4个开源日志分析,收集, 分析展现和传输工具。 由于 Logstash 是...
一、概述 本篇文章主要介绍如何使用SparkStreaming + flume + Kafka 实现实时数据的计算,并且使用高德地图API实现热力图的展示。 背景知识: 在有...