当删除HBase中的数据,HBase会删除存储在HDFS上的数据,而Hadoop的Sequence File是一个顺序读写,批量处理的系统。那HBase怎么就能够查询到该记录...
当删除HBase中的数据,HBase会删除存储在HDFS上的数据,而Hadoop的Sequence File是一个顺序读写,批量处理的系统。那HBase怎么就能够查询到该记录...
前段时间,一直有人问 spark streaming 偏移量问题。什么是偏移量?百度。一个正常或者线上的sparkstreaming执行顺序:1.根据group获取kafka...
背景 spark streaming + kafka 有两种方案接收kafka数据-基于receiver的方案和direct方案(no receiver方案)。 基于rece...
最近由于疫情在家办公,事情比较多(主要在各种沟通和会上),一直没有更新;正好工作中有个case, 用到啦spark streaming, 所以随手记录一下,遇到的问题; 背景...
一、环境安装 3台服务器的搭建,为了好描述我把服务器的地址分成hadoop1、hadoop2、hadoop3,实际生产环境可以用域名来代替。注意:配置里面尽量用域名,不要用I...
摘要: Spark Streaming, Kafka,zookeeper Scala调用Kafka API发送数据 使用Scala调用Kafka API向Kafka发送数据,...
批量导入数据 使用 Elasticsearch Bulk API /_bulk批量 update 步骤: 需求:我希望批量导入一个 movie type 的名词列表到 wor...
SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域,使用SQL更是家常便饭。本...
作者:huashiou链接:https://segmentfault.com/a/1190000018626163 1、概述 本文以淘宝作为例子,介绍从一百个并发到千万级并发...
关于Elasticsearch的选举机制:ES选举master机制不像Hbase的HMaster选举, HMaster选举是借助ZK,通过各个节点向ZK注册临时节点(ZK保证...
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hi...
使用SparkSQL连接Hive数据库报错:找不到表 Table or view not found: bp_ods.ods_bp_user_behavior 解决方案: 1...
在之前的文章中介绍了通过spark-shell访问hive中数据的方法,那么在IDEA中应该怎样连接Hive并访问数据呢?网上有很多篇文章介绍,但可能是因为环境不同,访问过程...
0x01 前言 上篇文章Spark Streaming和Kafka集成深入浅出介绍了Spark Streaming的基本内容及和kafka的集成,其中也提到了开启反压的缘由:...
Check Point sparkContext.setCheckpointDir() spark的checkpoint目录在集群模式下,必须是 hdfs path。因为在集...
1、spark thriftserver报以下错误,其他诸如hive/sparksql等方式均正常 ERRORActorSystemImpl:Uncaughtfatalerr...
近日莫名遭遇异常一枚,如下: 原因分析:1 Failed to create local dir,什么时候spark会创建临时文件呢?shuffle时需要通过diskBloc...
总结很好, nice
Spark常见调优,以及错误整理1.常见调优方法: spark作业经常会出现跑得很慢或者卡死的情况,需要考虑调优。 1.1 任务提交参数调整 最简单的调优就是调整参数为spark作业加大资源。 以下是我提交...
1.常见调优方法: spark作业经常会出现跑得很慢或者卡死的情况,需要考虑调优。 1.1 任务提交参数调整 最简单的调优就是调整参数为spark作业加大资源。 以下是我提交...