abf7f162a975 - 简书

发简信

abf7f162a975

4
关注
1
粉丝
0
文章
0

字数
0

收获喜欢
1

总资产

IP属地：上海

abf7f162a975

LittleMagic
写了 499547 字，被 35614 人关注，获得了 4876 个喜欢

本博客所有内容均适用知识共享-署名-相同方式共享（CC-BY-SA）4.0协议。
abf7f162a975

Spark 动态资源失效问题排查
也可以看我CSDN的博客：https://blog.csdn.net/u013332124/article/details/89417086 一、问题描述最近开启动态资源后...

疯狂的哈丘
1521 0 1

abf7f162a975

Spark写入es：EsHadoopRemoteException: version_conflict_engine_exception
背景介绍业务场景：spark批量写入es，基于es-hadoop组件实现批处理任务定时调度 cdh5.5.3集群，spark2.3，elasticsearch6.4.3 ...

coderXue
3434 0 2
abf7f162a975

优秀

TasksetManager冲突导致SparkContext异常关闭
背景介绍当正在悠闲敲着代码的时候，业务方兄弟反馈接收到大量线上运行的spark streaming任务的告警短信，查看应用的web页面信息，发现spark应用已经退出了，第...

liujianhuiouc
5491 2 2
abf7f162a975

楼主您好，阅读了您的《自定义Spark Partitioner提升es-hadoop Bulk效率》
受益匪浅
我也遇到大量写入es缓慢的问题了
已经重写ESShardPartitioner了
我将数据分为24000个partition，实际上我们有240个shard，我的每100个partition对应es的一个分片
实际上开始写的时候qps挺高的
到了后面会出现一种很怪的现象
还剩下200个左右的task，他们的数据都是某几个分片，比如shard1，2，3这3个分片
就会导致后期集群只有3个节点有写入，然后运行非常长的时间
现在有点猜测是这3台节点的性能略差，不知道还有没有可能是其它原因呢
希望能赐教，不胜感激

自定义Spark Partitioner提升es-hadoop Bulk效率
前言之前写过一篇文章，如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，c...

祝威廉
5946 7 10 1
abf7f162a975

祝威廉
写了 263680 字，被 3535 人关注，获得了 2394 个喜欢

新博客地址： <a href="https://links.jianshu.com/go?to=https%3A%2F%2Fwww.zhihu.com%2Fpeople%2Fallwefantasy" target="_blank">https://www.zhihu.com/people/allwefantasy</a>
abf7f162a975

楼主我想问下你说的重写分区器提高性能的部分，是用的spark-es包的saveToEs么，我在spark-es的源码里面没有看到你说的TransportBulkAction进行两重for循环的部分，如果spark-es包的具体实现和es原生不一样的话，能否告知spark-es在哪里对数据做的路由到shard所在机器的呢，多谢

如何提高ElasticSearch 索引速度
我Google了下，大致给出的答案如下：使用bulk API 初次索引的时候，把 replica 设置为 0 增大 threadpool.index.queue_size ...

祝威廉
33563 15 40 1

abf7f162a975

楼主好，想问下bulkDelete的原理和bulkLoad是否相近，实际运行过程中如果bulkDelete运行缓慢是可能与什么有关呢？

Spark 操作hbase(构建一个支持更新和快速检索的数据库)
一、背景在用户画像的系统中，需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。组件如下：因而提出以下几个问题： Spark 作为内存计算引擎强于计算，Hbas...

阿海与蜗牛
3351 1 10
abf7f162a975

Hbase-Spark BulkLoad 解析
一、背景项目中有需求，要频繁地、快速地向一个表中初始化数据。因此如何加载数据，如何提高速度是需要解决的问题。一般来说，作为数据存储系统会分为检索和存储两部分。检索是对外暴露...

阿海与蜗牛
2388 0 2
abf7f162a975

阿海与蜗牛
写了 14938 字，被 60 人关注，获得了 73 个喜欢
abf7f162a975

@Kent_Yao 哦！原来是这样，多谢多谢

如何避免Spark SQL做数据导入时产生大量小文件
什么是小文件？生产上，我们往往将Spark SQL作为Hive的替代方案，来获得SQL on Hadoop更出色的性能。因此，本文所讲的是指存储于HDFS中小文件，即指文件...

Kent_Yao
17815 12 16
abf7f162a975

@Kent_Yao 请问如何保证呢？

如何避免Spark SQL做数据导入时产生大量小文件
什么是小文件？生产上，我们往往将Spark SQL作为Hive的替代方案，来获得SQL on Hadoop更出色的性能。因此，本文所讲的是指存储于HDFS中小文件，即指文件...

Kent_Yao
17815 12 16

abf7f162a975

有个问题请教一下，比如写入动态分区表的分区字段叫做a，然后distribute by a,rand() *700,在shuffle的时候一定能保证相同分区的数据被shuffle到相同task么？假设相同的hash函数为hash，hash(a)相同的数据hash(a,rand)也一定相同么？

如何避免Spark SQL做数据导入时产生大量小文件
什么是小文件？生产上，我们往往将Spark SQL作为Hive的替代方案，来获得SQL on Hadoop更出色的性能。因此，本文所讲的是指存储于HDFS中小文件，即指文件...

Kent_Yao
17815 12 16
abf7f162a975

FlySheep_ly
写了 104740 字，被 167 人关注，获得了 289 个喜欢
abf7f162a975

Kafka
4b0dca15549b 编，8 篇文章，180 人关注

Articles about Apache Kafka
abf7f162a975