240 发简信
IP属地:上海
  • Spark 动态资源失效问题排查

    也可以看我CSDN的博客:https://blog.csdn.net/u013332124/article/details/89417086 一、问题描述 最近开启动态资源后...

  • Spark写入es:EsHadoopRemoteException: version_conflict_engine_exception

    背景介绍 业务场景:spark批量写入es,基于es-hadoop组件实现 批处理任务定时调度 cdh5.5.3集群,spark2.3,elasticsearch6.4.3 ...

  • 优秀

    TasksetManager冲突导致SparkContext异常关闭

    背景介绍 当正在悠闲敲着代码的时候,业务方兄弟反馈接收到大量线上运行的spark streaming任务的告警短信,查看应用的web页面信息,发现spark应用已经退出了,第...

  • 楼主您好,阅读了您的《自定义Spark Partitioner提升es-hadoop Bulk效率》
    受益匪浅
    我也遇到大量写入es缓慢的问题了
    已经重写ESShardPartitioner了
    我将数据分为24000个partition,实际上我们有240个shard,我的每100个partition对应es的一个分片
    实际上开始写的时候qps挺高的
    到了后面会出现一种很怪的现象
    还剩下200个左右的task,他们的数据都是某几个分片,比如shard1,2,3这3个分片
    就会导致后期集群只有3个节点有写入,然后运行非常长的时间
    现在有点猜测是这3台节点的性能略差,不知道还有没有可能是其它原因呢
    希望能赐教,不胜感激

    自定义Spark Partitioner提升es-hadoop Bulk效率

    前言 之前写过一篇文章,如何提高ElasticSearch 索引速度。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,c...

  • 楼主我想问下你说的重写分区器提高性能的部分,是用的spark-es包的saveToEs么,我在spark-es的源码里面没有看到你说的TransportBulkAction进行两重for循环的部分,如果spark-es包的具体实现和es原生不一样的话,能否告知spark-es在哪里对数据做的路由到shard所在机器的呢,多谢

    如何提高ElasticSearch 索引速度

    我Google了下,大致给出的答案如下: 使用bulk API 初次索引的时候,把 replica 设置为 0 增大 threadpool.index.queue_size ...

  • 楼主好,想问下bulkDelete的原理和bulkLoad是否相近,实际运行过程中如果bulkDelete运行缓慢是可能与什么有关呢?

    Spark 操作hbase(构建一个支持更新和快速检索的数据库)

    一、背景 在用户画像的系统中,需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。组件如下: 因而提出以下几个问题: Spark 作为内存计算引擎强于计算,Hbas...

  • Hbase-Spark BulkLoad 解析

    一、背景 项目中有需求,要频繁地、快速地向一个表中初始化数据。因此如何加载数据,如何提高速度是需要解决的问题。一般来说,作为数据存储系统会分为检索和存储两部分。检索是对外暴露...

  • @Kent_Yao 哦!原来是这样,多谢多谢

    如何避免Spark SQL做数据导入时产生大量小文件

    什么是小文件? 生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件...

  • @Kent_Yao 请问如何保证呢?

    如何避免Spark SQL做数据导入时产生大量小文件

    什么是小文件? 生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件...

  • 有个问题请教一下,比如写入动态分区表的分区字段叫做a,然后distribute by a,rand() *700,在shuffle的时候一定能保证相同分区的数据被shuffle到相同task么?假设相同的hash函数为hash,hash(a)相同的数据hash(a,rand)也一定相同么?

    如何避免Spark SQL做数据导入时产生大量小文件

    什么是小文件? 生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件...