本文1、2、3节介绍了Spark 内存相关之识,第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor 的内存管理建立在 JVM 的内...

本文1、2、3节介绍了Spark 内存相关之识,第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor 的内存管理建立在 JVM 的内...
线上服务,在使用thrift的过程中,客户端会不定时出现一些org.apache.thrift.transport.TTransportException: java.net...
首先说下场景这个问题出现在Spark将Mysql导入Hbase中时遇到的 Spark 通过 BulkLoad 方式写 hbaseSpark将数据写到 hdfs 后程序很久一直...
本想翻译一下java.util.ConcurrentModificationException这篇文章的。但发现讲的不够详细深入,查了一些资料后决定自己扩展一下。水平有限,仅...
现象 写入Hive表的性能,每秒写入记录数,发现性能并不乐观,上有节点背压严重。 Hive Table DDL: 而写入HDFS文件的性能,每秒写入记录数,性能符合期待。 H...
.csv Introduction 利用Excel创建一个csv文件image用记事本打开,实际上是这样子的:image 读取csv文件直接用open()打开with ope...
升级 Big Sur 后发现JD-GUI 打开报错: ERROR launching 'JD-GUI'No suitable Java version found on yo...
Flink EventTime和Watermarkhttps://www.jianshu.com/p/5e735b63fb5b 1、事件驱动的任务 Flink只要不用时间窗口...
Kafka的分区数是不是越多越好? 分区多的优点 kafka使用分区将topic的消息打散到多个分区分布保存在不同的broker上,实现了producer和consumer消...
Catalog 提供了元数据信息,例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。 数据处理最关键的方面之一是管理元数据。 元数据可以是临时的,例如临时...
1.起源: (1)业务需求: 代码的功能是写一个api接口,完成与mysql的crud操作。后台使用SpringBoot+JdbcTemplate实现,并在controlle...
看到一些同学的Spark代码中包含了很多repartition的操作,有一些不是很合理,非但没有增加处理的效率,反而降低了性能。这里做一个介绍。 repartition 从字...
背景 最近在学习github上的一个mlsql项目的时候,发现了antlr这一强大的语言解析工具。上网搜罗了很多资料,基本都是概念原理之类,示例也比较单一,看了之后难以上手。...
前言:最近两年很火爆的网络框架Retrofit,使用它的时候,查看文档会告诉你,要求后台的服务器哥们必须符合REST规范给你设计接口,作为安卓开发工程师来说,我就很奇怪了,R...
1. 集群配置 此前使用的是伪分布式的单机模式,本篇使用分布式的集群配置。配置方案如下: 修改对应的配置文件即可。同时更改hadoop的/etc目录下的slaves,添加三个...
网关相关配置 1.zuul相关的默认配置 springcloud(F版) 有些书上说,配置当中的ConnectTimeout和ReadTimeout是当HTTP客户使用Htt...
转自:https://blog.csdn.net/alan_liuyue/article/details/80656687 spring和springMvc: 1. spri...