1 HDFS 组成架构 NameNode(NN)管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息处理客户端读写请求 DataNode(DN)存储实际的数据块...

1 HDFS 组成架构 NameNode(NN)管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息处理客户端读写请求 DataNode(DN)存储实际的数据块...
最近很多小伙伴跟我说,自己学了不少JVM的调优知识,但是在实际工作中却不知道何时对JVM进行调优。今天,我就为大家介绍几种JVM调优的场景。 在阅读本文时,假定大家已经了解了...
一、 Geospark安装: 我采用的是gradle安装,安装环境是Spark3.0.3+Scala.2.12.3 二、 Geospark 能够读取文件的结构有:CSV,TS...
将代码块当成参数传入 输出结果
说明: spark sql的字段血缘关系具体实现代码和使用方法见GitHub:RHobart/spark-lineage-parent: 跟踪Spark-sql中的字段血缘关...
DeltaLake支持大部分由Spark DataFrame提供的Opition选项 SparkSession的配置 创建表 DeltaLake支持通过路径或者元数据查询表,...
背## 背景 为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源),需要构建hive字段级别的数据血缘,hive本身提供提供了一个用于打印数据血缘的钩子类...
https://www.freesion.com/article/1176553841/ impala数据血缘与数据地图系列: 1. 解析impala与hive的血缘日志 2...
相关说明: Presto官网: Presto | Distributed SQL Query Engine for Big Data (prestodb.io)[https:...
一直以来都是使用spark structstreaming 读取kafka数据,最近一直在尝试用flink读取kafka数据。 开发环境配置: kafka + flink +...
世间的一切都可以用时间来解决 前言: 因项目需要,需要调研debezium,也就是捕获数据更改(CDC)。翻阅了网上的一些资料和官网信息,将之总结如下: 环境准备: ubun...
上面的命令执行顺序大致为: 文件描述: spark-submit.sh 提交任务,程序进入到SparkSubmit 文件代码中 执行main()函数:2.1 匹配到SPARK...
目的:数据行专列,列转行 数据准备: 列转行: 行专列: 完整代码:
不说了,上代码: json 依赖包(样例类解析方式不需要此依赖包)
waterdrop 可以设置多数据源,多输出源,按照固定模板写就行 【此代码为引用其他文章】 waterdrop 执行流程:
hive 创建表: hive 执行: =========================hive 调用Python脚本的时候,在root目录下,在using 'python ...
之前写过关于ST_PointFromText,但是有一个点忽略了,那就重新写一遍 完整代码: 数据结果:
pom.xml文件关键性配置如下: 另外,如果创建的项目没有resouces,需要在build里面构建 注意: resources 中需要将相关的hive 文件添加进去(默...
注册序列化,在网路传输和数据保存方面有作用