ORC文件--包含snappy、zlib两种压缩格式,不需要配置compress参数 CREATE EXTERNAL TABLE tbl_orc_snappy_comma(s...
ORC文件--包含snappy、zlib两种压缩格式,不需要配置compress参数 CREATE EXTERNAL TABLE tbl_orc_snappy_comma(s...
hadoop core-site.xml 中通常有核心的配置项,比如: 如图,当resources目录下添加了Hadoop core-site.xml 且包含配置项“fs.d...
通用转换 针对通用的转换,如加密等很多表同步都使用到的,可以加入插件。可以参考com.alibaba.datax.core.transport.transformer下面的插...
一、Kafka 是什么? Apache Kafka 本质上是一种消息中间件,用来可靠传递消息事件,用来管理消息队列(Message Queue),具有如下特点: 分布式的,支...
一、Redis 管道技术 1.1 背景 想象一下,现在需要向 Redis 中添加大量的 KV 对,可以通过直接调用大量的 set 命令来完成,比如: 然而这种方法存在一个问题...
有时在 hive 中创建表之后,在查看表结构(describe TABLE_NAME)或者建表语句(show create table TABLE_NAME)时会遇到注释中的...
在对RDDPair(一种特殊的 RDD,即RDD[(key, Row)])进行操作时经常会用到 reduceByKey() 和 groupByKey() 两个算子。下面看看两...
https://www.cnblogs.com/laowangc/p/8949850.html 一、HDFS读取文件流程: 详解读取流程: Client调用FileSyste...
今年 Flink 火的一塌糊涂,一些大厂比如阿里巴巴也都开始使用 Flink 构建实时数据仓库。 一、什么是 Flink ? 1.1 批处理和流处理 数据集分为有界数据集和无...
Flink V1.9 官方中文文档地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/zh/。 一、...