介绍 Hive的分析函数又叫窗口函数, 在oracle中就有这样的分析函数,主要用来做数据统计分析的。Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据【L...
介绍 Hive的分析函数又叫窗口函数, 在oracle中就有这样的分析函数,主要用来做数据统计分析的。Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据【L...
源头 flink的checkpoint和savepoint用于恢复作业状态,在恢复作业时,如果存在多个checkpoint,将获取最新的checkpoint来进行恢复,没有c...
介绍 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP:这几个函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计。 GRO...
发生原因 更新了IDEA到2020.2后,发现git pull或者push都会报这个错误。 过程 因在2020.1中并没有发生这种错误,在git bash中也不会有,只存在于...
介绍 当我们从其他的开源项目中fork了项目到我们自己的仓库后,如果源仓库有更新,我们怎么将更新同步我们自己仓库中已fork项目呢。下面就以incubator-dolphin...
阅读源码的第一步是下载Spark源码,并导入到工具中阅读。 下载 进入http://spark.apache.org/downloads.html页面,点击download箭...
问题 在Spark的standalone 模式中Master是如何启动? 在Master启动后又做了哪些操作? Master启动流程 从Spark2.0开始就以及删除了akk...
Key:消息键,对消息做partition时使用,即决定消息被保存到某个topic下的哪个partition。 Value:消息体,保存实际的消息数据。 Timestamp:...
在kafka中,新版本api主要是针对java版本的producer和consumer。 Producer新版本的Producer,相对于旧版本而言,在设计理念上具有以下优势...
kafka的集群规划主要需要考虑以下几个方面: 操作系统:最好选择Lunix系统,因Linux提供的epoll模型使用的是I/O多路复用+信号驱动I/O的结合;且Linux可...
下面将以Kafka集群设计的各方面参数进行说明:broker端口参数topic级别参数GC配置参数JVM参数OS参数 broker端参数Kafka目前尚不支持动态参数修改,也...
除了bootstrap.servers、key.serializer和value.serializer三个必须参数之外,Java版本的Producer还提供了很多其他重要的参...
consumer除里指定的4个必要参数(bootstrap.servers、group.id、key.deserializer、value.deserializer)外,Ja...
介绍 在hive中,可以对其进行添加自定义的函数来满足自己的特定场景的功能,hive中可以提供三种自定义函数: 普通函数:一进一出 UDAF函数:多进一出 UDTF函数:一进...
文| 九妹来源 |国馆 (ID:guoguan5000) 01. 曾在网上,看到有网友吐槽过这样一个事: 她大学刚毕业工作时,参加了一个公司新人破冰活动。 在一个问答环节中,...
在zookeeper中主要有3中选举算法: LeaderElection(UDP版本) AuthFastLeaderElection(UDP版本,这个选举算法包含2种,1/不...
zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。其中各配置项的含义,解释如下: tickTime:...