207篇文章 · 113145字 · 11人关注
容错机制 如果实时计算作业遇到了某个错误挂掉了,那么我们可以配置容错机制让它自动重启,同时继续之前的进度运行下去。这是通过checkpoint和...
管理streaming query
output操作 定义好了各种计算操作之后,就需要启动这个应用。此时就需要使用DataStreamWriter,通过spark.writeStr...
基础操作:选择、映射、聚合 我们可以对流式dataset/dataframe执行所有类型的操作,包括untyped操作,SQL类操作,typed...
创建流式的dataset和dataframe 流式dataframe可以通过DataStreamReader接口来创建,DataStreamRe...
Structured Streaming基础编程模型 structured streaming的核心理念,就是将数据流抽象成一张表,而源源不断过...
Structured Streaming structured streaming是一种可伸缩的、容错的、基于Spark SQL引擎的流式计算引...
流式计算 大多数的流式计算引擎(比如storm、spark streaming等)都仅仅关注流数据的计算方面:比如使用一个map函数对一个流中每...
日期函数:current_date、current_timestamp数学函数:round随机函数:rand字符串函数:concat、conca...
文集作者