“ 一切都会过去!除了羊的第二关....” 今天,你“羊”了吗?这应该是最近出现频次最多的用语了吧!“羊了个羊”是最近非常火爆的一款微信小游戏。它火到什么程度?火到上线2天服...
“ 一切都会过去!除了羊的第二关....” 今天,你“羊”了吗?这应该是最近出现频次最多的用语了吧!“羊了个羊”是最近非常火爆的一款微信小游戏。它火到什么程度?火到上线2天服...
前言 我们知道,Flink 程序的执行是在我们调用 env.execute() 后才会真正开始。事实上,我们在编写业务代码时,是在勾勒程序执行的 DAG 图,当调用 exec...
回顾 Flink 因其高吞吐、低延时、有状态、高容错的特性越来越受到数据从业者的青睐,它弥补了Storm、Spark 的很多不足。作为一个实时计算的框架,Flink 在实时数...
回顾 在之前的学习中我们了解到,flink 作为低延时的流式数据处理框架,本身是有状态的。状态 state 是为了保存一些操作符 operator 的中间结果,同时,通过状态...
数据仓库介绍 数据仓库是集成的、面向主题的、反应历史的数据的集合。它需要具有高效查询、高质量的、可扩展的的特性。数据仓库是协助运营及管理人员及时做出策略调整的最有效的依据。 ...
flink 回顾 通过之前的了解,我们知道,flink是一个高吞吐、低延时的流式处理框架。flink 中具有严格的时间定义,采用不同的时间机制,对于其处理延时及处理结果的准确...
flink 抽象分层结构 flink 作为流式处理框架,不仅具有高效的流数据和批数据处理性能,具有针对开发人员使用的高效的底层API,同时有方便分析人员使用的 table/s...
Apache flink 简介 Apache flink 是分布式流式数据处理框架,主要用于有界(bounded)和无界(unbounded)数据流的有状态处理,具有高性能、...
flink Sink简介 flink 中有两个重要的概念,Source 和 Sink ,Source 决定了我们的数据从哪里产生,而 Sink 决定了数据将要去到什么地方。 ...
flink 简介 flink 是最近几年发展最为迅速的实时计算框架,它解决了 storm 低吞吐量的问题,同时也解决了 spark 的高延时问题。flink 是一款高吞吐量、...
问题描述 错误原因:这里错误发生的地方使用了一个 tuple 元组,且没有指定泛型。 错误代码 解决方案 在 tuple 元组使用时指定泛型。 正确代码
数据倾斜的主要表现形式 reducer 阶段一直卡在99.9%,但是一直不能结束。 大量数据进入某个或者某几个reducer中处理,远远超过正常的reducer。 某几个co...
order by 语法操作 order by 是进行全局排序,在整个作业执行过程中,只产生一个 reducer,在数据量过大的时候,执行的时间会很长 。事实上,这与分布式的思...
窗口函数通常是分析人员使用 hive ql 进行一些复杂逻辑计算时使用的特殊函数,其中 over() 通常与聚合函数共同使用,比如 count()、sum()、min()、m...
问题描述 近期在redis的使用中出现下面的问题: 这个问题描述的很清楚,redis的配置是保存数据库快照,但是在执行时不能将数据持久化到磁盘。 解决方法 简单的解决方案: ...
桶是 hive 表在表(分区)结构的基础上额外的一种数据文件,它的出现有两方面的意义: 一、提高表数据的查询效率。二、随机取样。 分桶规则:hive 表是对指定的某列属性进行...
hive 是一款基于 hadoop 的、提供结构化数据组织及查询的数据仓库工具,它提供了 Hive ql方言,使用简单的 sql 就能解决大多数的数据查询工作,使得复杂的 m...