生成一个parquet文件 下载 编译 运行 准备csv文件 生成parquet文件 可见目录下多了一个sample.parquet文件。这里没有指定avsc格式的schem...
生成一个parquet文件 下载 编译 运行 准备csv文件 生成parquet文件 可见目录下多了一个sample.parquet文件。这里没有指定avsc格式的schem...
主要的建模思想大致有三类,三范式,纬度建模,还有datavalt。 三范式 熟悉关系型数据库的都知道,三范式建模主要可以避免数据冗余。如果数据仓库中采用这种建模方式,还有另外...
摘要 上一篇以知乎网为例简单分享网络请求分析。这一篇主要分享一种应对反爬虫的方法,前端数据混淆。 目的 之前写https://github.com/wycm/zhihu-cr...
简单工厂模式 概念: 工厂类对你传入的参数判断(可以写在配置文件中),动态决定new 一个什么对象给你。(类似switch)。 缺点: 如果要新增一个对象,需要在工厂类里面修...
checkpoint是啥 简单点说,就是将正在运行的任务的状态保存下来。这个状态包括任务中每个算子的state,缓存的数据(比如processFunction)等。可以保存在...
什么是状态 首先要知道,状态指的是算子的状态。为什么算子需要状态,状态的用处无非两点: 实现算子的逻辑(作为一种中间状态) 错误恢复 实现算子的逻辑 用官网的例子,假设一段数...
本篇是对一篇Flink文章的翻译:https://training.ververica.com/lessons/stateful.html实现一个场景:我们需要输出每个传感器...
本篇讲讲Flink,主要有 基于事件时间的消息处理机制 flink的容错机制 都说flink很火,那么它到底有什么过人之处呢。看了《Flink基础教程》,总结一下。 flin...
kylin介绍 Apache Kylin is an open source Distributed Analytics Engine designed to provide...
jdk动态代理 一般的代码套路定义接口 定义接口实现类 自定义handler,完成自定义代理的业务逻辑 核心代码一共做了以下几件事 在ProxyHandler中的invoke...
本文是基于jdk1.8来对动态代理的底层机制进行探究的 Java中代理的实现一般分为三种:JDK静态代理、JDK动态代理以及CGLIB动态代理。在Spring的AOP实现中,...
本文主要介绍mac下iTerm2的基本配置,包括两方面内容:主题和快捷键。写这篇的目的是为自己电脑的配置做个记录,以备不时之需。 主题 在配置完主题后,当你打开iTerm2时...
前言 由于项目需要用到 Groovy 语言,这两天对其进行了粗略的学习,本文是对学习做的一个简单总结,主要内容参考于官方文档(Groovy 的官方文档还是非常不错的,强烈推荐...
基础语法 运行 Python 交互式解释器 在命令行窗口执行python后,进入 Python 的交互式解释器。 exit()或Ctrl + D组合键退出交互式解释器。 命令...
第1章 准备工作第2章 Python语法基础,IPython和Jupyter Notebooks第3章 Python的数据结构、函数和文件第4章 NumPy基础:数组和矢量计...