反压的危害
https://blog.csdn.net/Johnson8702/article/details/123841740
Flink 容错机制
https://blog.csdn.net/weixin_42073629/article/details/109192510
checkpoint持续增大
https://blog.csdn.net/qq_21383435/article/details/125453087
https://blog.csdn.net/u013411339/article/details/97854471
Flink checkpoint参数调优
https://blog.csdn.net/chanyue123/article/details/123084761
https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#state-backend-incremental
https://nightlies.apache.org/flink/flink-docs-master/docs/ops/state/checkpointing_under_backpressure/#unaligned-checkpoints
https://nightlies.apache.org/flink/flink-docs-master/docs/ops/production_ready/#choose-the-right-checkpoint-interval
checkpoint问题排查
https://blog.51cto.com/u_9928699/3755368
Flink taskmanager释放
https://zhuanlan.zhihu.com/p/339993175
再说slot
https://blog.csdn.net/u011624903/article/details/108796243
一个slot中,同一个类型的任务,只能运行1个,比如一个slot中可以运行1个source+1个transformation+1个sink,也可以只运行1个source,但是不可以运行2个source
parallelism不能大于总的slot个数,最好是能够匹配的,如果少于slot会造成slot浪费,多于slot的话,会报错。
slot与cpu关系
flink的taskmanager提供处理槽slot,通常slot的数量是和每个taskmanager的可用cpu内核数成比例,一般情况你的slot数是你每个taskmanager的cpu核数,但是考虑到超线程,可以让slot的数量是CPUCore的倍数,如:slot numbers = cpuCore*n,假如有10个slot,那么cpu core可以是5 或者10。
slot与内存关系
我们一般在配置文件中或者在提交flink作业的时候,会指定taskmanager的内存大小,如我们指定taskmanager的内存大小为12g,每个taskmanager的slot数量指定为6,那么每个slot的内存大小是12/6=2。
双流join
https://blog.csdn.net/qq_44696532/article/details/124456980
spark streaming 重试次数
https://dandelioncloud.cn/article/details/1441401550966214658/
SparkStreaming 设置隔离级别
https://blog.csdn.net/wangpei1949/article/details/104466219
yarn调度配置
https://www.cnblogs.com/piperck/p/10234102.html
yarn虚拟内存
https://blog.csdn.net/m0_52735414/article/details/127178545
Flink 中 slot ,task,并行度的概念以及与CPU,内存的关系
https://www.ngui.cc/51cto/show-668443.html?action=onClick
Flink 内存管理
https://www.sohu.com/a/404679408_120342237
https://blog.csdn.net/u010376788/article/details/105347848
https://blog.csdn.net/young_0609/article/details/123542878
http://www.zlprogram.com/Show/39/39450.shtml
反压的影响
反压并不会直接影响作业的可用性,它表明作业处于亚健康的状态,有潜在的性能瓶颈并可能导致更大的数据处理延迟。通 常来说,对于一些对延迟要求不太高或者数据量比较小的应用来说,反压的影响可能并不明显,然而对于规模比较大的 Flink 作业来说反压可能会导致严重的问题。
反压如果不能正确处理,可能会影响到checkpoint时长和state大小,甚至可能会导致资源耗尽甚至系统崩溃。
影响checkpoint时长:barries不会越过普通数据,数据处理会被阻塞也可能会导致checkpoint barries流经整个数据管道 的时长变长,导致checkpoint的总时长(End to Duration)变长。
影响state大小:barries对齐时,接受到较快的输入管道的barries后,他后面数据会被缓存起来单不处理,直到较慢的输 入管道的barries也到达,这些被缓存的数据会被放到state里面,导致checkpoint变大。
这两个影响对于生产环境的作业十分危险的,因为checkpoint时保证数据一致性的关键,checkpoint时间变长有可能会导致 checkpoint超时失败。而state大小同样可能拖慢checkpoint甚至OOM(使用Heap-based StateBackend)或者物理机内存 使用超过容器资源(使用RocksDBStateBackend)的稳定性。