公司的kafka做了安全升级,加入了sasl认证。 使用confluent_kafka 进行认证连接kafka 首先安装confluent_kafka pip install...
impala中查询kudu表提示 :ERROR: AnalysisException: Could not resolve table reference 在impala中把...
1.业务场景 最新有一个新需求,需要对Nginx的log日志进行分析,日志每天以打包压缩上传HDFS上,采用可以用Hive直接解析,但是所有的日志信息都在一个字段下面,...
@宗恩 感谢回复讨论
了解MPP数据库/MPP与Hadoop区别什么是MPP? MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上...
数组:连续内存空间的集合 适合读多写少的场景 时间复杂度 1.访问O(1) 2.搜索O(N) 3.插入O(N) 4.删除O(N)
链表:非连续内存空间,链表中每个元素还有next指针指向下一个元素 单端链表:只有next指针指向下一个 双端链表:还有指针指向上一个 链表适合读少写多 时间复杂度 1.访问...
宏观调优思路 1.资源充足加内存 2.数据接入慢调优接入工具Sqoop/Datax 3.Hive参数调优 4.sql调优 5.调整模型,提高模型质量和复用度。减少join 6...
Spark数据倾斜表现 1.Executor lost,OOM,Shuffle过程出错 2.DriverOOM 3.任务卡在某个阶段 4.正常任务突然失败 Spark定位数据...
Hive自身走的是MR程序,Key值分布不均匀容易造成数据倾斜
Kafka高效读写数据 1)Kafka本身是分布式集群,同时采用分区技术,并发度高。 2)顺序写磁盘 Kafka的producer生产数据,要写入到log文件中,写的过程是一...
什么是空间复杂度 算法存储空间于输入值之间的关系 常见空间复杂度 O(1) :常量 O(N):数组、列表、递归等 O(N²):数组、列表 O(logN)/O(mlogn):不常用
1.业务数据Sqoop导入数据时倾斜 首先了解Sqoop两个参数-m和--split-by参数的使用: 1. 这俩参数一般是放在一起使用 2.-m:表明需要使用几个map任务...
什么是时间复杂度: 算法的执行效率 算法的执行时间和算法的输入值之间的关系 一般关注for循环和while循环。 采用O表示法,常量是O(1) 常见时间复杂度案例分析 O(1...
选择排序的思想是找位置,与选择排序不同,插入排序的思想是找一个有序的区间,保证这个区间内是有序的。通过一次次的遍历,逐渐扩大这个有序区间,直到区间大小等于数组大小,即数组全局...
Scala写法使用spark算子 object Top3GroupBykey {def main(args: Array[String]):Unit = {val conf:...
Flink流式计算WordCountTopN可以采用流处理编程和FlinkSql自定义UDTF函数的方式 流处理编程方法: public class Flink05_WC_T...
场景逻辑说明: 用户将购物车中多件商品一起下单时,订单总表会生成一个订单(但此时未付款,status-订单状态为0,表示待付款); 当用户支付完成时,在订单总表修改对应订单记...
Flink+Kafka 实现端到端严格一次 我们知道,端到端的状态一致性的实现,需要每一个组件都实现,对于Flink + Kafka的数据管道系统(Kafka进、Kafka出...