还记得好几年前,大概13或者14年,当时不过是一个普通的工薪族,虽然玩玩程序代码,但是高不成低不就,没有办法,作为程序媛,多少不会具备程序猿的那种对代码符号的冲动。每日也就是...
IP属地:浙江
还记得好几年前,大概13或者14年,当时不过是一个普通的工薪族,虽然玩玩程序代码,但是高不成低不就,没有办法,作为程序媛,多少不会具备程序猿的那种对代码符号的冲动。每日也就是...
一.概述 Spark数据本地化即计算向数据移动,但数据块所在的Executor不一定有足够的的计算资源提供,为了让task能尽可能的以最优本地化级别(Locality Lev...
前言 Apache Kylin采用“预计算”的模式,用户只需要提前定义好查询维度,Kylin将帮助我们进行计算,并将结果存储到HBase中,为海量数据的查询和分析提供亚秒级返...
一.NettyRpcEnv主要组件 子组件TransportConf,Dispatcher,TransportClientFactory,TransportServer Tr...
一.分区器的区别 HashPartitioner分区可能HashPartitioner导致每个分区中数据量的不均匀。 RangePartitioner分区尽量保证每个分区中数...
一.什么是shuffle MapOutputTrancker用于跟踪map任务的输出状态,此状态便于reduce任务定位到map输出结果所在的节点地址,进而获取中间输出结果,...
一.概念 决策树和随机森林:决策树和随机森林都是非线性有监督的分类模型。 决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表...
前言 在Flink中比如某些算子(join,coGroup,keyBy,groupBy)要求在数据元上定义key。另外有些算子操作,例如reduce,groupReduce,...