光阴似箭,岁月如梭。机器学习时间也将近大半年了,一直在思考为什么要学习这玩意。高数和线代一直是多少人的噩梦,讳莫如深的算法,加上spark、scala等各种复杂框架折磨你,仔...
光阴似箭,岁月如梭。机器学习时间也将近大半年了,一直在思考为什么要学习这玩意。高数和线代一直是多少人的噩梦,讳莫如深的算法,加上spark、scala等各种复杂框架折磨你,仔...
@Life_0ecc 大数据平台数据清洗以后来的呀
大数据之点聚合算法聚合点算法实现 在地图上查询结果通常以标记点的形式展现,但是如果标记点较多,不仅会大大增加客户端的渲染时间,让客户端变得很卡,而且会让人产生密集恐惧症(图1)。为了解决这一问...
sourceData就是list的点集合
大数据之点聚合算法聚合点算法实现 在地图上查询结果通常以标记点的形式展现,但是如果标记点较多,不仅会大大增加客户端的渲染时间,让客户端变得很卡,而且会让人产生密集恐惧症(图1)。为了解决这一问...
矩阵行列式的几何意义 矩阵只是一个数表,行列式还要对这个数表按照规则进一步计算,最终得到一个实数、复数或者多项式 概括说来有两个解释: 一个解释是行列式就是行列式中的行或列向...
几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。 数值特征:这些特征通常为实数或整数,比如年龄 类别特征:它们的取值只能是可能状态集合...
pipelines中文意思是计算机流水线作业,通过pipelines的api可以很方便的实现数据工作流:数据源->特征转换->数据建模->数据预言 pipeline常用组件 ...
昨天看到这样一道题,一机器在良好状态生产合格产品几率是 90%,在故障状态生产合格产品几率是 30%,机器良好的概率是 75%。若一日第一件产品是合格品,那么此日机器良好的概...
spark2.4开始支持image图片数据源操作 df的schema信息 如果是多层目录,而且需要获取目录名,可以将目录命为:cls=string,在image的同级目录中会...
皮尔森相关性 样本相关与它代表的总体相关会存在一些误差。即使总体之间不存在相关,任然可能会获得一个非零相关,对于小样本来说尤其如此 当样本只有两个数据时,两点之间会形成一条完...
在对数据进行统计分析时,如果对指标进行聚合运算,而待查询的字段中还包含了维度,则原则上我们还需要按照维度字段进行分组。倘若这个聚合运算为sum函数,分组之后就相当于分类汇总了...
常用的sql查询引擎 hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoenix(hbase) 存储格式 ...
我猜口活更好
小文件过多,会消耗hdfs的namenode的内存内存消耗=文件数+目录数+block的数量
规划 配机器名称 配机器名称和ip地址的映射 ssh免秘钥 主节点要能ssh免秘钥到其它机器,需要将主机的id_rsa.pub 拷贝到其它节点 jdk安装 配置主从关系,并分发文件
背景 mapreduce编程的不便性 传统rdbms人员的需要 体系架构 client:shell thrift:jdbc(server/jdbc) webui(hue)
1.x master/slave: jobTracker/taskTracker JobTrack: 单点、压力大 仅仅只能够支持mapreduce作业,资源利用率低、运维成...