光阴似箭,岁月如梭。机器学习时间也将近大半年了,一直在思考为什么要学习这玩意。高数和线代一直是多少人的噩梦,讳莫如深的算法,加上spark、sc...
矩阵行列式的几何意义 矩阵只是一个数表,行列式还要对这个数表按照规则进一步计算,最终得到一个实数、复数或者多项式 概括说来有两个解释: 一个解释...
几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。 数值特征:这些特征通常为实数或整数,比如年龄 类别特征...
pipelines中文意思是计算机流水线作业,通过pipelines的api可以很方便的实现数据工作流:数据源->特征转换->数据建模->数据预...
昨天看到这样一道题,一机器在良好状态生产合格产品几率是 90%,在故障状态生产合格产品几率是 30%,机器良好的概率是 75%。若一日第一件产品...
spark2.4开始支持image图片数据源操作 df的schema信息 如果是多层目录,而且需要获取目录名,可以将目录命为:cls=strin...
皮尔森相关性 样本相关与它代表的总体相关会存在一些误差。即使总体之间不存在相关,任然可能会获得一个非零相关,对于小样本来说尤其如此 当样本只有两...
常用的sql查询引擎 hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoen...
小文件过多,会消耗hdfs的namenode的内存内存消耗=文件数+目录数+block的数量