松松土_0b13

IP属地：广东

机器学习的由来
光阴似箭，岁月如梭。机器学习时间也将近大半年了，一直在思考为什么要学习这玩意。高数和线代一直是多少人的噩梦，讳莫如深的算法，加上spark、sc...

0.1 657 1 1
从矩阵到奇异值分解
矩阵行列式的几何意义矩阵只是一个数表，行列式还要对这个数表按照规则进一步计算，最终得到一个实数、复数或者多项式概括说来有两个解释：一个解释...

0.1 635 0 1

从数据中提取有用特征
几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此，需要将原始数据转换为数值。数值特征：这些特征通常为实数或整数，比如年龄类别特征...

0.1 1217 0 1
ML Pipelines
pipelines中文意思是计算机流水线作业，通过pipelines的api可以很方便的实现数据工作流：数据源->特征转换->数据建模->数据预...

0.3 508 0 2
从贝叶斯定理到最大似然估计
昨天看到这样一道题，一机器在良好状态生产合格产品几率是 90%，在故障状态生产合格产品几率是 30%，机器良好的概率是 75%。若一日第一件产品...

0.1 482 0 1
图像数据源
spark2.4开始支持image图片数据源操作 df的schema信息如果是多层目录，而且需要获取目录名，可以将目录命为：cls=strin...

0.1 492 0 1
ml之相关关系
皮尔森相关性样本相关与它代表的总体相关会存在一些误差。即使总体之间不存在相关，任然可能会获得一个非零相关，对于小样本来说尤其如此当样本只有两...

516 0 0

spark sql快速入门
常用的sql查询引擎 hive，impala，hive on spark，presto（京东），drill（支持hdfs，hive），phoen...

490 0 0
Hadoop小文件问题
小文件过多，会消耗hdfs的namenode的内存内存消耗=文件数+目录数+block的数量

381 0 0