松松土_0b13

发简信

松松土_0b13

5
关注
27
粉丝
37
文章
8245

字数
70

收获喜欢
23

总资产

IP属地：广东

松松土_0b13

机器学习的由来
光阴似箭，岁月如梭。机器学习时间也将近大半年了，一直在思考为什么要学习这玩意。高数和线代一直是多少人的噩梦，讳莫如深的算法，加上spark、scala等各种复杂框架折磨你，仔...

654 1 1
松松土_0b13

@Life_0ecc 大数据平台数据清洗以后来的呀

大数据之点聚合算法
聚合点算法实现在地图上查询结果通常以标记点的形式展现，但是如果标记点较多，不仅会大大增加客户端的渲染时间，让客户端变得很卡，而且会让人产生密集恐惧症（图1）。为了解决这一问...

松松土_0b13
7802 5 3

松松土_0b13

sourceData就是list的点集合

大数据之点聚合算法
聚合点算法实现在地图上查询结果通常以标记点的形式展现，但是如果标记点较多，不仅会大大增加客户端的渲染时间，让客户端变得很卡，而且会让人产生密集恐惧症（图1）。为了解决这一问...

松松土_0b13
7802 5 3
松松土_0b13

从矩阵到奇异值分解
矩阵行列式的几何意义矩阵只是一个数表，行列式还要对这个数表按照规则进一步计算，最终得到一个实数、复数或者多项式概括说来有两个解释：一个解释是行列式就是行列式中的行或列向...

632 0 1
松松土_0b13

从数据中提取有用特征
几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此，需要将原始数据转换为数值。数值特征：这些特征通常为实数或整数，比如年龄类别特征：它们的取值只能是可能状态集合...

1214 0 1
松松土_0b13

ML Pipelines
pipelines中文意思是计算机流水线作业，通过pipelines的api可以很方便的实现数据工作流：数据源->特征转换->数据建模->数据预言 pipeline常用组件 ...

508 0 2
松松土_0b13

从贝叶斯定理到最大似然估计
昨天看到这样一道题，一机器在良好状态生产合格产品几率是 90%，在故障状态生产合格产品几率是 30%，机器良好的概率是 75%。若一日第一件产品是合格品，那么此日机器良好的概...

481 0 1

松松土_0b13

图像数据源
spark2.4开始支持image图片数据源操作 df的schema信息如果是多层目录，而且需要获取目录名，可以将目录命为：cls=string，在image的同级目录中会...

492 0 1
松松土_0b13

ml之相关关系
皮尔森相关性样本相关与它代表的总体相关会存在一些误差。即使总体之间不存在相关，任然可能会获得一个非零相关，对于小样本来说尤其如此当样本只有两个数据时，两点之间会形成一条完...

516 0 0
松松土_0b13

阡陌哥哥
写了 73941 字，被 281 人关注，获得了 477 个喜欢

豫北小城·濮阳凉皮儿
松松土_0b13

Spark中进行聚合时的特殊场景
在对数据进行统计分析时，如果对指标进行聚合运算，而待查询的字段中还包含了维度，则原则上我们还需要按照维度字段进行分组。倘若这个聚合运算为sum函数，分组之后就相当于分类汇总了...

_张逸_
16716 0 4
松松土_0b13

王树义
写了 532926 字，被 81272 人关注，获得了 12976 个喜欢

终身学习者、大学教师。稍微懂一点儿写作、演讲、Python和机器学习。欢迎微信关注并置顶我的公众号“玉树芝兰”(nkwangshuyi)。我已委托“维权骑士”（rightknights.com）为我的文章进行维权行动。

松松土_0b13

spark sql快速入门
常用的sql查询引擎 hive，impala，hive on spark，presto（京东），drill（支持hdfs，hive），phoenix（hbase）存储格式 ...

489 0 0
松松土_0b13

那个晓文
写了 31132 字，被 60 人关注，获得了 39 个喜欢

网络安全爱好者，爱生活，爱编程，爱交友，爱运动
松松土_0b13 ·

我猜口活更好

iloverain 评论自汤唯的口语，到底有多好？
松松土_0b13

Hadoop小文件问题
小文件过多，会消耗hdfs的namenode的内存内存消耗=文件数+目录数+block的数量

381 0 0
松松土_0b13

Hadoop分布式集群搭建
规划配机器名称配机器名称和ip地址的映射 ssh免秘钥主节点要能ssh免秘钥到其它机器，需要将主机的id_rsa.pub 拷贝到其它节点 jdk安装配置主从关系，并分发文件

224 0 0

松松土_0b13

数据仓库Hive
背景 mapreduce编程的不便性传统rdbms人员的需要体系架构 client：shell thrift：jdbc（server/jdbc） webui（hue）

60 0 0
松松土_0b13

资源调度YARN
1.x master/slave: jobTracker/taskTracker JobTrack: 单点、压力大仅仅只能够支持mapreduce作业，资源利用率低、运维成...

149 0 0