1、 数据仓库可以分为几层? 数据运营层(Operation Data Store ,ODS):将业务数据库、埋点日志、其他数据源原样存储,不做任何处理; 数据仓库层(Dat...
1、 数据仓库可以分为几层? 数据运营层(Operation Data Store ,ODS):将业务数据库、埋点日志、其他数据源原样存储,不做任何处理; 数据仓库层(Dat...
前两天面试被问到“哪种机器学习算法没有参数?”回答的不是很好,因此在这里重新梳理一下。 1、参数模型 如果我们对所要学习的问题有足够的认识,具备一定的先验知识,此时我们一般会...
接上篇,上篇介绍了我面试遇到的MySQL行转列的笔试题,本篇将拓展一下行列互转的其他知识。 建表语句: 行转列实现: 注意:union 与union all 的区别 对重复结...
复盘一下前两天MySQL的一道笔试题。 建表语句为: 这是典型的行转列操作。方法有以下两种: 注意:max() 是为了能够使用 group by 根据 id 进行分组,因为每...
数据的缺失主要包含记录的缺失和记录中某个字段的缺失,两者都会造成分析结果的不准确。以下将从缺失值产生的原因、缺失值产生的影响、缺失值的类型以及缺失值处理三个方面展开分析。 1...
什么是异常值异常值常出现的原因常见的异常值检测方法简单统计量分析3δ原则箱型图分析DBSCAN聚类Robust Random Cut Forest异常值的处理 1. 什么是异...
正态分布概念: 参见上篇简文中心极限定理与正态分布 好,进入本文重点,为什么很多模型都假设变量服从正态分布呢,尤其是回归模型 1.正态分布的奇妙之处就在于它是自然分布,任何看...
本文第一节源于周志华教授《关于深度学习的一点思考》提出深度森林的探索, 在此基础上对深度森林做了原理解析并实践。周志华教授,毕业于南京大学,欧洲科学院外籍院士,国家杰出青年基...
中心极限定理: 1.大量相互独立的随机变量,在采样次数足够大的时候(一般要超过30次以上),其均值或者和的分布以正态分布为极限,中心极限定理的有趣的地方在于,无论随机变量呈现...