01 什么是用户行为 目的:分析用户购买行为用户行为由最简单的五个元素构成:时间、地点、人物、交互、交互的内容。 量化指标:将分析框架中的问题形成可量化的指标进行衡量和评价如...
01 什么是用户行为 目的:分析用户购买行为用户行为由最简单的五个元素构成:时间、地点、人物、交互、交互的内容。 量化指标:将分析框架中的问题形成可量化的指标进行衡量和评价如...
主成分分析(PCA)是现代数据分析的主要方法之一,它被广泛使用但其内在机制仍不为太多人理解。这篇文章的主旨就是厘清并解释其原理。这篇教程不仅能帮助建立起对 PCA 原理的直觉...
1. 范数公式 L0 范数:所有非零元素个数 L1 范数: L2 范数: Lp 范数: 2. 标准化(Standardization) 对于一个数据集,如果其某些特征不服从正...
Python中的sorted函数和operator.itemgetter可以说经常一起用,主要是处理一些复杂的排序问题的时候。 operator.itemgetter函数 o...
使用 numpy 库,只需 10 行简单的代码就能实现 k 近邻算法。 算法逻辑 对要分类的点(X)进行下列运算: 计算 X 与已知分类的所有点的距离(欧氏距离); 距离按照...
Intro 使用鸢尾花数据集: 其中features是特征矩阵,labels是真实分类。 1. 预处理(preprocessing) 1.1 预处理的目的 数据预处理的目的在...
Intro 线性回归(Linear Regression)是机器学习的基本方式,但为了提升其性能,人们发明了无数优化方式。这个“不只是线性回归”系列就是为了记录我在日常的学习...
Intro 线性回归(Linear Regression)是机器学习的基本方式,但为了提升其性能,人们发明了无数优化方式。这个“不只是线性回归”系列就是为了记录我在日常的学习...
Intro 众所周知,机器学习的过程一般分两个要点,第一是“模型”,第二是“优化”。“模型”这一点很好理解,就是要找到适合用于解决手头上预测问题的模型。机器学习训练过程的核心...
Intro 最近很集中地系统梳理了互金理财行业在用户增长(Growth)方面的 methodology 与 practice,尝试以文章的形式予以框架性地总结,也算是给自己这...
Intro 最近因为打算参加一些CTR预估的竞赛,对一些常见的CTR竞赛所用模型做了些学习,本文主要记录一下对GBDT的学习收获。 学过机器学习的人肯定对决策树(Decisi...