ID3:最大信息增益,只能处理离散特征,只能做分类,多叉树,不能处理缺失值。C4.5:最大信息增益率,可以对连续型变量划分分割点变为连续型变量进而进行处理,只能做分类,多叉树...
IP属地:甘肃
ID3:最大信息增益,只能处理离散特征,只能做分类,多叉树,不能处理缺失值。C4.5:最大信息增益率,可以对连续型变量划分分割点变为连续型变量进而进行处理,只能做分类,多叉树...
背景: 数据量15w, 正负样本不均衡 负样本是正样本的4倍。 划分train :test_total为 1:1 ,各7.5w。 每次采样过后正负样本比例基本保持不变。1:4...
一种设定全局参数的方法import argparse 之后def个 get param的函数 或者不定义函数也行def get_param():parser = argpar...
shell 运算数学运算符关系运算符布尔运算符逻辑运算符字符串运算符文件测试运算符见 https://www.runoob.com/linux/linux-shell-bas...
主要是对实习期间涉及到的知识进行梳理。 背景:视频推荐(手机端,TV端等)。场景:feed 流,瀑布流(猜你喜欢),短视频 Tab 等。 召回涉及到的方法(以短视频 Tab ...
未完待续......
1 读取大型数据的N种方法 [https://www.kaggle.com/rohanrao/tutorial-on-reading-large-datasets] 2 py...
推荐系统的 fairness bias debias 1 population imbalance用户不应因为自身的性别 年龄 种族而接受到不同的推荐结果 仅仅是出于政治...
索引推荐系统为什么需要索引这一概念? 索引即指 物料的ID我们可以根据这一ID去取到物料的各种属性字段。(正排索引)以特征为出发点去找具备这些特征的物料。(倒排索引)基本上都...