6篇文章 · 13563字 · 7人关注
文本相似性的应用场景会有很多,在工业界我粗略遇到过: 热点做舆情识别监控的时候,需要对全网文章进行聚合,聚合过程中需要知道哪些文章是一致的 推荐...
前言 最近很长时间没有和大家分享东西了,最近一直在忙公司的项目,先说一声抱歉。 之前写过销售预估算法,但是被诸多大佬吐槽有监督学习部分毫无深度,...
17/12/30-update :很多朋友私密我想要代码,甚至利用金钱诱惑我,好吧,我沦陷了。因为原始代码涉及到公司的特征工程及一些利益tric...
检测异常值一定程度上也可以叫做离群点识别,常规有以下几种识别方法: 1.统计检验(假设检验) 举个例子:以下一组用户用车月花费:100,110,...
我推荐一种之前在惠普做过一种排序方法:威尔逊区间法 我们先做如下设定: (1)每个用户的打分都是独立事件。 (2)用户只有两个选择,要么投喜欢'...
个人不建议填充缺失值,建议设置哑变量或者剔除该变量,填充成本较高 常见填充缺失值的方法: 1.均值、众数填充,填充结果粗糙对模型训练甚至有负面影...
文集作者