1,TF−IDF算法 TF是指归一化后的词频,IDF是指逆文档频率。给定一个文档集合D,有d1,d2,d3,......,dn∈D。文档集合总共...
搜索意图识别: Query分析: 分词:切词,pinyin分词 查询类目预测: Query改写: Query改写本质上是要找到和原始Query相...
在搜索过程中,需要使用同义词来达到提高召回的目的,例如用户搜索:口红,但是商品名称却不含口红关键词,比如商品名为:xxx彩色唇膏。但其实两个词是...
从最开始的逻辑回归到后来的CNN,RNN,我们经常会听到激活函数这个词,也经常会听到sigmod函数会造成神经网络梯度消失,BN为什么能缓解梯度...
在模型的评估与调整的过程中,经常会遇到过拟合与欠拟合的情况,如何有效的识别过拟合和欠拟合现象,并了解其中原因,有效的对模型进行调整。 什么是过拟...
最近朋友面试有被问到文本聚类问题,总结如下: 聚类分析,又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,以相似性为基础,在一个聚类...
1.RNN解决了什么问题? RNN主要用来解决序列问题,强调的是先后顺序,在NLP中引申出上下文的概念,一个翻译问题,这个词的含义可能和前后的单...
Xgboost无论是工业界还是kaggle比赛效果都很好,学习过程中看了很多博客依然理解的不是很好,自己比较菜,看了陈天奇大神PPT清晰了很多,...
最近被问到热词挖掘,几种挖掘场景用到的算法思路都比较接近,特整理思路如下,做以后参考。 几个热词挖掘常见场景: 搜索query热词挖掘 舆情长文...