新词发现是一个老生常谈的任务了,对怎么算“词”,有一个很好的比喻:怎样判断两个人是情侣?首先,我们得经常看到他们在一起,而不是今天看到A和B在一起,明天看到A和C,B和D,那...
新词发现是一个老生常谈的任务了,对怎么算“词”,有一个很好的比喻:怎样判断两个人是情侣?首先,我们得经常看到他们在一起,而不是今天看到A和B在一起,明天看到A和C,B和D,那...
纠错广泛应用于诸如搜索的query分析等领域。 纠错思路如图。这里主要解读一下pycorrector源码。 先对文本预处理,切分句子,对句子detect_sentence找m...
1. Two Sum[https://leetcode-cn.com/problems/two-sum/] 字典(哈希表)解决法,开始犯了2个问题,一个是直接把所有值先存入字...
最近做项目,接触到知识图谱,开始觉得很高大上,其实更多是一个概念和很多细枝末节的实践。引用书上的一种定义: 知识图谱包含了一堆互相关联的实体和属性。 说新不新,本质上就是一种...
时间过太久有点忘了,你试试take()和collect()
利用pyspark实现基于用户的协同过滤的推荐假如有一些用户对物品的评分数据,怎么预测用户的喜好并给他推送感兴趣的物品呢?我们常常能想到的一种成熟方法就是协同过滤,这里只谈谈基于用户相似度的协同过滤。原理很好理解,物以类...
同问,有数据sample吗
xgboost实现learning to rank算法以及调参前言 最近在做搜索排序的一个项目,要使用到排序算法,因此对learning to rank做了一番调研。Learning to rank分为三大类:pointwise,pai...
讲的很清楚
HMM(隐马尔科夫)用于中文分词隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程。本文阅读了2篇blog,理解其中的意思,附上自己的代码,共同学习...
好久没来更新,好惭愧,现在也没了当初做这个的心情,就大概记录一下吧。首先BERT模型是一个像word2vec这种的预训练模型,word2vec结构比较简单就是一个最简单的神经...
最近对“有多少人工就有多少智能”有了一些理解。虽然以前很鄙视这个话,觉得是说很多工程用人工的方法来包装成智能。现在对这句话有了更深的理解。最近做情感分析,用的标注的一万多条语...
看过很多很多电影,个人风格偏向悬疑惊悚,故事性强的。将我看过且推荐的电影来分享一下,想到一个加一个,非常相似的会放一起,持续更新,排名不分先后。 1.致命魔术2.穆赫兰道3....
假如有一些用户对物品的评分数据,怎么预测用户的喜好并给他推送感兴趣的物品呢?我们常常能想到的一种成熟方法就是协同过滤,这里只谈谈基于用户相似度的协同过滤。原理很好理解,物以类...
用词向量加深度学习的方法做情感分析的基本思路是:1.训练词向量 2.句子预处理、分词,句子变成一个个词的序列,指定序列最大长度,多砍少补,词分配索引、对应上词向量。3. 定义...