文本相似性的应用场景会有很多,在工业界我粗略遇到过: 热点做舆情识别监控的时候,需要对全网文章进行聚合,聚合过程中需要知道哪些文章是一致的 推荐做相似内容召回的时候,需要对文...
![240](https://cdn2.jianshu.io/assets/default_avatar/11-4d7c6ca89f439111aff57b23be1c73ba.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
文本相似性的应用场景会有很多,在工业界我粗略遇到过: 热点做舆情识别监控的时候,需要对全网文章进行聚合,聚合过程中需要知道哪些文章是一致的 推荐做相似内容召回的时候,需要对文...
前言 在自然语言处理领域,我们有一种类型的问题是如何在一堆文本中提取出核心词/句子。而无论是对于长文本还是短文本,往往几个关键词就可以代表整个文本的主题思想。同时,在很多推荐...
更多来自于GitHub:Reflection_Summary. Bert的双向体现在什么地方? mask+attention,mask的word结合全部其他encoder w...
本文主要是为了讲解xDeepFM的框架,及如何用tensorflow去实现主干部分,如果需要直接拆箱可用,可以参考:xDeepFM,我的部分代码也来自于其中,这边主要是和大家...
前言 最近在看AutoML,业界在 automl 上的进展还是很不错的,个人比较看好这个方向,所以做了一些了解: Google: Cloud AutoML, Google’s...
本系列为深入篇,尽可能完善专题知识,并不会所有的都会出现在面试中,更多内容,详见:Reflection_Summary,欢迎交流。 另外,欢迎大家关注我的个人bolg,知乎,...
本系列为深入篇,尽可能完善专题知识,并不会所有的都会出现在面试中,更多内容,详见:Reflection_Summary,欢迎交流。 另外,欢迎大家关注我的个人bolg,知乎,...
我们搞了个python的工具包PyTls。 做这件事的初衷是发生了一个星期要用python同时开发3个项目的情况,我发现了两个现象:1.有很多定制化的需求是极度高频反复重写的...
上个月由于业务需要定制化了一个中文语境下的手机号码识别库YMMNlpUtils DEMO解析 Github地址 现在由于业务需求,又新增了一个语音对话过程中是否存在手机号交换...
本期围绕jieba讲一个我遇到的实际问题,在同一个服务里,存在两个不同接口A和B,都用到了jieba分词,区别在于两者需要调用不同的词库,巧合中,存在以下情况: 在服务启动的...
我一直觉得算法工程师,两把刷子,过硬的算法基础知识,可靠的代码工程能力即可; 最近和一些老朋友交流了一下,发现理想很丰满,现实很残酷,在自己觉得自己会了点机器学习知识的时候,...
1.使用sklearn之LabelEncoder将Label标准化2.特征二值化编码函数的一些坑
定义变量: Python定义变量的时候不需要给出类型,直接定义即可,Python会自动判断变量类型。String类型: Python中if语句bool表达式的运算符 Pyht...
最近在python开发的过程中,发现了一些比较有意思的问题,确实让自己在开发过程中被恶心了一把,所以开了这个连续的更新博文,之后会持续的按第一第二第三这种版本下去,更新一些比...
最近在做一个关于中文大段文本中的手机号码识别,由于属于对抗性的一个文本,发现传统的手机号码识别方法,比如正则匹配并不是很适用。 理论情况下文本中的手机号码出现方式应该如下: ...
拉取远程仓库内容失败,提示Permission denied (publickey) 刚新建了个笔记项目,准备上传却遇到这个问题,更新key也不行,找了好久终于找到解决办法。...