大家有没有遇到过慢查询的情况,执行一条SQL需要几秒,甚至十几、几十秒的时间,这时候DBA就会建议你去把查询的 SQL 优化一下,怎么优化?你能想到的就是加索引吧? 为什么加...
知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。 ...
之前从产品经理角度写了三篇有关知识图谱的基础知识,这篇文章和以后的文章会更贴近业务层面来写一些知识图谱的商业应用。为什么要把搜索与推荐放一起,是因为这俩兄弟绑定的太深了。 如...
前段时间,公司一个新上线的网站出现页面响应速度缓慢的问题, 一位负责这个项目的但并不是搞技术的妹子找到我,让我想办法提升网站的访问速度 ,因为已经有很多用户来投诉了。我第一反...
one-hot是文本向量化最常用的方法之一。 1.1 one-hot编码 什么是one-hot编码?one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器...
Word2vec简介 Word2Vec是由Google的Mikolov等人提出的一个词向量计算模型。 输入:大量已分词的文本 输出:用一个稠密向量来表示每个词 词向量的重要意...
本篇博客主要记录一下对语言模型、Word2Vec、ELMo和BERT学习和总结,有些地方肯定理解不到位,希望小伙伴们赐教。 一、词表征(Word Representation...
学了LDA模型(机器学习主题模型里面一个很重要的模型,以后会介绍)之后才接触到这两个分布的感觉挺不错的和大家分享一下,简单来说Beta分布的多维空间分布就是Dirichlet...
在我的文本建模文集里面介绍过Unigram Model 模型,这种模型其实非常的简单,这是因为简单所以我才最先看,毕竟好容易理解嘛!(毕竟之前完全没有接触过,导师交代后才慢慢...
这两个采样方法都是非常著名的,尤其是Gibbs Sampling在文本词的采样之中用的非常的多。我第一次遇到Gibbs Sampling是在pLSA(潜在语义分析)模型之中,...