gensim - 专题

投稿

gensim

收录了22篇文章 · 15人关注

实体关系抽取
实体属性关系抽取针对语料：通用语料抽取关系：通用实体关系抽取级别：句子级别关系类型（通用文本）关系类型（ACE2003）角色关系：将...

时芥蓝 0 2
Similarity Queries for Security Name by Gensim
Introduction of Gensim Gensim is a free Python library designed to autom...

0.5 blade_he 0 50

用WordCloud词云 + LDA主题模型，带你读一读《芳华》(python实现)
电影《芳华》在春节重映了一波，加上之前的热映，最终取得了14亿票房的好成绩。严歌苓的原著也因此被更多的人细细品读。用文本分析的一些技术肢解小说向...

0.9 双er 12 52
python文本相似度计算
步骤分词、去停用词词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本计算相似度理论知识两篇中文文本，如何计算相似度？...

3.0 lyy0905 20 83
利用Python实现中文文本关键词抽取的三种方法
文本关键词抽取，是对文本信息进行高度凝练的一种有效手段，通过3-5个词语准确概括文本的主题，帮助读者快速理解文本信息。目前，用于文本关键词提取的...

1.1 atLee 8 46
新词发现
1.基于互信息和左右信息熵的短语提取识别 2.反作弊基于左右信息熵和互信息的新词挖掘 3.基于spark的新词发现模型 4.热词调研笔记 5.j...

0.1 御风之星 0 1
几种简单的文本数据预处理方法
下载数据：http://www.gutenberg.org/cache/epub/5200/pg5200.txt 将开头和结尾的一些信息去掉，使...

37.7 不会停的蜗牛 1 19

中文分词常用方法简述
中文分词就是将一句话分解成一个词一个词，英文中可以用空格来做，而中文需要用一些技术来处理。三类分词算法： 1. 基于字符串匹配：将汉字串与...

26.3 不会停的蜗牛 2 14
用 Doc2Vec 得到文档／段落／句子的向量表达
本文结构： Doc2Vec 有什么用两种实现方法用 Gensim 训练 Doc2Vec Doc2Vec 或者叫做 paragraph2vec...

29.0 不会停的蜗牛 4 17
使用gensim和sklearn搭建一个文本分类器
总的来讲，一个完整的文本分类器主要由两个阶段，或者说两个部分组成：一是将文本向量化，将一个字符串转化成向量形式；二是传统的分类器，包括线性分类器...

chaaffff 2 16