
12篇文章 · 1450字 · 1人关注
数据集: 备注:这里对数据文件进行转格式,原本的xls编码失败,所以只能尝试转为utf8可以转的csv。 对数据进行清洗 对数据列进行自变量因变...
导入常用stopwords 导入专业词库 关键词提取 用jieba提取关键词 2. 用sklearn实现关键词提取 自己写函数实现 自动摘要 s...
开始前先做一下pivot_table的实现。 接下来进入整体使用文本矩阵计算相似性 在这里我们发现有很多标点符号和换行符在里边,所以去除标点符号...
文本向量化这个概念应该是我第二次看到了,第一次看到的时候还是朴素贝叶斯对文本进行预测时预处理的时候,将文本转化为向量,很大程度上简化了问题的处理...
词云美化包括对词云的形状、颜色分布等等进行特殊要求。在文本挖掘HW3中,我们已经对一篇有关燃料电池的文章进行了词频统计和构建了词云图,接下来就是...
我们发现存在jieba切分后有一些停用词在干扰,类似空格、标点以及一些中文中的介词助词等等。所以,此时我们需要导入一个停用词库,停用词库中的词就...
最近在做新的模块,里边需要涉及到pip install,但是提示“You are using pip version 9.0.1, howeve...
文集作者