240 投稿
收录了3篇文章 · 4人关注
  • 用Py做文本分析5:关键词提取

    1.关键词提取 关键词指的是原始文档的和核心信息,关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。 针对一篇语段,在不加人工干预的情...

  • Resize,w 360,h 240
    用Py做文本分析4:文本向量化

    文本向量化即将信息数值化,方便后续的建模分析。 1.词袋模型 词袋模型将文本直接简化为一系列词的集合,然后对此编号,形成字典,最终将文本转化为特...

  • Resize,w 360,h 240
    用Py做文本分析3:制作词云图

    1.词频统计 在词频统计之前,需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pandas统计 1.2 使用NL...

  • 用Py做文本分析2:结巴分词

    分词的算法有两大类: 基于字符串的匹配:即通过扫描字符串,如果发现字符串的子串和词相同,就算匹配上了。因其简单粗暴,往往会加入一些启发式规则,如...

  • 用Py做文本分析1:文本分析概述

    数据的范围远远不止数字,文本、图像、声音等都是数据。然而非数字类数据难以利用起来,但其本身包含着丰富的信息。难处理的原因在于很难做量化,即纳入数...