240 发简信
IP属地:江苏
  • python文本相似度计算

    步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言...

  • Python 编码转换与中文处理

    python 中的 unicode是让人很困惑、比较难以理解的问题. 这篇文章 写的比较好,utf-8是 unicode的一种实现方式,unicode、gbk、gb2312是...

  • 240
    python遍历目录

    这里介绍两种方法 第一种深度优先,即先遍历当前目录下的第一个目录里面的第一个目录,以此类推,然后再逐层向上遍历。代码如下: 运行结果: 第二种广度优先,是先把当前目录下的所有...

  • Linux学习之关于rename的用法

    linux下的rename是有两个版本的,一个是C语言版本,一个是Perl语言版本,如何判断当前是哪个版本: 输入man rename 看到第一行是:RENAME(1) Li...

  • 240
    java实现单词在文本中匹配

    最近接到了一个任务,要求是给出一系列单词,然后看这些单词是否在某篇文本文档中出现过,给出输出结果是或者否。看到这个第一时间香想到的是字符串匹配,最常见的有三种算法,Brute...