240 发简信
IP属地:上海
  • 240
    真正的利器:对比学习SimCSE

    最近看了一篇最新的Sentence Embedding论文,今年4月份的,丹琦大神发表的《Simple Contrastive Learning of Sentence Em...

  • 自然语言处理之文本数据增强

    什么是数据增强 数据增强可以简单理解为由少量数据生成大量数据的过程。一般比较成功的神经网络拥有大量参数,使这些参数正确工作需要用大量的数据进行训练,但实际情况中数据并没有那么...

  • NLP 预处理总结

    在处理 NLP 相关任务的时候(文本分类、聚类,智能客服等),首要任务是对文本数据进行预处理。结合自己的实践经验,总结了 N 条预处理的方法。 去掉一些无用的符号 文本中可能...

  • CNN

    CNN Basic Model 卷积层 由不同窗口大小的 Filter 构成 Filter 个数由自己决定,超参数。 同一个 Filter 参数共享,极大减少了参数个数。 因...

  • jieba 分词原理

    基本原理 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);用前缀字典实现了词库的存储(即dict.txt文件中的内容),而弃用之...

  • 240
    推荐算法之—FM

    1、什么是FM算法 FM即Factor Machine,因子分解机 2、为什么需要FM 1)、特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接建模,很有可能忽略掉特...

  • 文本情感分类

    传统模型——基于情感词典 输入句子,预处理 文本分词 训练情感词典(积极消极词汇、否定词、程度副词等) 判断规则(算法模型) 情感分类 文本预处理 使用正则表达式,过滤掉我们...