240 发简信
IP属地:上海
  • 技术积累

    数学基础 MCMC 采样 MCMC 采样 一、机器学习 1、无监督学习 聚类 Kmeans 聚类 降维 PCA 理论 PCA、LDA 算法 二、...

  • 如何解析图片文字进行文本分析

    最近工作中需要解析图片中的文本信息,进行文本数据分析,首先需要提取图片中的文字,解决方案如下: 1、需要安装包 2、提取示例 3、可能遇到问题 ...

  • TF-IDF 算法

    问题分析 有一篇很长的文章,用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样...

  • Resize,w 360,h 240
    序列标注任务数据增强

    在上一篇文章我们学习了基本的数据增强的 N 种方法,今天我们针对“序列标注”任务具体聊一聊如何数据增强?“序列标注”是一个 token-leve...

  • Batch Normalization

    机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效...

  • 自然语言处理之文本数据增强

    什么是数据增强 数据增强可以简单理解为由少量数据生成大量数据的过程。一般比较成功的神经网络拥有大量参数,使这些参数正确工作需要用大量的数据进行训...

  • NLP 预处理总结

    在处理 NLP 相关任务的时候(文本分类、聚类,智能客服等),首要任务是对文本数据进行预处理。结合自己的实践经验,总结了 N 条预处理的方法。 ...

  • RNN

    RNN RNN 是一种利用神经网络对序列模型的通用模型 利用历史信息结合当前输入进行预测 适合解决时间序列输入输出问题,对于 NLP 来说就是序...

  • CNN

    CNN Basic Model 卷积层 由不同窗口大小的 Filter 构成 Filter 个数由自己决定,超参数。 同一个 Filter 参数...