240 发简信
IP属地:四川
  • Resize,w 360,h 240
    K-BERT理解

    0. Abstract BERT它是一种从大规模语料库中学得语言表征的模型,但是,在专业领域表现不佳。为了解决该问题,作者提出了一个基于知识图谱...

  • Resize,w 360,h 240
    Position-aware Attention and Supervised Data Improve Slot Filling论文理解

    论文题目:Position-aware Attention and Supervised Data Improve Slot Filling 发...

  • Resize,w 360,h 240
    矩阵向量求导

    本文整理自李建平机器学习中的矩阵向量求导系列和长躯鬼侠的矩阵求导术。 1. 符号说明 默认符号: :标量 : 维列向量 : 维列向量 :...

  • EM算法

    1. EM介绍 EM(Expectation Maximization Algorithm, EM)是Dempster等人于1977年提出的一种...

  • Resize,w 360,h 240
    GloVe理解

    1. 背景介绍 词向量在很多应用中都有重要作用。现今学习词向量的方法主要分两类:1)Global Matrix Factorization Me...

  • Resize,w 360,h 240
    word2vec参数学习详解

    前言 word2vec虽然非常流行和被广泛关注,但即使在原作者(Mikolov et al)的文章中,也没有给出CBOW和Skip-Gram两个...

  • 信息熵相关的定义定理

    1. 信息熵 // todo 2. 条件熵 // todo 3. 联合熵 // todo 4. 相对熵KL距离 5. 互信息 // todo 6...

  • word2vec

    Q1: 为什么用权重矩阵作为词向量? Q2: skip-gram是输入target,预测context,那请问它的输入是什么形式?您说输入层对应...

个人介绍
Stay hungry, Stay foolish!