240 发简信
IP属地:上海
  • 120
    Trasnformer导论之——GPT

    GPT GPT全称为Generative Pre-trained Transformer,它使用了Transformer中的Decoder架构,并通过大规模的无监督预训练来提...

  • Transformer导论之——Bert

    Bert BERT,全称为“Bidirectional Encoder Representations from Transformers”,是一种预训练语言表示的方法,意味...

  • 120
    Transformer导论之——Transformer

    description: >-传统的RNN,GRU,LSTM他们都有一个问题,就是不能并行计算。同时虽然LSTM解决了长期依赖性的问题,但如果我们有一个很长很长的上万字的文本...