论文标题:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 提出机构...
论文标题:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 提出机构...
部分内容转载自机器之心 TinyBERT的创新点主要在: 新型蒸馏方式 不同于普通的知识蒸馏(knowledge distillation,KD)方法只针对输出层logits...
提出机构:阿里巴巴达摩院 论文链接:https://arxiv.org/pdf/1908.04577.pdf 作者认为Bert的预训练任务忽略了语言结构(language s...
论文标题:REFORMER: THE EFFICIENT TRANSFORMER 论文链接:https://arxiv.org/abs/2001.04451 提出机构:U.C...
机器学习讲座总结-北航-互联网应用下的大规模在线学习算法(四)-为什么要正则化 监督机器学习问题无非就是“minimize your error while regulari...
<Paper Reading Series> 本文基于Facebook 2019的文章:Cross-lingual Language Model Pretraining 研究...
<Paper Reading Series> 本文基于文章:Neural Chinese Medical Named Entity Recognition with Dict...
<Paper Reading Series> 本文基于Facebook 2018-ICLR的文章:WORD TRANSLATION WITHOUT PARALLEL DATA...
<Paper Reading Series> 本文基于2018 Facebook AI Research的文章:Massively Multilingual Sentence...
<Paper Reading Series> 本文基于2017-ACL的文章:Weakly Supervised Cross-Lingual Named Entity Rec...
<Paper Reading Series> 本文基于2016 TACL的文章:Adversarial Deep Averaging Networks for Cross-L...