1 多任务学习
2 attention机制
AFM、 阿里DIN、阿里DIEN、阿里DSIN、阿里DSTM、ATRank
3 强化学习
4 bert相关
https://github.com/thunlp/PLMpapers
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
(1)BERT、RoBERTa、DistilBERT与XLNet,我们到底该如何选择?
(2)Google]BERT压缩到7MB!最新基于最优子词和共享投影的极限语言压缩模型
(3)BERT 的演进和应用
(5)BERT 瘦身之路:Distillation,Quantization,Pruning
(7)TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品
(8)BERT系列文章汇总导读