时间:2024.7.12 知识蒸馏是LLM模型压缩的一种方式,其余还有pruning,quantization,低秩因式分解等方法。 知识蒸馏具体还有几个分类,根据EA(em...
IP属地:北京
时间:2024.7.12 知识蒸馏是LLM模型压缩的一种方式,其余还有pruning,quantization,低秩因式分解等方法。 知识蒸馏具体还有几个分类,根据EA(em...
GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism 看的是gpipe那...
Communication-Efficient Model Parallelism for Distributed In-Situ Transformer Inference...
Accelerating Heterogeneous Tensor Parallelism via Flexible Workload Control 为了尽可能的让计算时...