
看了几篇文章,简单总结一下。 DeepSpeed- Inference: Enabling Efficient Inference of Tra...
关于deepseek的一些调研 最近关于deepseek非常的火,最主要的关注点集中在1.发布的R1版本性能对标gpt o1,v3版本对标4o2...
A Model-Distributed Inference Approach for Large Language Models at the ...
Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inferen...
现在对于边缘设备上大模型的部署,我的想法是有两个方向,一个是把大的模型去拆开,一个是把小的模型集成。而且我认为应该是向多设备场景去考虑。现在已经...
On-Device Language Models: A Comprehensive Review 和MEI还有点不同,MEI是涉及网络通信的,...
LLM-BL E N D E R: Ensembling Large Language Models with Pairwise Rankin...
代码:https://minigpt-4.github.io/[https://minigpt-4.github.io/].和GPT4是没关系的...
Accelerating Heterogeneous Tensor Parallelism via Flexible Workload Con...