
MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS 如图所示,就是模仿moe的形式来...
ACL2024的文章放在收藏夹了,有时间看一下挺多代码和幻觉的文章,性能类有多模态和自蒸馏,还有各种模型评价方式的文章 Can LLMs Lea...
MoBA: Mixture of Block Attention for Long-Context LLMs 关于稀疏注意力头的一篇文章,其实跟...
看了几篇文章,简单总结一下。 DeepSpeed- Inference: Enabling Efficient Inference of Tra...
关于deepseek的一些调研 最近关于deepseek非常的火,最主要的关注点集中在1.发布的R1版本性能对标gpt o1,v3版本对标4o2...
A Model-Distributed Inference Approach for Large Language Models at the ...
Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inferen...
现在对于边缘设备上大模型的部署,我的想法是有两个方向,一个是把大的模型去拆开,一个是把小的模型集成。而且我认为应该是向多设备场景去考虑。现在已经...
On-Device Language Models: A Comprehensive Review 和MEI还有点不同,MEI是涉及网络通信的,...