ako8 - 简书

ako8

IP属地：北京

关于稀疏注意力头
MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS 如图所示，就是模仿moe的形式来...

40 0 1
ACL2024
ACL2024的文章放在收藏夹了，有时间看一下挺多代码和幻觉的文章，性能类有多模态和自蒸馏，还有各种模型评价方式的文章 Can LLMs Lea...

0.9 29 0 1

稀疏注意力头
MoBA: Mixture of Block Attention for Long-Context LLMs 关于稀疏注意力头的一篇文章，其实跟...

28 0 0
通信计算重叠
看了几篇文章，简单总结一下。 DeepSpeed- Inference: Enabling Efficient Inference of Tra...

35 0 0
deepseek
关于deepseek的一些调研最近关于deepseek非常的火，最主要的关注点集中在1.发布的R1版本性能对标gpt o1，v3版本对标4o2...

47 0 0
边缘+流水线并行
A Model-Distributed Inference Approach for Large Language Models at the ...

19 0 0
2024-12-06
Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inferen...

16 0 0

2024-12-18
现在对于边缘设备上大模型的部署，我的想法是有两个方向，一个是把大的模型去拆开，一个是把小的模型集成。而且我认为应该是向多设备场景去考虑。现在已经...

42 0 0
边缘部署综述
On-Device Language Models: A Comprehensive Review 和MEI还有点不同，MEI是涉及网络通信的，...

61 0 0