240 发简信
IP属地:北京
  • Resize,w 360,h 240
    关于稀疏注意力头

    MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS 如图所示,就是模仿moe的形式来...

  • ACL2024

    ACL2024的文章放在收藏夹了,有时间看一下挺多代码和幻觉的文章,性能类有多模态和自蒸馏,还有各种模型评价方式的文章 Can LLMs Lea...

    0.9 29 0 1
  • Resize,w 360,h 240
    稀疏注意力头

    MoBA: Mixture of Block Attention for Long-Context LLMs 关于稀疏注意力头的一篇文章,其实跟...

  • Resize,w 360,h 240
    通信计算重叠

    看了几篇文章,简单总结一下。 DeepSpeed- Inference: Enabling Efficient Inference of Tra...

  • Resize,w 360,h 240
    deepseek

    关于deepseek的一些调研 最近关于deepseek非常的火,最主要的关注点集中在1.发布的R1版本性能对标gpt o1,v3版本对标4o2...

  • 边缘+流水线并行

    A Model-Distributed Inference Approach for Large Language Models at the ...

  • Resize,w 360,h 240
    2024-12-06

    Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inferen...

  • 2024-12-18

    现在对于边缘设备上大模型的部署,我的想法是有两个方向,一个是把大的模型去拆开,一个是把小的模型集成。而且我认为应该是向多设备场景去考虑。现在已经...

  • 边缘部署综述

    On-Device Language Models: A Comprehensive Review 和MEI还有点不同,MEI是涉及网络通信的,...