240 发简信
IP属地:北京
  • 120
    通信计算重叠

    看了几篇文章,简单总结一下。 DeepSpeed- Inference: Enabling Efficient Inference of Transformer Models...

  • 120
    deepseek

    关于deepseek的一些调研 最近关于deepseek非常的火,最主要的关注点集中在1.发布的R1版本性能对标gpt o1,v3版本对标4o2.训练成本低3.推理速度快 看...

  • 边缘+流水线并行

    A Model-Distributed Inference Approach for Large Language Models at the Edge 他这应该是做的文本生...

  • 120
    2024-12-06

    Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inference of 70B LLM 如...

  • 2024-12-18

    现在对于边缘设备上大模型的部署,我的想法是有两个方向,一个是把大的模型去拆开,一个是把小的模型集成。而且我认为应该是向多设备场景去考虑。现在已经有手机和手表是随时穿戴的。以后...

  • 边缘部署综述

    On-Device Language Models: A Comprehensive Review 和MEI还有点不同,MEI是涉及网络通信的,这个是纯边缘端。说起来,MEI...

  • 120
    模型集群

    LLM-BL E N D E R: Ensembling Large Language Models with Pairwise Ranking and Generativ...

  • 120
    miniGPT4

    代码:https://minigpt-4.github.io/[https://minigpt-4.github.io/].和GPT4是没关系的,是针对GPT4性能优越所做出...

  • 异构张量并行

    Accelerating Heterogeneous Tensor Parallelism via Flexible Workload Control 为了尽可能的让计算时...

  • 120
    算子内并行与算子间并行

    算子内并行:切分了tensor维度的并行方式,包括数据并行和张量并行算子间并行:不切分tensor,只是把算子进行不同的摆放,包括流水线并行 Mesh-TensorFlow:...

  • 120
    关于多并行方式共用的问题

    ACCELERATING LARGE LANGUAGE MODEL TRAINING WITH 4D PARALLELISM AND MEMORY CONSUMPTION ...

  • 120
    关于模型计算量的问题

    现在GPT系列取得了很大的成功,所以很多的大语言模型都采用了casual LM结构,所以针对采用了decoder only框架的transformer模型的模型参数量,计算量...

  • 120
    moe

    最早之前也看过几篇,当时没有基础知识,啥也没看懂就是了。简单的说moe是什么策略:以transformer举例,moe是将transformer的层扩展为多个小的专家模型以及...

  • 120
    zero

    显存占用可以被分为model states与activation两部分,zero是解决model state的model state中包括有:1.optimizer stat...

  • 120
    综述

    Model Parallelism on Distributed Infrastructure: A Literature Review from Theory to LLM...

  • 120
    一个流水线的变体

    Accelerating the Training of Large Language Models using Efficient Activation Remateria...

  • 120
    dynamic sequence parallelism

    DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers 第一个感受就是动态并行解决的最主要的...

  • 120
    block parallelism带边缘设备部署

    Communication-Efficient Model Parallelism for Distributed In-Situ Transformer Inference...

  • 120
    2D张量并行

    一维的张量模型存在一个问题,虽然在前向和反向传播过程中参数是分布式的,但是每个设备在计算完成后必须容纳整个激活度,规模较大时,这会造成内存瓶颈。与Megatron相比,Opt...