ako8 - 简书

发简信

ako8

1
关注
4
粉丝
35
文章
42861

字数
6

收获喜欢
0

总资产

IP属地：北京

ako8

关于稀疏注意力头
MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS 如图所示，就是模仿moe的形式来做了注意力头的稀疏化，但他跟我...

40 0 1
ako8

ACL2024
ACL2024的文章放在收藏夹了，有时间看一下挺多代码和幻觉的文章，性能类有多模态和自蒸馏，还有各种模型评价方式的文章 Can LLMs Learn from Previou...

29 0 1

ako8

稀疏注意力头
MoBA: Mixture of Block Attention for Long-Context LLMs 关于稀疏注意力头的一篇文章，其实跟我最开始的想法是一样的，就是仿...

28 0 0
ako8

通信计算重叠
看了几篇文章，简单总结一下。 DeepSpeed- Inference: Enabling Efficient Inference of Transformer Models...

35 0 0
ako8

deepseek
关于deepseek的一些调研最近关于deepseek非常的火，最主要的关注点集中在1.发布的R1版本性能对标gpt o1，v3版本对标4o2.训练成本低3.推理速度快看...

47 0 0
ako8

边缘+流水线并行
A Model-Distributed Inference Approach for Large Language Models at the Edge 他这应该是做的文本生...

19 0 0
ako8

2024-12-06
Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inference of 70B LLM 如...

16 0 0

ako8

2024-12-18
现在对于边缘设备上大模型的部署，我的想法是有两个方向，一个是把大的模型去拆开，一个是把小的模型集成。而且我认为应该是向多设备场景去考虑。现在已经有手机和手表是随时穿戴的。以后...

42 0 0
ako8

边缘部署综述
On-Device Language Models: A Comprehensive Review 和MEI还有点不同，MEI是涉及网络通信的，这个是纯边缘端。说起来，MEI...

61 0 0
ako8

模型集群
LLM-BL E N D E R: Ensembling Large Language Models with Pairwise Ranking and Generativ...

37 0 0
ako8

miniGPT4
代码：https://minigpt-4.github.io/[https://minigpt-4.github.io/].和GPT4是没关系的，是针对GPT4性能优越所做出...

138 0 0
ako8

异构张量并行
Accelerating Heterogeneous Tensor Parallelism via Flexible Workload Control 为了尽可能的让计算时...

52 0 1

ako8

算子内并行与算子间并行
算子内并行：切分了tensor维度的并行方式，包括数据并行和张量并行算子间并行：不切分tensor，只是把算子进行不同的摆放，包括流水线并行 Mesh-TensorFlow:...

111 0 0
ako8

关于多并行方式共用的问题
ACCELERATING LARGE LANGUAGE MODEL TRAINING WITH 4D PARALLELISM AND MEMORY CONSUMPTION ...

60 0 0
ako8

关于模型计算量的问题
现在GPT系列取得了很大的成功，所以很多的大语言模型都采用了casual LM结构，所以针对采用了decoder only框架的transformer模型的模型参数量，计算量...

70 0 0
ako8

moe
最早之前也看过几篇，当时没有基础知识，啥也没看懂就是了。简单的说moe是什么策略：以transformer举例，moe是将transformer的层扩展为多个小的专家模型以及...

99 0 0
ako8

zero
显存占用可以被分为model states与activation两部分，zero是解决model state的model state中包括有：1.optimizer stat...

65 0 0

ako8

综述
Model Parallelism on Distributed Infrastructure: A Literature Review from Theory to LLM...

74 0 0
ako8

一个流水线的变体
Accelerating the Training of Large Language Models using Efficient Activation Remateria...

50 0 0

暂无个人介绍