现象 使用 Hugging Face Trainer 在单机多卡环境下对 LLAMA2-7B 进行 LoRA finetuning 时,在第一次保存 checkpoint 时...
现象 使用 Hugging Face Trainer 在单机多卡环境下对 LLAMA2-7B 进行 LoRA finetuning 时,在第一次保存 checkpoint 时...
辅助式文本生成 - 文本生成新范式 @(NLP)[文本生成] 引言 LLM 要跨越从早期采用者到大众市场的鸿沟,其必要条件是价格大众化,也就是降低每词元的价格。 这种降低最好...
太长不看版 开源 LLM 现已达到一定的性能水平,可堪作为智能体工作流的推理引擎。在我们的测试基准上,Mixtral[https://huggingface.co/blog/...
随着 Mixtral 8x7B 的发布(公告[https://mistral.ai/news/mixtral-of-experts/],模型卡[https://hugging...
乱弹 LLM 的工程化 @(Thoughts) 仅为个人观点,乱弹而已。 这一波 LLM 狂热很有意思,从现象上来看跟智能手机 + 移动互联网那一拨有点相像。首先是 Open...
@(Engineering Practice) 本文主要介绍用于估算 transformer 类模型计算量需求和内存需求的相关数学方法。 引言 其实,很多有关 transfo...
优化故事: BLOOM 模型推理 @(Engineering Practice) 经过“九九八十一难”,大模型终于炼成。下一步就是架设服务,准备开门营业了。真这么简单?恐怕未...
BLOOM 训练背后的技术 @(Engineering Practice) 假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,“一朝看尽长安花”...
ChatGPT 与 AIGC 简问乱答 ** 仅代表个人观点。 ** [Q1] ChatGPT 最近非常火爆,2 个月突破 1 亿月活,从产品形态来看,我们知道的微软、谷歌的...
@(Deep Learning)[Engineering] 姚伟峰[yaoweifeng0301@126.com] 2017年旧文 Deep Learning Helps M...
@(Deep Learning)[Engineering, PyTorch] 姚伟峰[yaoweifeng0301@126.com]http://www.cnblogs.co...
Why Graph无处不在 Graph Intelligence helps It's the right time now! Gartner预测,graph技术在数据和分析...
@(NLP)[IR] 姚伟峰(Matrix Yao) Info Card full nameRetrieval Enhanced TRansfOrmerpaperImprov...
@(ML)[Engineering] 姚伟峰[yaoweifeng0301@126.com] 「大数据其实有点儿像青少年的性。每一个人都兴致勃勃地谈论它,但是没有任何一个人真...
@(ML)[算法] 姚伟峰[yaoweifeng0301@126.com] Why [例] 论丈母娘如何选女婿 决策树 判别函数 Decision Tree是一种非线性分类和...
@(Deep Learning)[算法] 姚伟峰[yaoweifeng0301@126.com] ResNet-v1(2015 Dec) Paper Deep Residua...
姚伟峰 做研究就像比武论剑一样,要论剑就要到华山论剑,如果你一定要去太行山论剑,去挺进大别山,那别人只能当你是游击队,永远也别想成正规军。在计算机视觉领域,农村是永远也包围不...
@(Engineering Practice)[Fun For Deep Dive] 姚伟峰 问题 MIP (Maximum Inner Product) 输入查询向量(qu...