240 发简信
IP属地:澳门
  • Resize,w 360,h 240
    2025记忆

    工作电脑 lenovo 昭阳 K14 上班的路上,在接近西山的北清路上,月亮挂在山尖。 为我的小黄蜂自行车开发了一个模型,预测下一次的保养时间,...

  • L1、L2 正则化、Dropout 以及梯度裁剪防止梯度消失/爆炸

    以下是使用 PyTorch 实现 L1、L2 正则化、Dropout 以及防止梯度消失/爆炸的示例代码,同样以手写数字识别数据集(MNIST)为...

  • 大模型的数据隔离

    大模型训练数据如下格式:[{"system":"你是一位书籍推荐专家"},{"context":"你好","target":"嗨!你好,需要点什...

  • 大语言模型推理优化框架 SiliconLLM 的优势介绍及使用演示

    https://dev.amazoncloud.cn/video/videoDetail?id=6620a4035e888c6910927303...

  • 大模型开源or闭源

    在AI大模型领域,过去,技术壁垒是大模型竞争的核心,企业通过闭源来巩固自身优势。 然而,随着技术的快速发展和成本的降低,开源闭源已经不再重要,更...

  • Resize,w 360,h 240
    One-API使用指南

    one - API简介 One - API是一个开源的大语言模型(LLM)API 管理工具,它提供了一个统一的接口,能够聚合不同的大语言模型 A...

  • 关注微信公众号如何跳转到小程序

    要在关注微信公众号后自动跳转到关联的小程序,您需要进行一些设置。以下是一步步的指南,帮助您实现这一功能: 关联小程序与公众号首先,确保您的小程序...

  • Resize,w 360,h 240
    MLA机制解析

    MLA 指的是 MultiHeadLatentAttention,我们自定义的 PyTorch 模块,用于实现多头潜在注意力机制。详细介绍它的原...

  • Tokenizer自定义中文分词器

    代码包含自定义中文分词器,以及 encode 和 decode 功能: 代码说明: 初始化部分(__init__ 方法):读取 dictiona...

个人介绍
骑行侠,顺便搞点技术。