240 发简信
IP属地:北京
  • Resize,w 360,h 240
    知识蒸馏 Distilling the knowledge

    1 、什么是知识? 通常认为,知识是模型学习到的参数(比如卷积的权重) 2 、什么是蒸馏? 将知识从大模型(教师模型)转移到更适合部署的小模型(...

    0.2 8 0 1
  • Resize,w 360,h 240
    模型压缩 4 大方法概述

    模型压缩的主要目标是将一个庞大而复杂的预训练模型转化为一个精简的小模型,使其在保持较高性能的前提下,显著减少模型的存储空间和计算量。一方面考虑将...

    0.6 40 0 1
  • 敏捷软件开发--原则

    1. 单一职责原则(Single Responsibility Principle, SRP) 每个类应该只有一个职责,且该职责应该完全封装在类...

    0.2 56 0 1
  • Resize,w 360,h 240
    人人都能懂的Transformer架构

    Transformer架构用做样本数据的训练以及训练预输出文字的预测,在训练的时候输入一些样本的数据,然后把这些数据第一步转换成对应的数字(In...

  • Resize,w 360,h 240
    Transformer架构

    简单分析下Transformer架构,即大语言模型底层基于什么样的架构训练出来的 在进行训练之前,首选需要进行3个步骤 1、把文字数字化 2、把...

  • Resize,w 360,h 240
    大模型训练关键两步

    大模型的核心原理是基于深度学习,通过多层神经网络进行数据建模和特征提取。目前大部分的大模型采用的是Transformer架构,它采用了自注意力机...

  • Fine-tuning

    上一篇介绍了RAG(检索增强生成),这篇文章介绍LLM进行特定领域的知识或专有数据需要进行特定的另一种方式Fine-tuning Fine-tu...

    0.1 44 0 1
  • Resize,w 360,h 240
    RAG(检索增强生成)

    上一篇文章介绍了LLM,LLM的知识仅限于其所训练的数据。想让LLM了解特定领域的知识或专有数据需要进行特定的处理,目前有三种方式: 1、RAG...

    0.1 79 0 1
  • Resize,w 360,h 240
    LLM

    从2022年11月对话交互式发布以来,引发了人工智能(Artificial Intelligence)生成内容(AIGC)技术的质变,标志着人类...