Github: GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrain...
Github: GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrain...
MLLM模型基本范式: 1.主要调研InternVL 2.0-40B InternVL2-40B: 总计 40.07B; Vit: 5.54B; 143.17M;LLM: ...
1. BPE分词 a). BytePairEncoding(BPE):字节对编码,核心思想是将最常出现的子词对合并,直到词汇表达到预定的大小时停止。首先预分词器初步切分,分词...
简单计划: megatron deepspeed 代码阅读笔记(20230925更新中) - 知乎 (zhihu.com)[https://zhuanlan.zhihu.co...
tensorboard安装pip install tensorboard然后安装tensorboradx~~ pip install tensorboardx~~ pytor...
Visdom的安装很简单,直接使用命令pip install visdom安装即可。 在安装完成后,使用命令python -m visdom.server 在本地启动服务器,...
Paper Name: FLAT: Chinese NER Using Flat-Lattice Transformer论文链接https://arxiv.org/pdf/2...
文档智能理解:通用文档预训练模型与数据集[https://www.sohu.com/a/434296274_787107]附录 [1 ]LayoutLM 论文:https:/...
Pytorch通过torch.utils.data对一般常用数据加载进行封装,可以容易的实现多线程数据预读和批量加载,并且torchvision已经预先实现了常用图像数据集合...
模型压缩和加速是两个不同的话题,有时候压缩并不一定能带来加速的效果.压缩重点在于较少网络参数量,加速则侧重在降低计算复杂度,提升并行能力.模型压缩和优化可以从主要三个层次上来...
1. Softmax loss:鼓励目标类别的输出比其他要大,但是从其公式图像上可以看出,Softmax鼓励不同类别特征分开,但是并不鼓励分开很多,所以会出现如下图情况, s...
pytorch 官方api[https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-nn/#...
这一讲主要介绍如何使用DataParallel使用多GPU, 1. 导入和参数 Device device = torch.device('cuda:0' if torch....
使用torch.nn包来构建神经网络上一讲是autograd,nn包以来autograd包来定义模型并求导,一个nn.Module包含各个层和一个forward(input)...
自动求导机制 PyTorch 中所有神经网络的核心是 autograd 包。 我们先简单介绍一下这个包,然后训练第一个简单的神经网络。autograd包为张量上的所有操作提供...
1. 以_结尾操作 2. .size()和.view()方法类似与numpy里面的.shape和.reshape() 3.以结尾的操作都会用结果替换原来变量, 例如x.cop...
GPT-1 论文 Improving Language Understanding by Generative Pre-Training(2018) GPT-2 论文 Lan...
GPT-2是基于海量数据集上训练的基于Transformer的巨大模型。本文探索GPT-2模型架构,重点阐述其中关键的自注意力(self-attention)层。 Part1...