Sparks of Artificial General Intelligence: Early experiments with GPT-4

https://arxiv.org/pdf/2303.12712.pdf

摘要

人工智能 (AI) 研究人员一直在开发和改进大型语言模型 (LLM)，这些模型在各种领域和任务中展现出卓越的能力，挑战我们对学习和认知的理解。 OpenAI GPT-4 [Ope23] 开发的最新模型是使用前所未有的计算和数据规模进行训练的。在本文中，我们报告了我们对 GPT-4 早期版本的调查，当时它仍在由 OpenAI 积极开发。我们认为（这个早期版本的）GPT4 是新的 LLM 队列的一部分（例如 ChatGPT 和谷歌的 PaLM），它们比以前的 AI 模型表现出更多的通用智能。我们讨论了这些模型不断增强的能力和影响。我们证明，除了对语言的掌握之外，GPT-4 还可以解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务，而无需任何特殊提示。此外，在所有这些任务中，GPT-4 的表现都非常接近人类水平，并且经常大大超过 ChatGPT 等先前的模型。鉴于 GPT-4 功能的广度和深度，我们认为可以合理地将其视为通用人工智能 (AGI) 系统的早期（但仍不完整）版本。在我们对 GPT-4 的探索中，我们特别强调发现它的局限性，并且我们讨论了推进更深入和更全面的 AGI 版本所面临的挑战，包括可能需要追求一种超越下一个词预测的新范式。最后，我们反思了近期技术飞跃的社会影响和未来的研究方向。

精选图片

Figure 1.1-1: Preliminary examples of GPT-4’s capabilities in language, vision, coding, and mathematics.

Figure 1.1-2: Preliminary examples of GPT-4’s capabilities in language, vision, coding, and mathematics.

Figure 1.1-3: Preliminary examples of GPT-4’s capabilities in language, vision, coding, and mathematics.

结论

我们已经在广泛的任务和领域中展示了我们对 GPT-4 的初步探索，为 GPT-4 的能力在其中许多方面可与人类水平相媲美的说法提供了支持证据。这一结论与 OpenAI 提出的发现一致在 [Ope23] 中。我们实验的一个主要目标是对 GPT-4 的智能进行初步评估，这是一项艰巨的任务，因为这个概念缺乏正式的定义，尤其是对于人工系统。我们希望我们的探索能为理解 GPT-4 的卓越能力和挑战提供有用且必要的第一步，并为开发更正式和更全面的方法来测试和分析具有如此广泛智能的未来人工智能系统开辟新的机会。上面已经展示的模型的能力，无论是在深度还是普遍性方面，都表明机器学习社区需要通过结构化数据集和任务超越经典基准测试，并且对这些新模型的能力和认知能力的评估已经从本质上讲，它更接近于评估人类的任务，而不是狭义的 AI 模型的任务。

我们希望我们的调查能够激发对 GPT-4 和类似系统的进一步研究，无论是在探索新的应用和领域，还是在理解其智能背后的机制和原则方面。我们工作的核心主张是 GPT-4 获得了形式的通用智能，确实显示出人工通用智能的火花。这体现在它的核心心智能力（如推理、创造力和演绎）、它获得专业知识的主题范围（如文学、医学和编码）以及它能够执行的各种任务（例如，玩游戏、使用工具、自我解释……）。要创建一个有资格成为完整 AGI 的系统，还有很多工作要做。我们通过讨论几个直接的后续步骤来结束本文，包括定义 AGI 本身、为 AGI 构建 LLM 中缺少的一些组件，以及更好地理解最近的 LLM 所显示的智能的起源。

RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation

https://arxiv.org/pdf/2303.12570.pdf

摘要

存储库级代码补全的任务是基于更广泛的存储库上下文继续编写未完成的代码。而自动化代码补全工具很难利用分散在不同文件中的有用信息。我们提出了 RepoCoder，一个简单、通用且有效的框架来应对挑战。它通过结合基于相似性的检索器和预训练的代码语言模型简化了存储库级别的代码完成过程，从而允许有效利用存储库级别的信息来完成代码，并赋予生成各种粒度级别的代码的能力。此外，RepoCoder 利用一种新颖的迭代检索生成范式，弥合了检索上下文和预期完成目标之间的差距。我们还提出了一个新的基准 RepoEval，它由最新和高质量的真实世界存储库组成，涵盖线路、API 调用和函数体完成场景。我们通过使用代码检索器和生成器的各种组合来测试 RepoCoder 的性能。实验结果表明，RepoCoder 在所有设置中将零样本代码完成基线显着提高了 10% 以上，并且始终优于 vanilla retrieval-augmented 代码完成方法。此外，我们通过综合分析验证了 RepoCoder 的有效性，为未来的研究提供了有价值的见解。

精选图片

Figure 1: RepoCoder: an iterative retrieval-generation framework for repository-level code completion.

Figure 2: An example of the generate-then-retrieve paradigm: the model first predicts to call the COLMAP() API and then retrieves the grounding example for the second iteration of prediction.

结论

总之，我们提出了 RepoCoder，这是一个用于存储库级代码完成任务的简单有效的框架。利用基于相似性的检索器和预训练的语言模型，RepoCoder 充分利用了存储库级别的信息。通过迭代检索和生成，RepoCoder 可以弥合检索上下文和预期目标之间的差距，从而提高代码完成性能。我们对 RepoEval 基准测试的严格实验表明，RepoCoder 持续且显着地提高了零样本代码完成性能，并且优于普通的检索增强生成方法。通过综合分析，我们还对 RepoCoder 的有效性和局限性提供了有价值的见解。凭借其简单性、通用性和有效性，RepoCoder 有潜力成为现实世界软件开发中必不可少的工具。在未来的工作中，我们旨在解决 RepoCoder 当前的局限性并继续提高其可用性和稳健性。

SemDeDup: Data-efficient learning at web-scale through semantic deduplication

https://arxiv.org/pdf/2303.09540.pdf

摘要

机器学习的进步在很大程度上是由数据的大量增加推动的。然而，像 LAION 这样的大型网络规模的数据集除了搜索精确的重复项外，基本上没有经过整理，可能会留下很多冗余。在这里，我们介绍 SemDeDup，这是一种利用预训练模型的嵌入来识别和删除“语义重复项”的方法：语义相似但不完全相同的数据对。删除语义重复项可以保持性能并加快学习速度。通过分析 LAION 的一个子集，我们表明 SemDeDup 可以删除 50% 的数据，而性能损失最小，从而有效地将训练时间减半。此外，性能的提高不受分配的影响。此外，通过分析在 C4（一个部分整理的数据集）上训练的语言模型，我们表明 SemDeDup 比以前的方法有所改进，同时提高了效率。 SemDeDup 提供了一个示例，说明如何使用利用质量嵌入的简单方法来使模型在更少数据的情况下学习得更快。

精选图片

Figure 1: Data efficiency from semantic deduplication (SemDeDup) (a): A schematic of the SemDeDup algorithm which efficiently removes semantic duplicates from web-scale data. (b): When SemDeDup removes 50% of the LAION-440M dataset, training on this semantically nonredundant subset achieves almost the same performance as training on the entire 440M dataset. Also, training speed is twice as fast and completes in half the time.

Figure 2: Mapping cosine similarity to perceptual and semantic similarity. We visualize pairs of images with cosine similarity 1−� in the CLIP image encoder embedding space. The left most image is a random seed image from LAION, while the remaining images are sorted by their dissimilarity � to the seed image. Roughly, as � increases from left to right, we move from perceptual to semantic duplicates, while at large values of � we see semantically redundant pairs. Note the red labelled “semantic duplicate" is a view of the original left-most seed image from a slightly different perspective. We visualize more examples in Figure A9.

结论

我们介绍了 SemDeDup，这是一种简单但易于处理且有效的方法，它利用预训练嵌入来删除语义高度相似但不相同的语义重复项。删除语义重复项可提高学习速度和分布外性能，同时提供高达 50% 的效率增益在很大程度上未策划的 LAION 和 15% 在部分策划的 C4 上。 SemDeDup 展示了数据质量的重要性和数据管理在显着提高训练效率方面的潜力。

FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

https://arxiv.org/pdf/2303.09833.pdf

摘要

最近，条件扩散模型因其出色的生成能力而在众多应用中受到欢迎。然而，许多现有方法需要训练。他们需要训练一个依赖时间的分类器或一个依赖条件的分数估计器，这增加了构建条件扩散模型的成本，并且不方便在不同条件下迁移。目前的一些工作旨在通过提出免训练解决方案来克服这一限制，但大多数只能应用于特定类别的任务，而不适用于更一般的条件。在这项工作中，我们提出了一种用于各种条件的训练自由条件扩散模型 (FreeDoM)。具体来说，我们利用现成的预训练网络（例如人脸检测模型）来构建与时间无关的能量函数，该函数无需训练即可指导生成过程。此外，由于能量函数的构造非常灵活并且适应各种条件，我们提出的 FreeDoM 比现有的免训练方法具有更广泛的应用范围。 FreeDoM 的优势在于其简单性、有效性和低成本。实验表明，FreeDoM 在各种条件下都有效，适用于不同数据域（包括图像和潜在代码域）的扩散模型。

精选图片

Figure 1: FreeDoM controls the generation process of diffusion models in a training-free way. Here, we demonstrate some results of the applications FreeDoM supports. Part (a)-(c) show various face editing applications with training-free guidance. (a) We use the segmentation map, sketch, landmarks, and face ID as conditions to guide the generation process of an unconditional diffusion model; (b) We use CLIP [31] based text guidance to control image synthesis and editing. For editing, we use the segmentation masks to limit the editing areas (see Fig. 4 for details); (c) We combine different conditions to control the generation process. Part (d)-(f) show that training-free guidance can work with other training-required conditional diffusion models, like Stable Diffusion [33] and ControlNet [49], to achieve a more sophisticated control mechanism. The conditions of scribbles in (d), human poses in (e), and prompt texts in (f) are controlled by the training-required interfaces provided by ControlNet and Stable Diffusion. Training-free energy functions control the conditions of face IDs from the reference images in (e) and style images in (d) and (f). Zoom in for best view.

Figure 3: Demonstration of the importance of different sampling stages. Most of the semantic content is generated during the semantic stage, so we only employ the time-travel strategy in this stage to achieve an efficient version of FreeDoM. The shown images are x0|t generated by diffusion models pre-trained on the ImageNet data domain.

结论

我们提出了一种无需训练的能量引导条件扩散模型 FreeDoM，无需训练即可解决各种条件生成任务。我们的方法使用现成的预训练时间无关网络来近似时间相关的能量函数。然后，我们使用近似能量的梯度来指导生成过程。我们的方法支持不同的扩散模型，包括图像和潜在扩散模型。值得强调的是，本文中介绍的应用程序只是 FreeDoM 支持的应用程序的一个子集，不应仅限于这些。在未来的工作中，我们的目标是为更广泛的任务探索更多的能量函数。尽管有其优点，但我们的 FreeDoM 方法有一些局限性：（1）采样的时间成本仍然高于训练所需的方法，因为每次迭代都会增加能量函数的微分操作，时间旅行策略引入了更多的采样步骤。 (2) 在大数据域中难以使用能量函数来控制细粒度结构特征。例如，即使我们使用时间旅行策略，使用 Canny 边缘图作为条件也可能导致引导不佳。在这种情况下，需要训练的方法将提供更好的选择。 (3) 等式。 12处理多条件控制并假设提供的条件是独立的，这在实践中不一定成立。当条件相互冲突时，FreeDoM 可能会产生低于标准的生成结果。

CoDEPS: Online Continual Learning for Depth Estimation and Panoptic Segmentation

https://arxiv.org/pdf/2303.10147.pdf

摘要

在开放世界中操作机器人需要对以前未见过的环境具有高度的鲁棒性。理想情况下，机器人能够在没有人工监督的情况下自行适应新条件，例如，自动调整其感知系统以适应不断变化的光照条件。在这项工作中，我们解决了在新环境中基于深度学习的单目深度估计和全景分割的持续学习任务以在线方式。我们引入 CoDEPS 来执行涉及多个现实世界领域的持续学习，同时通过利用经验回放来减轻灾难性遗忘。特别是，我们提出了一种新的域混合策略来生成伪标签以适应全景分割。此外，我们通过提出基于稀有语义类采样和图像多样性构建固定大小重放缓冲区的采样策略，明确解决了机器人系统的有限存储容量问题。我们在各种真实世界的数据集上对 CoDEPS 进行了广泛的评估，证明它成功地适应了看不见的环境，而不会牺牲先前领域的性能，同时实现了最先进的结果。我们工作的代码可在 http://codeps.cs.uni-freiburg.de 上公开获得。

精选图片

Fig. 1. Neural networks often perform poorly when deployed on a target domain that differs from the source domain used for training. To close this domain gap, we propose to continuously adapt the network by exploiting online target images. To mitigate catastrophic forgetting and enhance generalizability, we leverage a fixed-size replay buffer allowing the method to revisit data from both the source and target domains.

Fig. 2. Overview of our proposed CoDEPS. Unlabeled RGB images from an online camera stream are combined with samples from a replay buffer comprising both annotated source samples and previously seen target images. Cross-domain mixing enables pseudo-supervision on the target domain. The network weights are then updated via backpropagation using the constructed data batch. The additional PoseNet required for unsupervised monocular depth estimation is omitted in this visualization

结论

在本文中，我们将 CoDEPS 作为联合单眼深度估计和全景分割的在线持续学习的第一种方法。 CoDEPS 使机器人平台的视觉系统能够以在线方式不断提高其性能。特别是，我们提出了一种新的跨域混合策略，以适应将带注释的源数据与来自目标域的未标记图像相结合的全景分割。为了减轻灾难性遗忘，CoDEPS 利用由源样本和目标样本组成的缓冲区来体验重放。与之前的工作不同，我们通过为回放缓冲区设置固定大小来明确解决机器人平台的有限内存容量问题。为了确保不同的重放样本，我们在源集上使用稀有类采样，并在更新目标缓冲区时采用基于图像的多样性采样。通过广泛的评估，我们证明 CoDEPS 优于竞争基线，同时避免了在线持续学习环境中的灾难性遗忘。未来的工作将探索跨任务协同作用和使用前置任务进行领域适应。

LION: Implicit Vision Prompt Tuning

https://arxiv.org/pdf/2303.09992.pdf

摘要

尽管最近在一系列视觉任务中表现出色，但视觉变形金刚仍然存在计算成本高的问题。最近，视觉提示学习为这个问题提供了一种经济的解决方案，而无需对整个大型模型进行微调。然而，由于插入大量提示块和技巧提示设计，现有模型的效率仍远不能令人满意。在本文中，我们提出了一种名为 impLicit vIsion proOmpt tuNing (LION) 的高效视觉模型，该模型由具有稳定记忆的深度隐式模型驱动各种复杂任务的成本。特别是，我们只是在预训练主干的两端插入两个平衡隐式层，主干中的参数被冻结。此外，我们根据彩票假设修剪这两层中的参数。我们的 LION 获得的性能在广泛的数据集上很有前途。特别是，与最先进的基线 VPT 相比，我们的 LION 减少了高达 11.5% 的训练参数数量，同时获得了更高的性能，尤其是在具有挑战性的场景下。此外，我们发现我们提出的 LION 具有良好的泛化性能，使其成为未来促进迁移学习的一种简单方法。

精选图片

Figure 1. Demonstration of the implicit vision prompt layer. The left part shows the traditional construction of the prompt block by stacking MLPs. The right part is our LION with the implicit equilibrium layer with the robust training for the prompt block.

Figure 2. Structural comparison of the fine-tuning and our LION. We add two implicit layers, which are only injected in front of the input and behind the output of the pre-trained backbone respectively, as the vision prompts to enrich the vision input and representation.

结论

总之，本文提出了一种名为 LION 的高效视觉模型，它解决了与 ViT 相关的大量计算成本。通过从具有稳定内存成本的深度隐式模型中汲取灵感，LION 只需要在预训练的主干网的两端有两个平衡隐式层，主干网中的参数被冻结。此外，根据彩票假设修剪这两层中的参数减少了训练参数的数量。与最先进的基线 VPT 相比，LION 可以以更小的参数大小获得更高的性能，尤其是在具有挑战性的场景下。我们的实验表明 LION 具有良好的泛化性能，使其成为未来提升应用程序的简便方法。总的来说，LION 为视觉任务提供了一种经济的解决方案，并且有望用于广泛的数据集。

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

https://arxiv.org/pdf/2303.09867.pdf

摘要

现有的文本-视频检索解决方案本质上是专注于最大化条件似然性的判别模型，即 p(candidates|query)。虽然简单明了，但这种事实上的范式忽略了底层数据分布 p(query)，这使得识别分布外数据具有挑战性。为了解决这个限制，我们创造性地从生成的角度处理这个任务，并将文本和视频之间的相关性建模为它们的联合概率 p(candidates, query)。这是通过基于扩散的文本视频检索框架 (DiffusionRet) 实现的，该框架将检索任务建模为从噪声中逐渐生成联合分布的过程。在训练过程中，DiffusionRet 从生成和判别两个角度进行优化，生成器通过生成损失进行优化，特征提取器通过对比损失进行训练。通过这种方式，DiffusionRet 巧妙地利用了生成方法和判别方法的优势。在五个常用的文本视频检索基准（包括 MSRVTT、LSMDC、MSVD、ActivityNet Captions 和 DiDeMo）上进行的广泛实验证明了我们方法的有效性。更令人鼓舞的是，在没有任何修改的情况下，DiffusionRet 甚至在域外检索设置中也表现出色。我们相信这项工作为相关领域带来了基本的见解。代码将在 https://github.com/jpthu17/DiffusionRet 上提供。

精选图片

Figure 1: Diffusion model for text-video retrieval. (a) We propose to model the correlation between the query and the candidates as their joint probability. Specifically, the candidate with a higher degree of similarity to the query is assigned higher probability values. (b) Diffusion model has demonstrated remarkable generative power in various fields, and due to its coarse-to-fine nature, we utilize the diffusion model for joint probability generation.

Figure 2: Our DiffusionRet framework for generative text-video retrieval. We model the retrieval task as a process of gradually generating joint distribution from Gaussian noise. In contrast to the prior works, which typically optimize the posterior probabilities p(v|t) + p(t|v), our method builds the joint probabilities p(v, t).

Figure 3: Model architecture of the denoising network. We first leverage the text-frame attention encoder to extract the joint encoding of text and video. Then, we feed a distribution xk of length N, as well as noise level k, and the text and video representations into the query-candidate attention network. In each sampling step, the denoising network predicts the final clean distribution xˆ

结论

在本文中，我们提出了 DiffusionRet，这是第一个基于扩散的生成文本视频检索框架。通过显式建模文本和视频的联合概率分布，DiffusionRet 有望解决当前判别机制的内在局限性。它从生成的角度和判别的角度成功地优化了 DiffusionRet。这使得 DiffusionRet 在域内检索和域外检索设置中具有原则性和适用性。我们相信这项工作为相关领域带来了基本的见解。我们建议在未来的研究中进一步研究生成方法在判别任务中的潜力。

Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs

https://arxiv.org/pdf/2303.08114.pdf

摘要

训练数据归因 (TDA) 方法可以将模型对任何给定示例的预测追溯到特定的有影响力的训练示例。现有方法通过为每个训练示例分配一个标量影响分数来实现，在一个简化的假设下，即影响是可加的，训练集的总影响是其部分的总和。但实际上，我们观察到训练示例高度交互由于示例间冗余、训练顺序和课程学习效果等因素而导致的非加性方式。为了研究这种交互，我们提出了 Simfluence，这是一种新的 TDA 范例，其目标不是为每个示例产生一个单一的影响分数，而是训练运行模拟器：用户问，“如果我的模型已经在示例 z1 上进行了训练，然后是 z2，...，然后是 zn，它在 ztest 上的表现如何？”；然后模拟器应该输出一个模拟训练运行，这是一个时间序列，预测模拟运行每一步在 ztest 上的损失。这使用户能够回答关于他们的模型在不同的培训课程下会学到什么的反事实问题，并直接看到学习会在培训中的什么地方发生。在 Simfluence 范例下，我们提出了一个模拟器 (Simfluence-Linear)，它捕获重要的非加性交互使用马尔可夫过程。它通常能够以惊人的保真度预测单个示例损失的尖峰轨迹，同时匹配先前 TDA 工作的可解释性并在毫秒内运行。此外，我们表明现有的 TDA 方法（例如 TracIn 和影响函数）可以看作是 Simfluence-Linear 的特例。这使我们能够直接比较方法的模拟精度，将几种先前的 TDA 方法纳入评估。在大型语言模型 (LLM) 微调实验中，我们表明我们的方法在几个任务、模型和训练中预测损失轨迹的准确性比现有的 TDA 方法高得多（斯皮尔曼相关性加倍并将均方误差降低 75%）方法。

精选图片

Figure 1: Training data attribution (TDA) methods seek to understand the effect of individual training examples. Simfluence is a new paradigm for TDA, where the goal is to develop training run simulators that can accurately predict how any given sequence of training examples would affect the model’s loss on any particular test example. Here, we plot the loss of three different test examples over the course of a training run. We compare the true observed loss trajectories (blue) with our simulator’s predicted trajectories (green). Surprisingly, many of the ups and downs in the true loss trajectories are not “random” but can be anticipated by our simulator, showing the extent to which our simulator understands the effect of each training example.

Figure 2: Qualitative examples of Simfluence’s predicted loss trajectories on the loss of one random test example in one run.

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

https://arxiv.org/pdf/2303.10130.pdf

摘要

我们调查了生成式预训练 Transformer (GPT) 模型和相关技术对美国劳动力市场的潜在影响。我们使用新的标准，根据职业与 GPT 能力的对应关系评估职业，结合人类专业知识和 GPT-4 的分类。我们的研究结果表明，大约 80% 的美国劳动力至少有 10% 的工作任务会受到引入的影响的 GPT，而大约 19% 的员工可能会看到至少 50% 的任务受到影响。这种影响涵盖所有工资水平，高收入工作可能面临更大的风险。值得注意的是，这种影响不仅限于近期生产率增长较高的行业。我们得出结论，生成式预训练 Transformer 表现出通用技术 (GPT) 的特征，表明这些模型可能具有显着的经济、社会和政策影响。

结论

总之，本研究考察了 LLM，特别是 GPT，对美国经济中各种职业和行业的潜在影响。通过应用新的规则来理解 LLM 能力及其对工作的潜在影响，我们观察到大多数职业都表现出一定程度的 GPT 暴露，而高薪职业通常会呈现更多暴露程度高的任务。我们的分析表明，在考虑当前模型功能和预期的 GPT 支持的软件时，大约 19% 的工作至少有 50% 的任务暴露于 GPT。我们的研究旨在强调 GPT 的通用潜力及其对美国工人的可能影响。以前的文献展示了迄今为止 GPT 令人印象深刻的改进（见 2.1）。我们的调查结果证实了这样一个假设，即这些技术可以对美国的广泛职业产生普遍影响，并且 GPT 主要通过软件和数字工具支持的额外进步可以对一系列经济活动产生重大影响。然而，虽然 GPT 提高人类劳动效率的技术能力似乎很明显，但重要的是要认识到社会、经济、监管和其他因素会影响实际的劳动生产率结果。随着能力的不断发展，GPT 对经济的影响可能会持续存在并增加，这对决策者预测和监管其轨迹提出了挑战。需要进一步研究以探索 GPT 进步的更广泛影响，包括它们增加或取代人类劳动力的潜力，它们对工作质量的影响、对不平等的影响、技能发展以及许多其他结果。通过寻求了解 GPT 对劳动力的能力和潜在影响，政策制定者和利益相关者可以做出更明智的决策，以驾驭 AI 的复杂格局及其在塑造未来工作中的作用。

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

https://arxiv.org/pdf/2303.11305.pdf

摘要

扩散模型在文本到图像生成方面取得了显着的成功，能够从文本提示或其他模式创建高质量图像。然而，现有的定制这些模型的方法受到处理多个个性化对象和过度拟合风险的限制。此外，它们的大量参数对于模型存储来说是低效的。在本文中，我们提出了一种新方法来解决现有文本到图像扩散模型中的这些局限性以进行个性化。我们的方法涉及对权重矩阵的奇异值进行微调，从而形成一个紧凑高效的参数空间，从而降低过度拟合和语言漂移的风险。我们还提出了一种 Cut-Mix-Unmix 数据增强技术来提高多数据质量-主题图像生成和简单的基于文本的图像编辑框架。与现有方法（vanilla DreamBooth 3.66GB，Custom Diffusion 73MB）相比，我们提出的 SVDiff 方法具有明显更小的模型大小（StableDiffusion 为 1.7MB），使其更实用-世界应用。

精选图片

Figure 1. Applications of SVDiff. Style-Mixing: mix features from personalized subjects and create novel renderings; MultiSubject: generate multiple subjects in the same scene; SingleImage Editing: text-based editing from a single image.

Figure 3. Cut-Mix-Unmix data-augmentation for multi-subject generation. The figure shows the process of Cut-Mix-Unmix data augmentation for training a model to handle multiple concepts. The method involves (a) manually constructing image-prompt pairs where the image is created using a CutMix-like data augmentation [65] and the corresponding prompt is written as, for example, “photo of a [V2] sculpture and a [V1] dog”. The prior preservation image-prompt pairs are created in a similar manner. The objective is to train the model to separate different concepts by presenting it with explicit mixed samples. (b) To perform unmix regularization, we use MSE on non-corresponding regions of the cross-attention maps to enforce separation between the two subjects. The goal is to encourage that the dog’s special token should not attend to the panda and vice versa. (c) During inference, a different prompt, such as “photo of a [V1] dog sitting besides a [V2] sculpture”.

结论

总之，我们提出了一个紧凑的参数空间，光谱偏移，用于扩散模型微调。我们的实验结果表明，与单对象生成和多对象生成中的全权重微调相比，在此参数空间中进行微调可获得相似甚至更好的结果。我们提出的 Cut-Mix-Unmix 数据增强技术还提高了多对象生成的质量，使得处理对象属于相似类别的情况成为可能。此外，spectralshift 作为一种正则化方法，支持单图像编辑等新用例。局限性我们的方法有一定的局限性，包括随着添加更多对象，Cut-Mix-Unmix 的性能下降，以及在单图像编辑中背景可能保存不充分。尽管存在这些局限性，我们还是看到了我们微调扩散模型的方法的巨大潜力，并期待在未来的研究中进一步探索其功能，例如将光谱偏移与 LoRA 相结合或开发免训练方法以实现快速个性化概念。

Zero-1-to-3: Zero-shot One Image to 3D Object

https://arxiv.org/pdf/2303.11328.pdf

摘要

我们介绍了 Zero-1-to-3，这是一个框架，用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新颖的视图合成，我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制，这允许在指定的相机变换下生成同一对象的新图像。尽管它是在合成数据集上训练的，但我们的模型对分布外数据集以及自然图像（包括印象派绘画）保留了强大的零样本泛化能力。我们的视点条件扩散方法可以进一步用于从单个图像进行 3D 重建的任务。定性和定量实验表明，我们的方法通过利用互联网规模的预训练，显着优于最先进的单视图 3D 重建和新颖的视图合成模型。

精选图片

Figure 1: Given a single RGB image of an object, we present Zero-1-to-3, a method to synthesize an image from a specified camera viewpoint. Our approach synthesizes views that contain rich details consistent with the input view for large relative transformations. It also achieves strong zero-shot performance on objects with complex geometry and artistic styles.

结论

在这项工作中，我们提出了一种新方法 Zero1-to-3，用于零样本、单图像新视图合成和 3D 重建。我们的方法利用了稳定扩散模型，该模型在互联网规模的数据上进行了预训练，并捕获了丰富的语义和几何先验。为了提取此信息，我们对合成数据的模型进行了微调，以学习对相机视点的控制。由于能够利用 Stable Diffusion 学习的强对象形状先验，因此产生的方法在多个基准测试中展示了最先进的结果。

COLT5: Faster Long-Range Transformers with Conditional Computation

https://arxiv.org/pdf/2303.09752.pdf

摘要

许多自然语言处理任务受益于长输入，但使用 Transformers 处理长文档非常昂贵——不仅因为二次注意力的复杂性，而且还因为对每个标记应用前馈和投影层。但是，并非所有标记都同等重要，尤其是对于较长的文档。我们提出了 COLT5，沿输入 Transformer 模型，该模型建立在这种直觉的基础上，采用条件计算，将更多资源投入到前馈层和注意力层中的重要标记。我们表明，COLT5 的性能比 LONGT5 更快，训练和推理速度更快，在长输入 SCROLLS 基准测试中达到 SOTA。此外，COLT5 可以有效且易于处理地利用极长的输入，显示高达 64k 输入长度的强大增益。

精选图片

Figure 1: An overview of a COLT5 Transformer layer with conditional computation. All tokens are processed by light attention and MLP layers, while q routed query tokens perform heavier attention over v routed keyvalue tokens and m routed tokens are processed by a heavier MLP.

Figure 2: COLT5 achieves stronger performance than LONGT5 at any speed. Average performance on all datasets as a function of inference and fine-tuning time per sample (ms) for LONGT5 and COLT5 Base, Large, and XL models. LONGT5 does not use MQA, but we report speed as though it had for a conservative baseline.

Figure 3: An overview of the COLT5 attention pattern. The light branch performs local attention for each token. In the higher capacity heavy branch q selected query tokens (2 in the figure) attend to v separately selected key and value tokens (4 in the figure).

结论

我们提出了 COLT5，这是一种用于远程输入的新模型，它采用条件计算以获得更高的质量和更快的速度。 COLT5 具有适用于整个输入的轻型前馈和注意层，以及仅适用于学习路由器选择的重要令牌子集的重型分支。我们表明，与 LONGT5 相比，COLT5 在各种长输入数据集上在任何速度下都能实现更强的性能，并且可以有效且高效地利用高达 64k 令牌的极长输入。

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

https://arxiv.org/pdf/2303.10056.pdf

摘要

基于扩散过程的文本到图像 (T2I) 模型在使用用户提供的说明的可控图像生成方面取得了显著成功。然而，当前 T2I 模型中文本编码器和图像解码器之间的紧密耦合使得替换或升级具有挑战性。此类更改通常需要进行大量微调，甚至需要花费高昂的费用从头开始进行培训。为了解决这个问题，我们提出了 GlueGen，它应用新提出的 GlueNet 模型来将单模态或多模态编码器的特征与现有 T2I 模型的潜在空间对齐。该方法引入了一个新的训练目标，该目标利用并行语料库来对齐不同编码器的表示空间。实证结果表明，GlueNet 可以得到有效的训练，并具有超越以前最先进模型的各种能力：1）多语言语言模型，如 XLMRoberta 可以与现有的 T2I 模型对齐，允许从英语以外的字幕生成高质量图像; 2）GlueNet可以将AudioCLIP等多模态编码器与Stable Diffusion模型对齐，实现声音到图像的生成； 3）它还可以升级当前的潜在扩散模型的文本编码器，用于具有挑战性的案例生成。通过对齐各种特征表示，GlueNet 允许将新功能灵活高效地集成到现有的 T2I 模型中，并阐明 X 到图像 (X2I) 的生成。

精选图片

Figure 1. Setting of GlueGen. GlueNet is trying to provide an adaptable portal for the Stable Diffusion model to input multimodal data, such as text, audio, i.e., (a) and (b), or text-audio hybrid signals, i.e. (c), for X-to-image generation.

Figure 2. Illustration of our desired GlueGen framework. With the proposed GlueNet model of the GlueGen framework, the pretrained image generator (i.e. UNet) can be bridged to off-the-shelf single- or multi-modal encoders to expand their functionalities, i.e., multilingual/sound-to-image generation, within a limited budget. GlueNet is trained offline and does not require back-propagation of UNet and image-text pairs for training. Therefore, GlueGen is flexible and efficient to achieve.

Figure 3. (a) Illustration of features transformation throughout the model translation/alignment. (b) The general pipeline and learning objectives of our proposed GlueNet. (c) Detailed architecture of GlueNet Encoder/Decoder.

结论

将预训练的条件编码器注入现有的 T2I 图像生成器是朝着更强大的 AI 系统迈进的一个令人兴奋的方向。然而，目前的编码器由于匹配紧密，不易升级。本文试图打破相应图文模型的强约束，实现灵活模块化和高效升级。为了解决严重的错位问题，我们提出了 GlueNet，其目标是跨模型对齐和原创性保护。根据经验，它有利于整体性能，并在有限的预算内实现 X-to-image 生成的多功能功能。我们希望这项工作能够对大型 AI 系统设计领域的社区有所启发。

上周重要论文摘要 2023-03-27

Sparks of Artificial General Intelligence: Early experiments with GPT-4

摘要

精选图片

结论

RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation

摘要

精选图片

结论

SemDeDup: Data-efficient learning at web-scale through semantic deduplication

摘要

精选图片

结论

FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

摘要

精选图片

结论

CoDEPS: Online Continual Learning for Depth Estimation and Panoptic Segmentation

摘要

精选图片

结论

LION: Implicit Vision Prompt Tuning

摘要

精选图片

结论

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

摘要

精选图片

结论

Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs

摘要

精选图片

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

摘要

结论

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

摘要

精选图片

结论

Zero-1-to-3: Zero-shot One Image to 3D Object

摘要

精选图片

结论

COLT5: Faster Long-Range Transformers with Conditional Computation

摘要

精选图片

结论

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

摘要

精选图片

结论

推荐阅读更多精彩内容