头条
麻省理工学院的通用机器人训练
https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028
麻省理工学院的研究人员引入了异构预训练 Transformers (HPT),这是一种受大型语言模型启发的新模型架构,可使用来自不同领域和模式的数据来训练多功能机器人。
Google 将语音技术支持扩展到另外 15 种非洲语言
https://blog.google/around-the-globe/google-africa/africas-digital-decade/
Google 已在其平台上为另外 15 种非洲语言引入语音识别功能,包括语音搜索、Gboard 语音输入和翻译听写。此次更新使大约 3 亿非洲人能够以自己的母语与数字内容互动。
研究
具有最小 3D 归纳偏差的视图合成
https://haian-jin.github.io/projects/LVSM/
长期以来,人们一直认为新颖的视图合成需要强大的 3D 归纳偏差。这项工作表明,通过规模和一些弱归纳偏差,大大超越以前认为的限制。
使用每个标记潜在扩散的连续语音合成
https://arxiv.org/abs/2410.16048
自回归模型在许多情况下仍然占主导地位。然而,最近对图像扩散头的研究启发了连续 AR 扩散。这项工作将每个标记扩散思想扩展到可变长度输出。
遥感中的变化检测
https://arxiv.org/abs/2409.16261v1
本文引入了变化描述指令数据集来微调 LMM,以实现更好的遥感变化检测。
工程
Flux IC light
https://github.com/lllyasviel/IC-Light/discussions/98
IC Light 是目前将图像与预训练的文本到图像主干关联起来的最佳方式。本次讨论是将该功能扩展到强大的 Flux 模型的开始。
用于 3D 场景生成的场景语言
https://github.com/zzyunzhi/scene-language
从头开始生成 3D 场景具有挑战性,原因有很多,例如数据限制。这项工作引入了一种类似编程语言来描述 3D 场景,并表明 Claude Sonnet 可以生成极具吸引力的场景,尽管他没有接受过这项任务的明确训练。
3D 语义分割
https://arxiv.org/abs/2410.19446v1
FtD++ 是一种跨模态学习方法,可改善 3D 语义分割的无监督域自适应。
杂七杂八
Gemma 2B 上交叉编码器的开源复制
Anthropic 最近发布了两篇作品,重点介绍了其新的可解释性方法。这篇文章是 Gemma 2B 上交叉编码器的开源复制。
分布外图学习方法集
https://github.com/kaize0409/awesome-graph-ood
此存储库列出了有关分布外图学习的论文,涵盖三个主要场景:图 OOD 泛化、训练时图 OOD 适应和测试时图 OOD 适应。
像 AI 一样思考
https://www.oneusefulthing.org/p/thinking-like-an-ai
LLM 充当复杂的自动完成系统,根据训练数据和当前输入预测下一个标记。输入的微小变化会影响预测,即使是同一个问题也会导致不同的输出。了解标记预测、训练数据上下文和内存限制可以帮助改进 AI 的使用。
多模态 Web 代理
https://github.com/minorjerry/openwebvoyager
OpenWebVoyager 提供工具、数据和模型,用于开发能够通过真实世界的 Web 交互进行导航和学习的多模态 Web 代理。
动画自动着色
https://ykdai.github.io/projects/InclusionMatching
研究人员推出了一种新颖的包含匹配方法,解决了自动着色的挑战,尤其是在动画中,遮挡和皱纹可能会破坏传统的片段匹配。
Lofi 音乐数据集
https://huggingface.co/datasets/vikhyatk/lofi
由音乐生成模型生成的音乐片段和详细文本描述的数据集。