头条
Nvidia 的新模型,击败了 GPT-4
Nvidia 的新 AI 模型 Llama-3.1-Nemotron-70B-Instruct 超越了 OpenAI 和 Anthropic 设定的性能基准。该模型标志着 Nvidia 从硬件到复杂 AI 软件的战略扩张。通过推进纯文本和多模式模型,Nvidia 挑战现有的行业领导者并重塑 AI 竞争格局。
使用 Google 的 NotebookLM 自定义音频概览
https://blog.google/technology/ai/notebooklm-update-october-2024/
NotebookLM 现在允许用户定制他们的音频概览体验,从而更好地控制 AI 主机的重点和专业知识。企业可以申请新的 NotebookLM Business 试点计划,该计划提供增强的专业用途工具。
麻省理工学院研究人员将下一个Token 预测和视频扩散相结合用于机器人技术
一种新方法将下一个标记预测和视频扩散相结合,使神经网络能够在预测未来步骤的同时清理损坏的数据。这种方法增强了模型生成高质量视频、为机器人创建灵活计划以及协助 AI 代理在数字环境中导航的能力。
研究
Meta 发布“Movie Gen Bench”
https://github.com/facebookresearch/MovieGenBench
“Movie Gen Bench”是用于评估视频(Video Bench)和音频(Audio Bench)性能的评估基准。它由 1,003 个提示组成,涵盖了所有不同的测试方面/概念。
Meta Decision Transformer
https://arxiv.org/abs/2410.11448
Meta Decision Transformer (Meta-DT) 旨在通过将基于 Transformer 的顺序建模与强大的任务表示学习相结合来提高强化学习中的泛化能力。
增强长文本的文本到图像对齐
https://github.com/luping-liu/longalign
LongAlign 通过引入段级编码和分解偏好优化,提高了文本到图像 (T2I) 扩散模型处理长文本输入的能力。
工程
用于图像生成的自回归模型
https://github.com/DAMO-NLP-SG/DiGIT
DiGIT 是一种自回归生成模型,它使用自监督学习预测潜在空间中的标记。它是一个离散标记器,通过对来自 DINOv2 的隐藏状态进行聚类来改进 ImageNet 上的图像生成。
高效联邦学习
https://github.com/FLAIR-Community/Fling
FedPart 方法通过在每轮训练期间将模型更新限制到特定层来解决联邦学习中的层不匹配问题。
分布式训练指南
https://github.com/LambdaLabsML/distributed-training-guide
这是一份关于分布式训练、诊断错误和充分利用所有可用资源的最佳实践的综合指南。
杂七杂八
生成式 AI 的投资回报率在哪里?从供应链开始
https://www.bigtechnology.com/p/wheres-the-generative-ai-roi-start
生成式 AI 通过高效处理非结构化文档来改变供应链运营,从而节省大量时间和成本。供应链技术公司 Flexport 已成功整合 AI 来自动化和简化文档处理,将处理时间缩短了 80%。这种 AI 应用证明了其在实际的创收任务中的价值,而不是更具投机性的 AI 进步。
追随安静的声音,寻找人工智能的真相
https://www.thealgorithmicbridge.com/p/follow-the-quiet-voices-to-find-ais
人工智能话语两极分化,支持人工智能和反对人工智能的对立派系主导着对话。目前,这场辩论中缺少以超越二元观点的细致入微的视角看待人工智能的综合思想家。当人工智能变得不那么有争议,并更多地融入日常生活时,这些寻求真相的人最终可能会回归。
人工智能聊天机器人能理解而人类无法理解的隐形文本?是的,这是真的
最近的研究强调了 LLM 中的漏洞,例如提示注入和 ASCII 走私,这些漏洞允许攻击者隐藏用户不可见但模型可读的指令或数据。不可见的 Unicode 字符可用于 Claude 和 Copilot 等 AI 聊天机器人中,以嵌入和提取恶意负载和敏感数据。这带来了重大的安全风险。虽然 OpenAI 和 Microsoft 等一些 AI 平台已经实施了缓解措施,但 AI 处理人类无法察觉的数据这一更广泛的问题仍在挑战安全协议。
Google 通过 AI 和个性化推荐信息流增强购物标签
Google 正在通过 AI 增强其购物标签,以定制产品搜索并提供详细的 AI 简介。
Adobe 的 Project Super Sonic 使用 AI 为您的视频生成音效
Adobe 的 Project Super Sonic 使用文本转音频、对象识别和语音输入为视频项目生成音效。
白宫考虑将 Nvidia 和 AMD 的 AI 芯片出口限制扩大到其他国家
出于国家安全原因,拜登政府正在考虑限制 Nvidia 和 AMD 向波斯湾国家销售 AI 芯片。