头条
Andrej Karpathy 离开 OpenAI
OpenAI 创始成员、特斯拉 Autopilot 团队前负责人 Andrej Karpathy 宣布离开 OpenAI,专注于个人项目。 他的退出并不是由于任何特定事件、问题或戏剧性事件。
NVIDIA 的新聊天机器人可以在PC 上本地运行
https://www.engadget.com/nvidias-new-ai-chatbot-runs-locally-on-your-pc-163406121.html
NVIDIA 推出了 Chat with RTX 演示,这是一个本地 PC 运行的聊天机器人,可以分析和总结各种文件格式的个人数据,甚至可以集成 YouTube 视频中的知识,旨在打造更加个性化的数字助理体验。 这项创新不需要云处理或敏感数据的互联网连接,目前仅限于配备特定 NVIDIA GPU 的 Windows PC。
研究
视频语言模型可以回答有关长达一小时的视频的问题
https://largeworldmodel.github.io/
该模型使用环注意力和微调的 7B 参数模型来准确回答百万令牌视频长度问题。 它的性能优于商业 VLM,并且在检索基准方面具有极其准确的性能。
Lumiere 文本到视频模型
https://lumiere-video.github.io/
谷歌有一个新的文本到视频模型,可以帮助将图像和样式作为输入。 它使用一种新颖的“时空UNet”来一次性扩散一切。
利用创意 AI 转场制作长视频
https://vchitect.github.io/SEINE-project/
SEINE 是一种以文本描述为指导的创新视频传播模型,旨在将人工智能生成的短视频剪辑扩展为更长的故事级序列,并具有无缝和富有想象力的场景过渡。
工程
MaGNET 音频生成模型 (GitHub Repo)
https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md
Facebook 发布了最先进的开源音频模型,其速度比其他模型快 7 倍,且质量不受影响。 它可以生成音乐和声音效果。 该论文现已上市。
大型语言模型中的隐私 (GitHub Repo)
https://github.com/iamgroot42/mimir
研究人员进行了一项全面的研究,探讨是否有可能判断一个数据点是否用于训练大型语言模型。 他们测试了各种模型,发现在大多数情况下,这些攻击并不比随机猜测更好。
值得信赖的自治代理 (GitHub Repo)
https://github.com/AAAI-DISIM-UnivAQ/DALI
该项目引入了先进的方法,以确保在依赖生命的应用中至关重要的自主智能代理即使在不断发展的过程中也能保持可信和道德。
杂七杂八
为什么“谈论你的数据”比你想象的更难
https://www.arcus.co/blog/chat
构建特定领域、基于聊天的 LLM 应用程序和副驾驶比人们想象的要困难。 其中一些挑战包括实现稳健的性能、处理复杂的数据和复杂的查询,以及为基于 LLM 的聊天应用程序实现稳健的数据检索。
无遮罩的文本驱动图像编辑
https://yuanze-lin.me/LearnableRegions_page/
研究人员开发了一种基于文本提示编辑图像的独特方法。 这种方法使用文本到图像模型和边界框生成器来识别要编辑的区域,从而无需遮罩或草图即可进行更改。
用于增强视频分类的视频注释器 (GitHub Repo)
https://github.com/netflix/videoannotator
视频注释器框架让领域专家直接参与注释过程。 这种新方法将人类专业知识与零样本和主动学习技术相结合,提高了模型的准确性和效率。
PressPulse (Product)
https://www.presspulse.ai/
使用人工智能建立媒体提及。
英伟达现在的市值相当于整个中国股市的市值
https://finance.yahoo.com/news/nvidia-now-worth-much-whole-010315545.html
得益于人工智能的蓬勃发展,NVIDIA 的市值已达到 1.7 万亿美元,相当于所有在香港证券交易所上市的中国公司的市值总和。
Reor (GitHub Repo)
https://github.com/reorproject/reor
一款在本地运行模型的人工智能笔记应用程序。