Google 在2月15日发布了最新的生成模型:Gemini 1.5 Pro。是一款多模态大模型,可以处理上下文长度达到1百万 token,包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词,高出目前市面上所有的基础生成模型。
Google 为了让用户更直观的感受到1百万 token 上下文长度的概念,做了3个演示 demo。
- 演示一:模型对视频数据的理解
输入数据为44分钟的视频。
- 演示二:模型对代码数据的理解
输入数据是 three.js 官网上全部的样例代码
- 演示三:模型对文档数据的理解
输入是402页的 PDF 文件
从这三个演示样例可以直观地感受到 Gemini 1.5 的以下能力:、
- 多模态能力(multimodal tokens):用来交互的数据可以是视频,文本,文本内容可以是文字语言,也可以是代码。
- 超长的上下文长度:可以轻松处理44分钟的视频,10万多行的代码,402页的 PDF 只用了其总容量的 1/3。
- 多模态提示(multimoudal prompt):可以将图片和文本一同作为输入处理,而且图片可以是抽象的线条画,模型可以根据这些抽象的信息从上下文找到对应内容。