4 月 21 日,英伟达发布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架构、最新制程的性能和软硬件体系加持,为众多科技公司在 AI 推理和训练时带来了新的选择。该公司预计在今年夏季,新款芯片即将会出现在众多公司的云服务器中。
对于熟悉机器学习领域的人们来说,每隔一两年推出的新一代 GPU,是他们最为关注的新动向。英伟达的旗舰芯片算力也总是其它芯片创业公司用来比较的标杆。
但对那些希望寻找人工智能最合适算力的研究者们来说,GPU 因为「过于通用」,常常会被认为并非 AI 的最终解决方案。但迄今为止,英伟达 GPU 仍然占据市场的主流。在 GPU 引领深度学习技术爆发之后,AI 芯片领域还会出现新的变化吗?
和 AI 算法应该怎么写一样,人们对于芯片应该怎么造的思考其实一直都没有停止,芯片领域里下一个大方向可能在于「特定领域的体系结构(DSA)」。
计算机架构传奇人物、2017 年图灵奖获得者 John Hennessy 和 David Patterson 在 2019 年发表于 ACM 杂志上的文章《计算机架构的新黄金时代》中曾提出:当摩尔定律不再适用之后,一种更加以硬件为中心的设计思路——针对特定问题和领域的架构 DSA 将会展现实力。这是一种特定领域的可编程处理器,它仍是图灵完备的,但针对特定类别的应用进行了定制。
John L. Hennessy 和 David A. Patterson,两人合著有《计算机体系结构:量化研究方法》一书。
从定义上来看,DSA 与专用集成电路 ASIC 不同,后者仅适用于单一功能,运行其上的代码很难进行修改。DSA 板卡通常被称为加速器,因为与在通用 CPU 上执行整个应用程序相比,它们可以加速某些应用程序。此外,DSA 可以实现更好的性能,因为它们更贴近应用的实际需求。DSA 的例子包括最常见的图形加速单元(即 GPU),用于深度学习的神经网络处理器,以及软件定义处理器(SDN)。在特定领域的应用中,DSA 的效率更高,能耗更低。
通常,适用于 AI 推理的 DSA 处理器无法应用于高性能通用计算、光线渲染等任务,但又不像 ASIC 那样只能胜任很少的一些固化算法任务。在人工智能的任务上,DPU 芯片可以有很高的通用性,既支持 NLP,又支持计算机视觉和语音的任务处理,还可以通过 TVM 等工具覆盖各种机器学习框架。
如果说体系架构大师展望的技术方案是 DSA 成立的充分条件,那么科技公司对于 AI 算力的需求就是 DSA 芯片形成突破的必要因素。
目前,想要通过各种方法来构建一块 GPU,与英伟达实现相似的性能仍然非常困难。但在以数据中心为核心的互联网新时代,国内头部互联网公司的规模为整个行业带来了前所未有的 AI 落地场景。如果能够准确找到落地需求,构建高效的 AI 加速器,不仅可以大幅提升机器学习的价值,或许还能催生出潜在的新市场。
在这种情况下,能够搞清应用方向就成为了 DSA 能否成功的关键。如今科技公司需要深度学习推断的业务包括推荐系统、内容审核、AI 教育、人工智能客服、图文翻译等各种方面。围绕这些业务,所有互联网厂商都产生了大量算力需求。
对于一家半导体公司来说,要想打造一块能够完成这些任务的芯片,其设计要符合客户应用场景、底层需求,具备高效的实现方式,同时也要在交付成本、维护服务、更新迭代的速度、软件友好的程度,甚至销售策略上具备竞争力。
体系结构之外,另一个契机在于指令集,RISC-V 兴起也在让芯片领域发生着变化,它的模块化和可扩展性完美地匹配 DSA 灵活高效的技术需求。
诞生于 2010 年的 RISC-V 是一个开源的精简指令集架构,适用于创建微处理器和微控制器。最早由美国加州大学伯克利分校(UC Berkeley)的 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等开发人员于 2010 年提出,又得到了计算机体系结构大师 David Patterson 的支持。这个架构允许开发者免费开发和使用,包括直接在芯片上进行商业化实现。
今年 1 月,外媒报道称顶级芯片设计大师 Jim Keller 加入了初创公司 Tenstorrent,担任 CTO 以及董事会成员。
据了解,Tenstorrent 设计的是高性能 AI 训练和推理,异构架构 AI SoC。该公司设计了针对机器学习优化的 Tensix 处理器内核,为了运行传统的工作负载,Tenstorrent 的 SoC 使用 SiFive 的新型通用智能 X280 内核,而 X280 是一个 64 位的 RISC-V 内核,集成了 512 位宽的 RISC-V 矢量指令扩展(RVV)。
无独有偶,美国的芯片设计公司 Pixilica 已与 RV64X 团队合作,提出了一套新的图形指令集,旨在融合 CPU-GPU ISA,并将其用于 3D 图形和媒体处理,从而为 FPGA 创建了开源参考实现。Europena 工具开发商 Codasip 的高级市场总监 Roddy Urquhart 表示,这是 RISC-V 生态系统的优势之一:「如果要创建特定于领域的处理器,关键任务之一就是选择符合软件需求的指令集架构(ISA)。」
「有些公司选择从头开始创建指令集,但是如果你有这样的 ISA,则可能要付出移植软件的代价。现在,RISC-V 开放式的 ISA 可以提供一个很好的起点和一个软件生态系统,」Urquhart 表示。RISC-V ISA 以模块化的方式设计,使处理器设计人员不仅可以添加任何标准扩展,还可以创建自己的自定义指令,同时保持完整的 RISC-V 兼容性。
「为特定领域的处理器选择了起点,然后有必要弄清楚需要哪些特殊指令来满足你的计算要求。这需要仔细分析你需要在处理器核心上运行的软件。概要分析工具可以识别计算热点,一旦了解,设计人员就可以创建自定义指令来解决这些热点。」
虽然基于 Arm 架构设计的处理器已出现在几乎所有智能手机及数十亿电子设备中,但越来越多人在将目光转向 RISC-V。Linux 的主要开发者 Arnd Bermann 就认为,到 2030 年我们将看到三种体系结构:Arm、RISC-V 和 X86 占据市场大部分份额。然而对于 DSA 而言,显然 RISC-V 拥有巨大的优势。
科技公司自造芯片是不是最合理的方式?一些公司已经提出了深度结合自身业务,并与软件体系绑定,可以进行 AI 模型训练的芯片,包括亚马逊的 Inferentia 和 Trainium、谷歌 TPU 等等。但这些算力仅限于对于各家公司自有业务体系进行特化,面向的范围有限。
从一些大厂最近的行动中,我们可以看出人们的思考变化:百度等公司的 AI 芯片业务已经独立,而腾讯、字节跳动等公司则选择了投资创业公司的方式,希望能够培养出面向广泛市场的新体系。
自 2010 年左右深度学习技术大发展至今,我们见证过寒武纪、昇腾等芯片横空出世,又被谷歌、亚马逊的技术能力所惊艳,但在无尽的算力需求下,国内 AI 芯片爆发的时代似乎依然还没有到来。
但在最近,指令集、体系架构和人工智能应用的落地已经让情况发生了变化。随着字节跳动等投资 AI 芯片创业公司快速流片成功,专属推理芯片的应用获得良好效果,在科技领域里发展 DSA 芯片的新风向正在出现。
在芯片产品生命的周期中,如果有一家创业公司可以更加理解场景,定义出最合适的方案,最快地做出实现,就可以获得相对领先的位置。同时,如果这种新的机制催生出了足够高效的算力,科技公司的开发者们也可以创造出更多的 AI 应用。
根据目前的估算,国内市场每年会出现 20-30 万片的 AI 推理计算版卡需求。对于国内的创业者来说,这或许会是一个前所未有的发展机会,实力强大的工程师团队将会在新的竞争过程中脱颖而出。