深度学习硬件：FPGA vs GPU vs ASIC

朱海鹏

【嵌牛导读】深度学习作为新一代计算模式，近年来，其所取得的前所未有的突破掀起了人工智能新一轮发展热潮。深度学习模拟人类大脑运行机制，与传统计算模式迥异。深度学习的人工神经网络算法实际上是通过大量样本数据训练建立了输入数据和输出数据之间的映射关系，而传统计算架构计算资源有限，无法支撑深度学习的海量数据并行运算。因此，深度学习需要更适应此类算法的新的底层硬件来加速计算过程，目前主要的方式是使用已有的GPU、FPGA等通用芯片，同时IT 巨头争相开发专用计算芯片。

【嵌牛鼻子】深度学习硬件，FPGA，GPU，定制芯片

【嵌牛提问】GPU/FPGA运行深度学习算法都有什么优缺点？人工智能定制芯片（ASIC）相比前两者的优势？

【嵌牛正文】

目前以深度学习为代表的人工智能新计算需求，主要采用GPU、FPGA 等已有适合并行计算的通用芯片来实现加速。

在产业应用没有大规模兴起之时，使用这类已有的通用芯片可以避免专门研发定制芯片（ASIC）的高投入和高风险，但是，由于这类通用芯片设计初衷并非专门针对深度学习，因而，天然存在性能、功耗等方面的瓶颈。随着人工智能应用规模的扩大，这类问题将日益突出。

1、GPU 及其局限性

GPU 作为图像处理器，设计初衷是为了应对图像处理中需要大规模并行计算。因此，其在应用于深度学习算法时，有三个方面的局限性：

第一，应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节，GPU 在深度学习算法训练上非常高效，但在应用时一次性只能对于一张输入图像进行处理，并行度的优势不能完全发挥。

第二，硬件结构固定不具备可编程性。深度学习算法还未完全稳定，若深度学习算法发生大的变化，GPU 无法像FPGA 一样可以灵活的配置硬件结构。

第三，运行深度学习算法能效远低于FPGA。学术界和产业界研究已经证明，运行深度学习算法中实现同样的性能，GPU 所需功耗远大于FPGA，例如国内初创企业深鉴科技基于FPGA 平台的人工智能芯片在同样开发周期内相对GPU 能效有一个数量级的提升。

2、FPGA 及其局限性

FPGA，即现场可编辑门阵列，是一种新型的可编程逻辑器件。其设计初衷是为了实现半定制芯片的功能，即硬件结构可根据需要实时配置灵活改变。

研究报告显示，目前的FPGA市场由Xilinx 和Altera 主导，两者共同占有85%的市场份额，其中Altera 在2015 年被intel以167 亿美元收购（此交易为 intel 有史以来涉及金额最大的一次收购案例），另一家Xilinx则选择与IBM进行深度合作，背后都体现了 FPGA 在人工智能时代的重要地位。

尽管 FPGA 倍受看好，甚至新一代百度大脑也是基于FPGA 平台研发，但其毕竟不是专门为了适用深度学习算法而研发，实际仍然存在不少局限：

第一，基本单元的计算能力有限。为了实现可重构特性，FPGA 内部有大量极细粒度的基本单元，但是每个单元的计算能力（主要依靠LUT 查找表）都远远低于CPU 和GPU 中的ALU模块。

第二，速度和功耗相对专用定制芯片（ASIC）仍然存在不小差距。

第三，FPGA 价格较为昂贵，在规模放量的情况下单块FPGA 的成本要远高于专用定制芯片。

3、ASIC定制芯片

人工智能定制芯片是大趋势，从发展趋势上看，人工智能定制芯片将是计算芯片发展的大方向：

第一，定制芯片的性能提升非常明显。

例如 NVIDIA 首款专门为深度学习从零开始设计的芯片Tesla P100 数据处理速度是其2014 年推出GPU 系列的12 倍。谷歌为机器学习定制的芯片TPU 将硬件性能提升至相当于按照摩尔定律发展7 年后的水平。需要指出的是这种性能的飞速提升对于人工智能的发展意义重大。

中国科学院计算所研究员、寒武纪深度学习处理器芯片创始人陈云霁博士在《中国计算机学会通讯》上撰文指出：通过设计专门的指令集、微结构、人工神经元电路、存储层次，有可能在3~5 年内将深度学习模型的类脑计算机的智能处理效率提升万倍（相对于谷歌大脑）。提升万倍的意义在于，可以把谷歌大脑这样的深度学习超级计算机放到手机中，帮助我们本地、实时完成各种图像、语音和文本的理解和识别；更重要的是，具备实时训练的能力之后，就可以不间断地通过观察人的行为不断提升其能力，成为我们生活中离不开的智能助理。

第二，下游需求量足够摊薄定制芯片投入的成本。

人工智能的市场空间将不仅仅局限于计算机、手机等传统计算平台，从无人驾驶汽车、无人机再到智能家居的各类家电，至少数十倍于智能手机体量的设备需要引入感知交互能力。

而出于对实时性的要求以及训练数据隐私等考虑，这些能力不可能完全依赖云端，必须要有本地的软硬件基础平台支撑。仅从这一角度考虑，人工智能定制芯片需求量就将数十倍于智能手机。

第三，通过算法切入人工智能领域的公司希望通过芯片化、产品化来盈利。

目前通过算法切入人工智能领域的公司很多，包括采用语音识别、图像识别、ADAS（高级驾驶辅助系统）等算法的公司。由于它们提供的都是高频次、基础性的功能服务，因此，仅仅通过算法来实现商业盈利往往会遇到瓶颈。通过将各自人工智能核心算法芯片化、产品化，则不但提升了原有性能，同时也有望为商业盈利铺平道路。包括 Mobileye、商汤科技、地平线机器人等著名人工智能公司都在进行核心算法芯片化的工作。

人工智能专用芯片的涌现表明从芯片层面开启的新一轮计算模式变革拉开帷幕，是人工智能产业正式走向成熟的拐点。人工智能芯片发展路线图：

最后编辑于：2017.12.11 10:48:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

深度学习硬件：FPGA vs GPU vs ASIC

推荐阅读更多精彩内容