在人工智能时代,数据、算法、算力被称为拉动生产力的三驾马车,那么在现阶段,三者谁会更重要?
《2019-2020中国人工智能计算力发展评估报告》提到,海量的数据每时每刻都在产生,新的数据正以前所未有的速度和方式存储下来,数据不再是问题;而算法经历了数十年的发展,在深度学习和加速计算出现之后,得到了迅速的发展和优化,以最新的MegatronLM语言模型为例,该模型包含了接近百亿个参数。如此一来,算力很可能成为承载和推动人工智能走向实际应用的基础平台和决定性力量。可以预见,未来随着数据持续爆炸性增长以及算法的不断演进,算力的需求缺口将会越来越大。于是一种崭新的算力服务形式出现了,这就是超算即服务(supercomputing as a service)
超算即服务:看起来很美
导弹和军用直升机上的电子设备需要工作在极端条件下。美国国防承包商麦考密克·史蒂文森公司(McCormick Stevenson Corp.)在部署任何物理设备之前都会事先模拟各种真实条件,以测试设备所能承受的极限。这种模拟依赖于像 Ansys 这样的有限元素分析软件,而该软件需要海量的的算力支持。
一直以来麦考密克·史蒂文森公司都使用本地的超级计算机来提供算力支持,然而几年前的一天,它超出了计算极限。由于考虑到购置新计算设备及安装软件所需要的大量费用以及较长的周期,麦考密克·史蒂文森公司选择与 Rescale 签约,后者提供超级计算机的算力给到麦考密克·史蒂文森公司,而这只花费了他们购买新硬件上所需的一小部分,并且他们可以立刻使用这部分算力。
没有硬件购置成本,省略环境部署周期,不需要额外的运维,以往因为这些成本而对HPC能力望而却步的中小型用户也能负担得起了。看起来超算即服务的优势是如此明显,似乎颠覆传统的超级计算市场也指日可待。
崭露头角的超算即服务
从最终用户的角度来看,超算即服务类似于早期大型机时代的批处理模型。比如前文提到的麦考密克·史蒂文森公司,他们创建一个 Ansys 批处理文件并将其发送过去,运行它,然后将结果文件下载并导入到本地。
但实际上,云计算提供商的超算设备可能并不是“天河”或者“太湖之光”之类的Top500超算。正如 IBM OpenPOWER 计算技术副总裁 Dave Turek 解释的那样,超算即服务的核心是“将大量服务器集合在一起,在你需要时通过并行工作来提供算力。”
理论听起来很简单。但要使其在实践中可行,需要解决一些技术问题。普通计算与 HPC 的区别在于HPC的计算单元之间的互联是高速且低延时的。普通计算设备要达到HPC的标准,就必须通过云基础架构将存储性能和数据传输也提升到与本地 HPC 相同的水平。
正如前面提到的,超算即服务的出现让以前负担不起传统HPC的中小用户也能用得起了,市场因此更加开放,越来越多的用户开始了解并尝试使用,也使成本进一步降低。
弹性、高效、经济的超算即服务
超算即服务适合批处理和松耦合的场景。这与一个常见的 HPC 短板有关:数据传输问题。高性能计算通常涉及庞大的数据集,而将所有数据通过互联网传送到云服务提供商是需要成本的,这个成本包括金钱与时间。
IBM 的 Turek 说:“我们与生物技术行业的客户交流,他们每月仅在数据费用上就花费上千万美元。”
而且钱并不是唯一的问题。如此海量的数据的上传需要耗费漫长的时间,对于突发性的任务来说这些时间的浪费可能是致命的。而使用网速更快的VPN专线意味着又是一笔巨大的开支。更要命的是,这些数据并不能一直保存在云端,这意味着每次使用都需要重新上传所有数据,而不能像使用本地HPC集群时,可以将大量基础数据集或仿真结果存储在本地,从而使新的项目可以立刻开展。
超算即服务的服务形式使它的管理跟传统的方式有很大区别。例如,你需要注意你的软件是否允许云使用 —— 尤其是专门为本地 HPC 群集上运行而编写的软件。
另外,在成本管理上你可能也会面临新的问题。在使用本地HPC集群时,成本管理小组只需要关注软硬件购置成本与日常维护支出;但云计算时代,计算成本变得复杂且海量,成本管理难度大大提高。
超算即服务的未来:兼容性与专业性
一直以来,普及 HPC 的最大障碍之一就是其所需的复杂的环境部署和运维。但大多数超算即服务提供商(包括云计算服务商及超算中心)并没有完全解决这个问题,他们大多还处在单纯提供计算能力的阶段。问题是高性能计算并不是一个简单的商品,其涉及高带宽、低延迟的网络互联的高端计算节点,以及相当复杂的应用和中间件技术栈,甚至连文件系统层也是 HPC 环境所独有的。而对 HPC 有需求的行业涉及到 AI、生物科技、金融、模拟仿真、3D 视频处理、材料学等等,它们之间的差别可以说判若鸿沟。同一个超算即服务供应商的平台可能要对接数十个行业,上百种运行环境,数以百计的专业软件,甚至还会有用户要求提供云端与本地的混合计算,这对超算即服务平台的兼容性和专业性都提出了很高的要求,没有完善的技术支持可能会破坏整个项目运行的稳定性,甚至完全无法使用。这使得很多历史悠久,一直使用本地 HPC 的单位(比如研究机构、高校)在接受超算即服务的过程中需要更高的学习成本。幸好,已经开始有超算即服务的供应商认识到这一点,并开始竭尽全力地进行超算即服务兼容性及专业性方面的尝试。
总结一下,超算即服务要获得更加广泛的市场认同,必须具备以下几点:
1、充足的计算资源:这是作为超算即服务的基本条件;
2、弹性的使用方式:让用户可以按需使用,充分展示云计算的优势;
3、高速的传输网络:减少数据传输的时间损耗,同时提升传输的安全性;
4、更多的应用支持:专业软件对云计算的支持程度直接影响用户对超算即服务的态度
5、兼容性与专业性:兼容性的提升会降低用户的运维难度,而专业性的提升可以降低用户的学习成本,帮助用户提高计算的效率。
云E弹性算力平台
国内弹性算力技术领导者云端软件推出的云E弹性算力平台就是目前国内超算即服务领域的佼佼者。云E弹性算力平台整合了全球主流公有云近50个地域的高性能计算资源,能为人工智能、仿真模拟、生物医药、材料化学等需要高性能计算的行业提供近乎无限的算力支持。
开箱即用的云E平台无需硬件投入、无需运营维护、无需任务排队,具备自主学习与深度学习能力,能够根据用户的算例类型与计算要求智能推荐匹配合适的计算机型,将计算的虚拟损耗降至最低。
日前,云端软件就在云E弹性算力平台上推出了VirtualFlow 高通量虚拟筛选解决方案(详见前文:VirtualFlow+Cloudam,轻松将虚拟筛选提速28万倍)。他们调集了100000核CPU,仅用3小时就完成了1亿量级的化合物虚拟筛选任务。而根据哈佛大学医学院的研究显示,如果使用300核规模的本地HPC 资源来处理,大概需要6周时间才能完成同样的任务。这一测试充分体现了云E弹性算力平台对于虚拟筛选方面的支持已经非常高效与稳定。除此之外,云E还稳定支持包括Gaussion16、LigandScout、Torch、Lammps、VASP、Fluent在内的超过200种专业软件,涵盖仿真模拟、生物医药、材料化学等多个行业。
云端相信,在人工智能时代,超算即服务领域必将迎来市场大爆发。云端软件将竭尽所能,提升云E产品的可用性,帮助用户提升计算效率,降低计算成本,将超算即服务真正带给每一个需要高性能计算的用户。
参考文献:Josh Fruhlinger . High-performance computing as a service: What you need to know.