当前位置:首页 >娱乐 >

亚马逊推出由Habana的AI加速器芯片驱动的AWS实例

来源:   2021-10-28 10:31:02

亚马逊云服务部门亚马逊网络服务 (AWS) 今天宣布Elastic Compute Cloud (EC2) DL1 实例全面上市。亚马逊表示,虽然新的实例类型通常不是特别新颖,但 DL1(特别是 DL1.24xlarge)是 AWS 中第一种专为训练机器学习模型而设计的类型,由英特尔旗下 Habana 实验室的 Gaudi 加速器提供支持。

在今天的发布之前,包括 Seagate、Fractal、Indel、Riskfuel 和 Leidos 在内的开发人员可以抢先体验在 AWS 上运行的 Gaudi。“这是AWS的第一AI训练实例,它是不是基于GPU的,”哈瓦那在博客中写道岗位。“创建这个新训练实例类的主要动机是 Andy Jassy 在 2020 年 re:Invent 中提出的:'为我们的最终客户提供比当前一代基于 GPU 的实例高 40% 的性价比。'”

更便宜的模型训练

随着企业意识到在其组织中部署 AI 模型的业务影响,机器学习正成为主流。使用机器学习通常首先通过从数据集中学习来训练模型来识别模式,然后将模型应用于新数据以进行预测。保持模型的预测准确性需要频繁地重新训练模型,这会占用大量资源,从而导致费用增加。据估计,谷歌子公司 DeepMind 已花费 3500 万美元训练一个系统来学习中国棋盘游戏。

借助 DL1——AWS 对谷歌张量处理单元 (TPU)的第一个答案,一套运行在谷歌云平台上的自定义加速器芯片——亚马逊和 Habana 声称,AWS 客户现在可以更快地训练模型,性价比提高高达 40%与最新的 GPU 驱动的 EC2 实例相比。DL1 实例利用多达 8 个专为加速训练而构建的 Gaudi 加速器,搭配 256GB 高带宽内存、768GB 系统内存、第二代亚马逊自定义英特尔至强可扩展 (Cascade Lake) 处理器、400 Gbps 网络吞吐量、以及高达 4TB 的本地 NVMe 存储。

Gaudi 在 AI 芯片上采用了业界首个通过以太网(RDMA 和 RoCE)进行远程直接内存访问的片上实现。这提供了 10 个 100Gbps 或 20 个 50Gbps 通信链路,使其能够扩展到多达“数千”个分立加速器卡。当来自基于 GPU 或 CPU 的实例时,由于架构差异,客户必须使用 Habana 的 SynapseAI SDK 来迁移现有算法。Habana 或者在其 GitHub 存储库中提供用于图像分类、对象检测、自然语言处理和推荐系统的预训练模型。

“机器学习的使用激增。然而,训练机器学习模型的挑战之一是计算密集型,并且随着客户改进和重新训练他们的模型而变得昂贵,“AWS EC2 副总裁大卫布朗在一份声明中说。“AWS 已经为任何机器学习项目或应用程序提供了最广泛的强大计算选择。添加具有 Gaudi 加速器的 DL1 实例为云中基于 GPU 的实例提供了迄今为止最具成本效益的替代方案。他们的价格和性能的最佳组合使客户能够降低训练成本、训练更多模型并加快创新速度。”

评估竞争

在 2021 年 6 月 MLPerf Training(人工智能训练硬件的行业基准)的结果中,一个八高迪系统用了 62.55 分钟来训练流行的计算机视觉模型 ResNet 的变体,用 164.37 秒来训练自然语言模型 BERT。MLPerf Training 显示,很难直接与最新一代谷歌 TPU 进行比较,但 4,096 个第四代 TPU (TPUv4) 可以在大约 1.82 分钟内训练一个 ResNet 模型,而 256 个 TPUv4 芯片可以在 1.82 分钟内训练一个 BERT 模型。

除了表面上的性能优势之外,DL1 还可以节省成本——或者亚马逊和哈瓦那断言。与三个基于 GPU 的实例——p4d.24xlarge(具有八个 Nvidia A100 40GB GPU)、p3dn.24xlarge(八个 Nvidia V100 32GB GPU)和 p3.16xlarge(八个 V100 16GB GPU)相比——DL1 每小时提供一次按需服务训练 ResNet 模型时的费用为 13.11 美元。相比之下,p3 每小时 24.48 美元,p4d 每小时 32.77 美元。

与八高迪系统 (12,987) 相比,八个 A100 40GB GPU 在训练期间每秒可以处理更多图像 (18,251)。但是 Habana 更强调其芯片的效率,而不是原始吞吐量。

“根据 Habana 对各种 EC2 实例的测试以及亚马逊公布的定价,我们发现,相对于 p4d 实例,DL1 在训练 ResNet-50 方面节省了 44% 的成本。对于 p3dn 最终用户,训练 ResNet-50 的成本节省了 69%,”Habana 写道。“虽然……高迪没有像 7 纳米……A100 GPU 那样封装那么多晶体管,但高迪的架构——从头开始设计以提高效率——实现了更高的资源利用率,并且比 GPU 架构包含更少的系统组件。因此,较低的系统成本最终可以为最终用户提供更低的价格。”

未来发展

当英特尔于 2019 年 12 月以大约 20 亿美元的价格收购Habana 时,其 Nervana 部门开发的人工智能加速器硬件黯然失色,这似乎是这家芯片巨头的明智之举。事实上,在去年的 re:Invent 会议上,Jassy 透露 AWS 已经投资了 Habana 的芯片,以加快他们的上市时间。

正如 EETimes 的一篇文章所指出的那样,到目前为止,云提供商在投资具有新计算架构以实现 AI 加速的第三方芯片时一直很谨慎。例如,百度提供昆仑,而阿里巴巴开发含光。来自初创公司Graphcore和 Groq 的芯片分别在微软的 Azure 云和 Nimbix 中可用,但优先考虑“推动机器学习边界”的客户。

DL1 实例将与亚马逊的AWS Trainium硬件并驾齐驱,后者是今年向 AWS 客户提供的定制加速器。至于 Habana,该公司表示正在开发下一代 Gaudi2 AI,它将 Gaudi 架构从 16 纳米提升到 7 纳米。

DL1 实例可作为按需实例、储蓄计划、预留实例或现货实例购买。它们目前在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)AWS 区域可用。

相关文章

TOP