当前位置:首页 >娱乐 >

AI 模型训练成本上升凸显对新解决方案的需求

来源： 2021-10-18 10:10:23

本周，微软和英伟达宣布，他们训练了他们声称是迄今为止最大、最强大的人工智能语言模型之一：威震天-图灵自然语言生成(MT-NLP)。MT-NLP 包含 5300 亿个参数——从历史数据中学习的模型部分——并在包括阅读理解和自然语言推理在内的广泛任务中实现了领先的准确性。

但是建造它并不便宜。训练在 560 台 Nvidia DGX A100 服务器上进行，每台服务器包含 8 个 Nvidia A100 80GB GPU。专家将成本定为数百万美元。

与其他大型 AI 系统一样，MT-NLP 对机器学习前沿研究方法的可访问性提出了质疑。人工智能培训成本在 2017 年至 2019 年间下降了100 倍，但总数仍超过大多数初创公司、政府、非营利组织和大学的计算预算。这种不平等有利于拥有非凡资源的公司和世界超级大国，而牺牲较小的参与者，巩固了现有的优势。

例如，10 月初，阿里巴巴的研究人员详细介绍了 M6-10T，这是一个包含 10 万亿个参数(大约是 OpenAI 的GPT-3大小的 57 倍)的语言模型，在 512 个 Nvidia V100 GPU 上训练了 10 天。通过 Google Cloud Platform 提供的最便宜的 V100 计划每小时收费 2.28 美元，相当于超过 300,000 美元(每小时 2.28 美元乘以 10 天的 24 小时)——这超出了大多数研究团队的承受能力。

据估计，谷歌子公司 DeepMind 已斥资 3500 万美元训练一个系统来学习中国棋盘游戏。当公司的研究人员设计一个模型来玩星际争霸 II 时，他们故意没有尝试多种方法来构建一个关键组件，因为培训成本太高了。同样，OpenAI 在实施 GPT-3 时也没有修复错误，因为训练成本使得重新训练模型不可行。

前进的道路

重要的是要记住，训练成本可能会因算法技术方面以外的因素而膨胀。正如斯坦福大学名誉教授兼人工智能初创公司 AI21 Labs 的联合创始人 Yoav Shoham 最近告诉Synced 的那样，个人和组织的考虑通常会影响模型的最终价格。

“[A] 研究人员可能不耐烦等待三周进行彻底分析，他们的组织可能无法或不想为此付费，”他说。“所以对于同样的任务，一个人可能会花费 10 万美元或 100 万美元。”

尽管如此，华为的盘古阿尔法、Naver 的HyperCLOVA和北京人工智能研究院的武道 2.0等算法的训练和存储成本不断增加，正在催生一个旨在“优化”模型而不降低准确性的初创企业。本周，英特尔前高管 Naveen Rao 成立了一家新公司 Mosaic ML，提供工具、服务和培训方法，以提高 AI 系统的准确性，同时降低成本和节省时间。Mosaic ML 已经筹集了 3700 万美元的风险投资，与 Codeplay Software、OctoML、Neural Magic、Deci、CoCoPie 和 NeuReality 在这个预计在未来几年呈指数增长的市场展开竞争。

一个好消息是，过去几年基本机器学习操作的成本一直在下降。2020 年 OpenAI 的一项调查发现，自 2012 年以来，将模型训练到在流行的基准(ImageNet)中对图像进行分类具有相同性能所需的计算量每 16 个月就减少了两倍。

在训练之前进行网络修剪等方法可能会带来进一步的收益。研究表明，训练后修剪的参数(一个减小模型大小的过程)本可以在训练前进行修剪，而不会对网络的学习能力产生任何影响。被称为“彩票假设”的想法是模型中接收的初始值参数对于确定它们是否重要至关重要。修剪后保留的参数接收“幸运”初始值;只有存在这些参数，网络才能成功训练。

然而，网络修剪远非一门已解决的科学。必须开发在早期训练之前或早期进行修剪的新方法，因为大多数当前方法只能追溯应用。并且当参数被修剪时，得到的结构并不总是适合训练硬件(例如，GPU)，这意味着修剪 90% 的参数不一定会将训练模型的成本降低 90%。

无论是通过修剪、新颖的 AI 加速器硬件，还是元学习和神经架构搜索等技术，对无法实现的大型模型的替代方案的需求正在迅速变得清晰。马萨诸塞大学阿默斯特分校的一项研究表明，使用 2019 年的方法，训练一个错误率为 5% 的图像识别模型将花费 1000 亿美元，并且产生与纽约市一个月内产生的碳排放量一样多。正如 IEEE Spectrum 的编辑团队在最近的一篇文章中所写的那样，“我们必须要么适应我们进行深度学习的方式，要么面对进展缓慢得多的未来。”

AI 模型训练成本上升凸显对新解决方案的需求

本周，微软和英伟达宣布，他们训练了他们声称是迄今为止最大、最强大的人工智能语言模型之一：威震天-图灵自然语言生成(MT-NLP)。MT-NLP