您当前浏览的是：首页 > 科技 > 512颗GPU、10万亿参数！阿里达摩院发布全球大AI预训练模型能耗仅为1%

512颗GPU、10万亿参数！阿里达摩院发布全球大AI预训练模型能耗仅为1%

作者：顾晓芸来源：快科技发布时间：2021-11-09 11:34

日前，阿里巴巴达摩院公布了多模态大模型M6的最新发展，其参数已从万亿跃升至10万亿，成为全球最大的AI预训练模型。

作为一个通用的AI模型，M6具有多模态，多任务能力，尤其擅长设计，写作，问答，在电子商务，制造业，文艺，科研等领域有着广泛的应用前景。

与传统AI相比，大模型拥有数百倍的Neuron 数量，认知，创造力也占优，一般认为是未来的基本模型。

可是，大模型的计算成本相当高，例如，训练1750亿参数语言大模型GPT—3所需的能耗可以使汽车在地球和月球之间来回行驶。

今年5月，达摩院M6团队通过专家并行策略和优化技术，将万亿级模型能耗降低80%以上，效率提升近11倍。

10月，M6再次突破行业极限，使用512个GPU，10天内训练出10万亿个可用级别的模型与去年发布的大型车型GPT—3相比，M6实现了同样的参数规模，但能耗仅为1%

另一方面，当AI大模型扩展到1000亿甚至更多参数的超大规模时，很难放在一台机器上。因此达摩院在阿里巴巴云PAI自研Whale框架上搭建了MoE模型，最终通过更细粒度的CPU卸载技术，将10万亿个参数放入512 GPU:

自研鲸鱼框架:

自主开发的Whale分布式深度学习训练框架，为数据并行，模型并行，流水线并行，混合并行等多种并行模型设计了统一的架构，让用户只需增加几行API调用就能实现丰富的分布式并行策略。。

专家并行策略:

在鲸鱼架构中实现专家混合的并行策略它在扩展模型容量，提高模型效果的基础上，FLOPs不显著增加每秒浮点运算次数，从而实现高效训练大规模模型的目的

CPU卸载创新技术:

在自主开发的分布式框架Whale中，通过更细粒度的CPU卸载解决了放下有限资源极限规模的问题，通过灵活选择卸载的模型层，进一步提高了GPU利用率。

此外，针对训练效率的问题，M6团队设计了伪到实机制，即利用训练好的共享参数模型对大模型进行初始化，进一步将收敛效率提高7倍，解决了大模型训练速度慢的问题。

如果没有这个机制，只需要6%就能在预训练中达到同样的损失与之前的万亿模型相比，训练样本量仅为40%

作为国内首个商业化的大型多模态模型，M6已经应用于40多个场景，日通话量上亿。

今年大机型首次支持双11，应用包括但不限于:

——M6为犀牛智慧品牌设计的服装已在淘宝上线，

—凭借流畅的写作技巧，M6正在为天猫虚拟主播写剧本，

——依托多模态理解能力，M6正在提升淘宝，支付宝等平台的搜索和内容认知准确率。

未来，M6将积极探索与科学应用相结合，通过AI为科学充分利用大模型的潜力，加强M6与国产芯片的软硬件融合研究。同时，M6实现了业内最高的低碳高效，用512个GPU在10天内训练出一个可用的10万亿模型。

目前达摩院和阿里巴巴云已经推出M6服务平台，为大模型的培训和应用提供完整的工具，首次让大模型实现开箱即用，算法人员和普通用户都可以轻松使用该平台。