您现在的位置：首页>互联网

首个万亿级模型：谷歌推出语言模型 Switch Transformers，1.6 万亿参数

2021-01-19 06:00

众所周知，参数量是机器学习算法的关键。在大规模参数量和数据集的支持下，简单的体系结构将远远超过复杂的算法。

在自然语言领域，被称为史上最强 NLP 的 GPT-3 拥有 1750 亿参数。近日，Google 将这一参数量直接拉高到了 1.6 万亿。

1 月 11 日，Google 在 arXiv 上发表论文《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》，提出了最新语言模型—Switch Transformer。

/>研究员介绍称，Switch Transformer 拥有 1.6 万亿参数，是迄今为止规模最大的 NLP 模型。论文中指出，Switch Transformer 使用了稀疏激活（Sparsely Activated）技术，该技术只使用了神经网络权重的子集，或者是转换模型内输入数据的参数。在相同计算资源下，其训练速度上比 Google 之前研发的最大模型 T5-XXL 还要快 4 倍。<p align=

/>高效稀疏通道研究人员使用 Mesh-Tensorflow（MTF）库—与 Tensorflow 类似的语义和 API ，能够能够高效支持分布式的数据与模型结构。它将物理内核集抽象为处理器的逻辑网格。然后利用张量和计算按指定的维度进行切分，便于跨维度轻松划分模型。与 MoE Transformer 的比较第一个测试是在 “Colossal Clean Crawled Corpus”数据集上进行的。该数据集也被成为 C4，含 750GB 的文本语料，全部来自于 Reddit、Wikipedia 和其他网络资源中。研究人员使用了 32 个 TPU 核在 C4 数据集上预先训练了几种不同的 Switch Transformer 模型。模型的任务是预测段落中 15% 被遮住的单词，以及通过检索文本回答一些有难度的问题。<p align=

/>同时作为不稳定性的另一种补救措施，研究人员减小了默认的 Transformer 初始化比例，将 S=1.0 降低了 10 倍。这既提高了质量，又降低了不稳定训练的可能性。如图：<p align=

/>“预训练 + 微调”的 NLP 方法，在处理下游任务时容易发生过拟合现象。对此，研究人员提出了 “expert dropout”的解决方案——通过在微调过程中，增加在每个 expert 中的 dropout 比例来缓解过拟合。<p align=

/>我们观察到，简单地增加所有层的 dropout 率会导致性能下降。但是，在非专家层设置较小的 dropout 率（0.1）和在专家层设置较大的 dropout 率（0.4），可以提高四个较小下游任务的性能。性能测试：预训练、微调和多任务训练论文中，研究人员对预训练阶段 Switch Transformer 的预训练可扩展性进行了研究。为了避免数据受限，他们采用了大型 C4 数据库，并以固定的计算成本测试了基于步数和时间的可伸缩性。步态的可扩展性下图为多个模型在训练步数恒定、专家数量增加时表现出的可扩展性提升情况。可以看到：在保持每个 token 的 FLOPS 不变时，拥有更多的参数（专家）可以提高训练速度。<p align=

/>此外还可以发现，专家数量的增加会导致更有效的样本模型。Switch-Base 64 专家模型在 60k 和 450k 步态达到了与 T5-Base 模型相同的性能，这是 7.5 倍的加速。时间的可扩展性从基于步数的设置中，可以观察到：样本效率提升未必能转化为时间上的模型质量提升。那么，在训练时间和计算成本都固定的前提下，是应该训练一个稠密模型还是稀疏模型？下图解决了这个问题。<p align=

/><p align=

/>图中展示了预训练模型质量随训练时间增加所产生的变化。在训练时间和计算成本都固定的情况下，Switch Transformer 的速度优势非常明显。在这种设置下，如果要达到相似的困惑度，Switch-Base 64 专家模型的训练时间仅为 T5-Base 模型的 1/7。微调针对 T5-Base 和 T5-Large 模型，研究人员设计了具备更多参数的 FLOP-matched Switch Transformer。在 SuperGLUE 基准上，FLOP-matched Switch Transformer 相比 T5-Base 和 T5-Large 的性能分别提升了 4.4% 和 2%。同时，该模型在多项推理和知识任务中也带来了显著提升。这说明该模型架构不只对预训练有用，还可以通过微调将质量改进迁移至下游任务中。<p align=

/>蒸馏技术为了解决超大规模神经网络的部署问题，研究人员提出了多种蒸馏技术：将大型稀疏模型蒸馏到小型密集模型中。<p align=

/>使用表 7 中最优的蒸馏技术，可以将具备 11 亿参数量的模型压缩 82%，同时保留 37% 的性能提升。最极端的情况下，将模型压缩了 99%，且维持了 28% 的性能提升。<p align=

/>多语言学习在最后一组下游实验中，研究人员利用模型对 101 种不同语言的混合进行了预训练。如图展示了 Switch T5 Base 模型与 mT5-Base 在所有语言上的质量提升情况（负对数困惑度）。对两个模型经过 100 万步预训练后，Switch Transformer 的最终负对数困惑度相较基线有所提升。<p align=

/>此外，透过 mT5-Base 使用 Switch Transformer 模型的加速直方图，可以发现，mT5-Base 的平均速度提高了 5 倍，同时，91%的语言速度至少提升了 4 倍。这表明 Switch Transformer 能够有效的多任务和多语言。<p align=

上一篇：周济院士：智能制造是中国制造业巨大历史性机遇

下一篇：人力资源和社会保障部：今年我国将实现社保卡跨省通办

版权与免责声明

凡本网注明"来源：的所有作品，版权均属于中，转载请必须注明中，http://www.vbj.com.cn。违反者本网将追究相关法律责任。
本网转载并注明自其它来源的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

热点排行

今日推荐周排行月排行

首个万亿级模型：谷歌推出语言模型 Switch Transformers，1.6 万亿参数

版权与免责声明

图说新闻