单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移”

“一个GPU没法训练GPT-3，更别提在上面调整超参数了。”

不不不，现在情况有变 ——

在单个GPU上完全可以调整大规模模型的超参数。

怎么说？

原来有人发现了一种新的调参方法，无论模型规模怎么变化，所得的最优超参数都能保持性能稳定。

由此一来，我们可以先训练一个小版本的模型，在上面间接调整好超参，然后以零样本的方式直接将它们复制到全尺寸模型上，就能获得相当不错的性能。

这对手里GPU资源不够的人来说简直不要太好了吧。

目前，相关帖子也在Reddit上引起热议，得到了300+的点赞支持。

在一个GPU上调参GPT-3大模型

方法名叫 muP (Maximal Update Parametrization) ，作者分别来自微软和OpenAI 。

想法很简单，利用的是他们在之前的工作中发现的一个叫做µP的特殊参数化思路：

窄神经网络和宽神经网络共享同一组最优超参数，即使宽度无限大（width->∞）时也一样。

具体原理可以参见论文《Feature Learning in Infinite-Width Neural Networks》。

可共享的超参数包括学习率learning rate、learning rate schedule、initialization、parameter multipliers……甚至可以单独针对每个参数张量。

作者在宽度高达4096的 Transformer以及ResNet 上验证了这一结论。

因此，资源匮乏的炼丹er就可以在单张GPU上对一个小版本的GPT-3模型进行超参数调整：

如果在这个小模型上得到的参数接近最优，那么在大模型上也可以得到一样的结果。

ps. 这种调参方式又被命名为“ µ迁移（µTransfer） ”。

具体效果如何？

作者训练了一个只有 4000万参数规模的小型GPT-3，它小到可以直接跑在一张GPU上。

然后把它的超参数“µ迁移”到一个有 67亿参数的大规模GPT-3上，结果发现它的性能和原始的GPT-3完全相当 ——尽管原GPT-3的参数规模还是它的两倍！

而这一调整成本只占整个预训练成本的7%。

由于模型规模增大，直接调整小型模型的成本仍大致相同，如果用该方式来调参175亿规模的GPT-3，其成本可能最多只有总预训练成本的0.3%。

好了，这时你可能会问：能不能只缩小模型的宽度呢？

作者表示，对于“non-width stuff”，没有理论保证。

不过好消息是，他们在preLN Transformer的合理范围内对depth、batch size、sequence length和timestep的迁移效果进行了测试。

其中，他们将BERT-base和BERT-large在宽度和深度上缩小到同样的规模，然后同时进行超参数调整后发现：

相比已经调优的megatron BERT基线，两者的性能都得到了改善，尤其是 BERT-large提升更大。

由此也总结出一个道理：

迁移后的模型规模越大，收益越高。

所以作者还调侃道，虽然我们没有测试175亿规模的GPT-3，但保证结果能让你“流口水” 。

说了这么多，到底如何实现？

下表概括了如何通过fan-in或fan-out调整你的模型的initialization和learning rate。

其中粉色文本为µP，括号中的灰色文本为pytorch默认值。

当然，如果你不想自己手动操作，作者也开源了Pytorch实现，通过

pip install mup

就可以应用到你的模型中。

关于作者

一作名叫Greg Yang，微软高级研究员。

通讯作者为微软研究院深度学习技术中心合伙人研究经理、IEEE Fellow高剑峰。

还有两位华人作者分别为来自微软的Liu Xiaodong （北京邮电大学校友）和Chen Weizhu （已在微软工作16年）。

他们的这篇成果已被NeurIPS 2021接收。

在一个GPU上调参GPT-3大模型

具体效果如何？

说了这么多，到底如何实现？

关于作者

推荐内容

单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移” | 已开源

黑客大神用什么杀毒？Windows自带的就够，只是加了亿点微小的强化

元宇宙+教育③丨基于元宇宙的智能在线学习环境构建

虎扑网友又闯祸，只因一句口嗨？女主播：裙子我自己撩的！

马云预言将要实现？未来20年，50%工作逐渐消失，你是否在其中呢

互联网新生态战争的第一战：从改名打响

数字时代 把水稻种到“云端”

马斯克“响应”梁建章

最年轻图灵奖得主：计算机是数学好的女性的完美学科

这部豆瓣8.3分的美剧，讲出了元宇宙一些不怎么靠谱的地方 | 葡萄视点

微博强制显示所在地，真的能抓“五十万”吗？

资讯战场，卷向聚合

喜报 | 广东粤省事智能科技有限公司荣获“2021年度金融科技领域最具影响力奖”

会员喜报 | 上海域乎信息技术有限公司荣获2021数字经济科技创新应用颁奖盛典两项大奖！

EDP加入VertiGIS，打开北欧市场

电信5G视频彩铃体验，能否带我们重回“彩铃时代”？

营收强劲、机构密集调研，中科创达定增31亿加码物联网赛道

太阳系邂逅数字藏品，括苍天文尝试打造天文圈数字新业态

特朗普自己设计了个社交媒体APP！网友：还以为是推特···

酷开科技联合工信安全中心 推动OTT行业可持续健康发展

社交软件上，我们都有脱单需求

两会聚焦数字经济，数据智能如何成为发展驱动力？

微软推出 Azure Arc 混合云与多云管理解决方案

ADAMoracle预言机与区块链相辅相成突出数据安全等问题

赶超谷歌！世界最大时间晶体刷新破纪录，量子计算机再创奇迹

平台化，“强链补链”的一个支点

历史上的今天:马云创建阿里巴巴

微博推出服饰店主专项扶持计划，助力腰尾部博主GMV增长

“东数西算”真的太“拼”了！

成功并购消化铁通的中移动，未来会收购广电吗？

路由器每天该不该关？值得一看！

回忆杀！运营商“互掐”六大招式，最后一张图笑死我了！

【市场情报】“东数西算”工程解读

蚂蚁集团开源最大规模视频侵权 AI 数据集 相关论文再被国际顶会收录

David Wajsgras将出任Intelsat首席执行官

安华金和当选首批CITIVD信创政务产品安全漏洞专业库“技术支撑单位”

弹窗广告的“毒瘤”能彻底根治吗？

租100万台电脑仍亏损，易点云赴港IPO，包装成“办公云”？

Marteker 日报：(2022.3.10)

新华三中标！中国广电5G核心网IT云资源池项目

1亿美元软银投资，智齿科技龙中武：组织能力是我们的核心竞争力

云弹性是什么？它为何如此重要？

VR公司“自杀式”营销背后，国内消费VR大幕将启 | VR陀螺

曾振波谈技术趋势

APENFT & TRON GameFi 黑客松大赛成功落幕

基于联邦学习的联合反欺诈金融应用场景

瑞萨电子推出SIL3认证解决方案，扩大其在功能安全领域的优势地位

买地链游印度大火，GameFi又崛起了

摩托罗拉系统收购云视频安全服务提供商Ava Security，持续推进云基础视频安全

两会声音｜张英委员：推动信创产品普及应用、联合认证培训体系，做大信创培训市场；江浩然委员：推动科技自主创新产品加速落地！

元宇宙+教育③丨基于元宇宙的智能在线学习环境构建

单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移” | 已开源

马云预言将要实现？未来20年，50%工作逐渐消失，你是否在其中呢

虎扑网友又闯祸，只因一句口嗨？女主播：裙子我自己撩的！

跃赛生物完成近2亿元Pre-A轮融资，昆仑资本持续加码

黑客大神用什么杀毒？Windows自带的就够，只是加了亿点微小的强化

这部豆瓣8.3分的美剧，讲出了元宇宙一些不怎么靠谱的地方 | 葡萄视点

大厂疯狂拉新，带火月入10万的地推生意

融资丨「翼菲自动化」获数亿元D轮融资，向世界级机器人品牌加速迈进

我在“主播工厂”9个月，倒赔公司50万

马斯克“响应”梁建章

互联网新生态战争的第一战：从改名打响

最年轻图灵奖得主：计算机是数学好的女性的完美学科

数字时代 把水稻种到“云端”

咖啡市场如此火爆，种咖啡是一门好生意吗？

精品咖啡在县城中的风味人间

韩系汽车，在泥潭中等待“救世主”

调薪、跨境、补金融，字节电商再出击

49块包邮、579块平替戴森，国货小家电围猎洋品牌

微博强制显示所在地，真的能抓“五十万”吗？

你的智能音箱为什么这么傻？

冷静的星巴克

佣金下调，能拯救餐饮老板、打车司机吗？

年入3亿的王一博不如薇娅一年赚得多，“造星”教母生意不好做

没资源，不专业，小白能靠测评做好短视频吗？

数字时代把水稻种到“云端”

酷开科技联合工信安全中心推动OTT行业可持续健康发展

蚂蚁集团开源最大规模视频侵权 AI 数据集相关论文再被国际顶会收录

数字时代把水稻种到“云端”

一年营收近13亿，“王一博概念股”启动港股上市；3500万粉丝网红“浪胃仙”遭前老板声讨；游族因虚假宣传被罚44万元丨文娱周报

酷开科技联合工信安全中心推动OTT行业可持续健康发展

蚂蚁集团开源最大规模视频侵权 AI 数据集相关论文再被国际顶会收录