挑战单卡单日训练BERT，ViT作者推荐_中国智能在线

Pine 发自凹非寺量子位 | 公众号 QbitAI

单个GPU，只花一天时间，能把BERT训练成什么样？

(资料图片仅供参考)

现在，终于有研究人员做这件事了，在有限的计算条件之下看看语言模型的真实性能如何。

要知道在以往，大多数专业人员的关注点都在极端计算的条件下的语言模型性能。

但这样的语言训练模型环境，对很多研究人员和从业人员是不可能存在的。

因此这个单天单个GPU的挑战，就有网友称是一个最希望看到的基准。

连ViT作者，谷歌大脑研究员Lucas Beyer都发文推荐，称这是一个令人耳目一新的转变。

具体的过程和结果如何，一起来看看～

挑战过程

这次研究的目标也很明确，就是反其道行之：缩小语言训练模型的算力，在有限的计算量的情况下如何达到BERT的性能水平。

既然要缩小计算量，那第一步肯定是对模型作出一些限定。

这也还是之前提到的，限定时间和GPU个数：单天单个GPU。

关于GPU，研究人员分别选取了3个进行测试，即rtx2080ti、rtxa4000和rtxa6000，每个单元有4个CPU核和32GB内存。

在限定计算量之后，就要对模型的其他参数进行一些调整，以进一步对BERT的实际适用性进行评估。

这些调整包括初始数据设置、模型架构、训练以及数据集的改进。

并且在调整的过程中，整体基调都是围绕“实际使用”进行的，避免跳转到专业的设置，为此，研究人员将所有内容都保持在PyTorch框架的实现级别上。

先来说说初始数据设置，这部分可以简单概括为以下几点：

将标记化的数据打包成长度为128的随机序列，不相关的片段用

分割；

删除< cls > 标记，因为在训练前训练中加入它并没有对性能产生多大影响；

将序列长度为64到96微小批量累积到大批量再处理。

然后是对架构的修改，下图显示了不同模型在随着token数量的增加MLM任务损失的变化。

结果很显然，一个模型损失的衰减很大程度地取决于模型的大小，而不是模型的类型。

并且，因为每个token的性能与模型大小之间的关系紧密耦合，若想通过改变Transformer模型的大小和类型来获得巨大性能增益是不太可能的。

不过对于同大小的所有模型，每个梯度效率是几乎保持不变的，因此可以在保证模型大小不变的情况下，选择能够通过快速搜索加速计算的架构。

具体的优化和其他调整如下：

减少注意力头的数量来降低梯度成本：禁用所有QKV偏差；

禁用所有线性层偏差，通过加速梯度计算，不会对模型大小产生明显影响；

实现比例正弦位置嵌入，相较于学习或非比例正弦嵌入有增量收益；

LN的预标准化比后LN更有益；

去除非线性头部并无影响。

接下来便要对训练进行设置，具体也就不再赘述，直接来看相关调整：

优化器依旧是Adam；

设定Learning Rate计划和批量大小；

丢掉Dropout环节。（因为Dropout会导致每秒更新的净减少）

而在数据集方面，研究团队采用了两种基于数据的途径来更好地缩小规模，分别是以各种方式过滤、处理或排序现有的数据和交换数据源，具体可以看下表。

性能接近最初的BERT

在调整完各种参数后，这个单卡一天的BERT性能到底如何？直接看看最终的数据！

在下游性能评估时是通过GLUE来进行的，下表能够看到在3个不同显卡上的得分，非常接近最初的BERT。

而当模型训练计算量为16倍时，即（2天，在8个GPU），依旧是一样的数据和设置，最终得到的结果比最初的BERT提高了很多，达到了RoBERTa的性能水平。

推荐内容

挑战单卡单日训练BERT，ViT作者推荐

2023-01-03
寒潮来袭！2022年科技巨头市值蒸发近3万亿，马斯克身家缩水一半

2023-01-03
快消息！韧性生长，笃行致远∣探迹科技2022年度回顾

2023-01-03
新动态：员工抗议工资涨太少，国内某运营商：明年直接全员加薪1000！

2023-01-03
焦点消息！AI渗透短视频赛道：只需一个提示词，文本影像画外音一键搞定

2023-01-03
2023将至，Bengio等大佬年度展望！懂理性的AI模型要来了？

2023-01-03
全球简讯:科普 | GameFi成为未来重要赛道之一，究竟有何优势？

2023-01-03
焦点速看：火石创始人2023新年致辞：奋斗创造奇迹

2023-01-03
淘丁集团：人工智能时代即将到来

2023-01-03
环球今日报丨Nreal达成10万台AR眼镜量产；Meta Quest上线新年促销活动

2023-01-03
跑马圈地时代渐行渐远国产协同办公“三巨头”该如何赚钱聚焦

2023-01-03
天天时讯：“你好BOE”从跨界到共生，京东方“屏之物联”沃土生花

2022-12-30
中国广电曾庆军：48万个700MHz基站建设已完成，“192”号段用户已超500万户

2022-12-30
时趣荣获2022北京数字经济企业100强

2022-12-30
【速看料】言中了几条？——“2022中国互联网十大预测”年终回顾

2022-12-30
“钉钉进步体”字体上线，永久免费商用

2022-12-30
今亮点！视频 | 群雄逐鹿！何以决胜AIGC“新大陆时代”？

2022-12-30
世界今亮点！走出概念炒作的Web3

2022-12-30
天天报道:东软解决方案论坛2022即将启幕

2022-12-30
钉钉破局企业间连接：一场长达8年持续进化的复利效应

2022-12-30
天天热议:显示产业链数据罗盘即将上线！

2022-12-30
【全球播资讯】汉交会开幕，产业互联网出海成为新热点

2022-12-30
服务至上，效率争先｜慧策再获“2022淘拍档最受欢迎企业管理软件”奖项

2022-12-30
社交文娱出海竞争激烈，靠什么来打造下一个“爆款”？

2022-12-30
世界信息:转型元宇宙，映客还有机会翻盘吗？

2022-12-29
环球快看点丨日百万流量网站励志一生被K

2022-12-29
全球最资讯丨沙特阿拉伯收购Magic Leap的多数股权；VR可穿戴设备开发商Dolami获1亿日元融资

2022-12-29
【全球时快讯】Zoho研究院：UCaaS是业务连续性、敏捷性以及持续增长的关键能力之一

2022-12-29
每日资讯：NVIDIA重磅发布NVAIE 3.0，AI时代的操作系统来了

2022-12-29
全球快播：淘丁集团 | 回顾2022，畅想2023，人工智能闪耀的一年

2022-12-29
焦点热门:行业报告 | 呈现数据背后的温情，《2022抖音热点数据报告》发布

2022-12-29
速讯：中国台湾地区关键设备耗材厂无预警暂停供货大陆企业

2022-12-29
糗事百科关闭服务 “享年17岁” 搞笑容易搞钱难

2022-12-29
上海广电5G用户已达40万户并已建成7442个700M基站

2022-12-29
动态焦点:在re:Invent 2022大会打球、喝酒？没错！

2022-12-29
什么是外贸CRM系统？外贸CRM系统盘点！

2022-12-29
用户体验，学会用数据说话，别说“我感觉…”

2022-12-29
环球新动态：美图商业化2.0：探寻多元增长曲线

2022-12-28
世界滚动:AR产业：消费端“明修栈道”，工业侧“暗度陈仓”？

2022-12-28
当前要闻：全国首个国家级合规数字资产二级交易平台"中国数字资产交易平台"即将启动

2022-12-28
最资讯丨马化腾的内部讲话，说出了中国SaaS最大的弊病

2022-12-28
时讯：云游戏的2022：破局、新生、元宇宙

2022-12-28
世界新动态：中兴通讯王强：三大方面推动高层次自智网络落地

2022-12-28
每日聚焦：钉钉宣布用户数破6亿，企业组织数超过2300万

2022-12-28
350刀的AR纹身，能掀起下一个小众行业吗？

2022-12-28
火爆全网的AI绘画中的人工智能生成内容（AIGC）是什么？

2022-12-28
世界快讯:中国联通2023年将重点深化“七项工作”

2022-12-28
环球快看点丨【数商动态】热烈欢迎苏州美天网络科技有限公司加入华东江苏大数据交易中心数商生态！

2022-12-28
全球即时看！新华三、浪潮入围！中国广电IT云资源池二期工程项目候选人公示

2022-12-28
数字化+信创化时代，传统集成商如何开辟业绩增长的第二曲线？

2022-12-28

寒潮来袭！2022年科技巨头市值蒸发近3万亿，马斯克身家缩水一半

2023-01-03
挑战单卡单日训练BERT，ViT作者推荐

2023-01-03
电脑怎样设置网速最快？电脑网速不稳定该怎么办？

2023-01-03
新动态：员工抗议工资涨太少，国内某运营商：明年直接全员加薪1000！

2023-01-03
一招修复硬盘无法格式化？移动硬盘不小心格式化了怎么恢复？

2023-01-03
msn现在还能用吗？msn是什么意思的缩写？

2023-01-03
全球简讯:科普 | GameFi成为未来重要赛道之一，究竟有何优势？

2023-01-03
木地板地暖不热怎么办？地暖不热一般怎么解决？

2023-01-03
配置交换机详细教程是什么？监控交换机配置步骤是什么？

2023-01-03
快消息！韧性生长，笃行致远∣探迹科技2022年度回顾

2023-01-03
支付宝如何关闭免密支付？取消免密设置？

2023-01-03
2023将至，Bengio等大佬年度展望！懂理性的AI模型要来了？

2023-01-03
腾达n300路由器怎么设置？腾达路由器恢复出厂设置？

2023-01-03
焦点消息！AI渗透短视频赛道：只需一个提示词，文本影像画外音一键搞定

2023-01-03
宽带网速慢怎么办？wifi网络不稳定怎么办？

2023-01-03
鼠标电池更换教程是什么？罗技鼠标怎么拆开？

2023-01-03
ultraiso不激活能用吗？ultraiso装系统教程是什么？

2023-01-03
焦点速看：火石创始人2023新年致辞：奋斗创造奇迹

2023-01-03
淘丁集团：人工智能时代即将到来

2023-01-03
环球今日报丨Nreal达成10万台AR眼镜量产；Meta Quest上线新年促销活动

2023-01-03
跑马圈地时代渐行渐远国产协同办公“三巨头”该如何赚钱聚焦

2023-01-03
天天看点：快鲤鱼首发丨「花沐医疗」完成数千万元C轮融资，深圳高新投资本领投

2023-01-03
焦点消息！被“催熟”的人造细胞肉

2023-01-03
当前看点!今年流行：一把手亲自下场

2023-01-03
全球即时：一文看懂AI数学发展现状，清华校友朱松纯学生一作，还整理了份必备阅读清单

2023-01-02
环球看点！放开之后，中国出海人要大干一场

2023-01-02
世界微速讯：2022 年的产品观察思考碎片

2023-01-02
【全球时快讯】爱奇艺拨不开“迷雾”

2023-01-02
全世界都爱“老头乐”

2023-01-02
天天通讯！前世界首富疯狂“降本”：断厕纸、辞保洁、腾办公室、关数据中心

2023-01-01
环球热点评！2022，国剧重获观众信任

2023-01-01
后疫情时代，洒拖派“免接触式”擦窗更安心

2023-01-01
张勇要什么

2023-01-01
天天快看：以后还能看到各路大片吗？

2023-01-01
环球关注：“海外版”海底捞值得投资吗？

2023-01-01
李子柒“杀”回来了，这一次能夺回属于她的一切？

2023-01-01
当前滚动:2022，特斯拉失意的一年

2023-01-01
【当前热闻】2023最火跨年生意：一场派对赚3万，民宿价格涨3倍

2023-01-01
抖音还没到与美团掰手腕的时候

2023-01-01
通讯！9大热搜，回看2022的集体记忆

2022-12-31
QSTECH青松：三十而立初心未改，以创新引领LED产业未来

2022-12-31
环球看热讯：刚刚，出身寒门，曾经的商界大佬，有期徒刑19年

2022-12-31
天天热点！2022国产空调：市场遇冷、成本攀升、保命要紧

2022-12-31
回望社交出海这一年，2022年社交出海研报重磅首发

2022-12-31
即时焦点：新能源车二手市场回暖了？

2022-12-31
每日速递：判赔700万、冻结7652万，官司缠身下的威马成“危马”

2022-12-31
李子柒夺回「李子柒」，问题解决了吗

2022-12-31
北极光创投邓锋：中国的企业家精神是我看好未来的最大理由

2022-12-30
环球微动态丨200多万“好邻居”，让这家车企5年卖出80万台车

2022-12-30
天天时讯：“你好BOE”从跨界到共生，京东方“屏之物联”沃土生花

2022-12-30
联想百应以自身数字化智能化转型能力为基底，为中小型企业打通数字化转型通路

2022-12-30
中国广电曾庆军：48万个700MHz基站建设已完成，“192”号段用户已超500万户

2022-12-30
播报：融资丨「虹信生物」完成近数千万元天使+轮融资，弘陶资本领投

2022-12-30
世界时讯：融资丨「生原微创」完成近亿元B轮融资，聚明创投领投

2022-12-30
观速讯丨融资丨「心凯诺」完成亿元融资，张江高科、浦东资本、张江浩珩和苏信创投联合投资

2022-12-30
每日精选：专精特新小巨人VC/PE覆盖率24.2%；上市649家；北京以589家位居城市榜首丨创业邦发布《2022专精特新小巨人企业发展报告》

2022-12-30
总估值超3000亿元，累计融资总额达685亿元丨2022创业邦100未来独角兽重磅发布

2022-12-30
时趣荣获2022北京数字经济企业100强

2022-12-30
【速看料】言中了几条？——“2022中国互联网十大预测”年终回顾

2022-12-30
今亮点！视频 | 群雄逐鹿！何以决胜AIGC“新大陆时代”？

2022-12-30
“钉钉进步体”字体上线，永久免费商用

2022-12-30
世界今亮点！走出概念炒作的Web3

2022-12-30
天天报道:东软解决方案论坛2022即将启幕

2022-12-30
钉钉破局企业间连接：一场长达8年持续进化的复利效应

2022-12-30
mysql查看存储过程命令？mysql创建数据库的命令？

2022-12-30
怎么设置tp路由器？tplink路由器怎么设置？

2022-12-30
如何添加网络打印机win7？怎样添加网络共享打印机？

2022-12-30
电脑桌面怎么建一个备忘录？可以显示在电脑桌面的备忘录？

2022-12-30
如何给文件设置密码？文件夹加密码怎么设置？

2022-12-30
电脑怎么还原系统win7？电脑怎么恢复出厂设置？

2022-12-30
ie浏览器设置默认网址？电脑管家默认浏览器设置？

2022-12-30
笔记本电脑怎么设置开机密码？电脑怎么设置开机密码win7？

2022-12-30
【全球播资讯】汉交会开幕，产业互联网出海成为新热点

2022-12-30
html自动跳转代码设置？html文字上下滚动代码？

2022-12-30
天天热议:显示产业链数据罗盘即将上线！

2022-12-30
省略号表示什么意思？目录上的省略号怎么用键盘打出来？

2022-12-30
融资丨「星尘数据」完成5000万元A轮融资，华映资本领投

2022-12-30
环球热头条丨融资丨「柔创纳科」完成数千万A1轮融资，金鼎资本独家投资

2022-12-30
观天下！为什么车企总在续航上骗你？

2022-12-30
世界速读：四川调料生意，养活五家年入10亿的企业

2022-12-30
社交文娱出海竞争激烈，靠什么来打造下一个“爆款”？

2022-12-30
每日短讯：交个朋友没跟上罗永浩

2022-12-30
服务至上，效率争先｜慧策再获“2022淘拍档最受欢迎企业管理软件”奖项

2022-12-30
天天快播：接连四次自降身价，美国版美团混得到底有多惨？

2022-12-29
【环球速看料】复旦管院院长陆雄文：无科创无未来，用管理赋能科创

2022-12-29
【全球新要闻】融资丨「华云安」完成数千万元B轮融资，执一资本领投

2022-12-29
融资丨「江苏绿碳」完成2000万元A轮融资，东方汇富独家投资

2022-12-29
融资丨「植场达人」完成千万元级pre-A轮融资，拼多多投资人胡泽民和卓德资本共同投资

2022-12-29
世界信息:转型元宇宙，映客还有机会翻盘吗？

2022-12-29
融资丨「帕西尼感知科技」完成数千万元Pre-A轮融资，啟赋资本领投

2022-12-29
播报：融资丨「长扬科技」完成3亿元F轮融资，曦域资本领投

2022-12-29
咖啡馆打响奶品暗战

2022-12-29
天天热点评！元宇宙步入暗夜

2022-12-29
李子柒要回来了，然后呢？

2022-12-29
环球快看点丨日百万流量网站励志一生被K

2022-12-29
【全球时快讯】Zoho研究院：UCaaS是业务连续性、敏捷性以及持续增长的关键能力之一

2022-12-29
每日资讯：NVIDIA重磅发布NVAIE 3.0，AI时代的操作系统来了

2022-12-29
全球最资讯丨沙特阿拉伯收购Magic Leap的多数股权；VR可穿戴设备开发商Dolami获1亿日元融资

2022-12-29
全球快播：淘丁集团 | 回顾2022，畅想2023，人工智能闪耀的一年

2022-12-29
焦点热门:行业报告 | 呈现数据背后的温情，《2022抖音热点数据报告》发布

2022-12-29