来源 | 新智元

【导读】 ImageNet排行榜又双叒叕被刷新啦!不过这回,新霸主谷歌没有提出新模型,只靠微调「几个」模型就做到了第一,论文通篇都是实验分析,这也引起了网友的争议:全靠财大气粗!

最近,谷歌又靠着强大的计算资源豪横了一把,而且还顺手捎上了一位Meta AI的朋友。

不得不说,这两个「冤家」的合作可不多见。

论文链接:https://arxiv.org/abs/2203.05482

研究团队提出了一种称为「模型汤」的概念,通过在大型预训练模型下使用不同的超参数配置进行微调,然后再把权重取平均。

实验结果证明了,这种简单的方法通常都能够提升模型的准确率和稳健性。

一般来说,想获得一个性能最佳的模型需要两步:

使用不同的超参数训练多个模型 选择在验证集上效果最好的模型

但这种方法产生的单个模型有一个致命缺陷:运气成分很大,非常容易陷入局部最优点,导致性能并非全局最优。

所以另一个常用策略是模型集成(ensemble),但集成后的模型还是本质上还是多个模型,所以同一个输入需要推理多次,推理成本更高。

而模型汤通过对模型权重进行平均,最后得到的是一个模型,则可以在不产生任何额外推理或内存成本的情况下提升性能。

当然了,你可能在想,模型方法这么简单,怎么Google就敢把论文发出来?

Method部分只占了半页,文章的通篇基本全是实验,也就是说Google做了一件别人都没做到的事:用大量的计算资源,做大量的实验,来证明这个简单的方法就是有效的。

并且模型还刷新了ImageNet 1K的新纪录:90.94%。

所以对高校的研究人员来说,这篇文章可能没有太大的学术价值,完全就是实验科学。但对于有钱、有资源的大公司来说,性能强就够了!

模型汤(Model Soup)名字的灵感来源可能来自「斐波那契例汤」,具体做法是把昨天的和前天剩下的汤加热后混合,得到就是今天新鲜的「斐波那契例汤」。

模型汤把昨天的多个模型加热一下,就成了今天新鲜的SOTA模型了。

新瓶装旧酒

CV模型的常见开发模式就是:有计算资源的大公司把模型预训练好,其他研究人员在这基础上,针对自己特定的下游任务进行微调。

在单个模型的情况下,性能可能并非最优,所以另一个常用的提升性能方法就是集成(ensemble):使用不同的超参数,训练多个模型,然后将这些模型的输出结果组合起来,比如用投票的方式,选出多个模型预测一致的结果作为最终输出。

集成模型虽说可以提升模型的性能,但缺点也显而易见:同一个输入需要预测多次,推理性能显著下降,必须得增大显存、增加显卡或者等待更长的推理时间。

Google提出将多个微调后的模型进行权重平均化,而非选择在验证集上达到最高精度的单个模型,最终产生的新模型就称为模型汤。

因为正常训练的时候也需要训练多个模型,所以模型汤并没有增加训练成本。并且模型汤也是单模型,所以也没有增加推理成本。

其实之前就有研究结果表明,沿着单一训练轨迹(single training trajectory)的权重平均化能够提高随机初始化训练模型的性能。

模型汤则是将权重平均化的有效性扩展到了微调的背景下。

权重平均化的策略也有很多,论文中给了3种常用的方法 :均匀汤、贪婪汤、学习汤。

均匀汤(Uniform soup)最简单,不同模型权重直接求平均即可。

贪婪汤则是通过依次添加模型作为汤中的潜在成分(potential ingredient)来构建的,只有当模型在预留的验证集上的性能提高时,才将其留在模型汤中。

在运行算法之前,先按照验证集准确性的递减顺序对模型进行排序,所以贪婪汤模型不会比验证集上最好的单个模型差。

学习汤则是通过将各个模型在模型汤中的权重作为可学习的参数。

性能强就是王道

虽说模型汤的想法很简单,但这篇论文的重点并非是方法,而是实验。

在实验部分,研究人员探索了在对各种模型进行微调时对模型汤的应用。微调的主要模型是CLIP和ALIGN模型,用图像-文本对的对比监督进行预训练,在JFT-3B上预训练的ViT-G/14模型,以及文本分类的Transformer模型。实验主要使用的是CLIP ViT-B/32模型。

微调是端到端的,也就是所有的参数都可修改,这种方式往往比只训练最后的线性层有更高的准确性。

在微调之前,实验采用两种不同的方法来初始化最后的线性层。第一种方法是从线性探针(linear probe, LP)初始化模型。第二种方法使用zero-shot初始化,例如,使用CLIP或ALIGN的文本塔产生的分类器作为初始化。

微调使用的数据集为ImageNet。实验中还对五个自然分布shift进行评估:ImageNetV2,ImageNet-R, ImageNet-Sketch, ObjectNet, 和ImageNet-A。

由于官方的ImageNet验证集被用作测试集,因此实验中使用大约2%的ImageNet训练集作为构建贪婪的汤的保留验证集。

实验结果对比了汤的策略,可以看到贪婪汤需要更少的模型就能达到与在保留的验证集上选择最佳个体模型相同的精度。X轴为超参数随机搜索中所考虑的模型数量,Y轴为各种模型选择方法的准确率。所有的方法在推理过程中都需要相同数量的训练和计算成本。

对于任何数量的模型,贪婪汤在ImageNet和分布外测试集上都优于最佳单一模型;贪婪汤在ImageNet上优于均匀汤,在分布外则与之相当。Logit集成在ImageNet上比贪婪汤好,但在分布外更差。

贪婪汤比ViT-G/14在JFT-3B上预训练并在ImageNet上微调后得到的最好的单个模型在分布内和分布外的情况下的性能都有所提升。

为了测试通过模型汤获得的模型性能提升是否可以扩展到图像分类以外的领域,研究人员还对NLP任务进行了实验。研究人员在四个文本分类任务上对BERT和T5模型进行了微调,这些任务来自于GLUE基准:MRPC,RTE,CoLA和SST-2。实验结果虽然改进没有图像分类中那么明显,但贪婪汤在许多情况下可以比最好的单模型性能更好。

有意义吗?

大部分从事AI模型的研究人员看完论文的内心应该都是:就这?

论文一出,在知乎上也有论文的相关讨论。

有网友表示,这种论文没有意义,全靠资源堆砌,验证了一个小idea罢了。之前的模型也有相似的idea,并且论文也缺乏对神经网络的理论分析。

不过凡事都有两面性,网友@昭昭不糟糟 则表示,sota只是论文的性能体现,文章大量的实验产生的结论还是比较具有启发性的,简单有效即是好idea!

网友@战斗系牧师 称这是个极具谷歌风格的工作,思路不难想到,但Google胜在推理速度不变、且对问题的解释也很到位,实验充足(对于穷研究人员来说可能没办法复现)。确实有很多值得学习的地方。并且模型汤也更加环保,没有把训练后的模型直接扔掉,而是利用起来,不至于浪费电。

网友@西红柿牛腩分析称:「现在ImageNet刷榜的模型,10亿参数不嫌少,100亿参数不嫌多。而且Google、Facebook这些有钱的主,动不动就是1000块显卡起步,不但用Conv+Transformer,还用JFT-3B作弊。然而,要是用1000层的ResNet达到了91%的Top 1,那就是时代的进步了。」

最后还调侃说:「假如让我刷到92% Top 1,半夜都会笑醒,一年的KPI都达到了。」

推荐内容

  • 谷歌「模型汤」靠微调屠了ImageNet的榜!方法竟然只有半页纸

  • 电子化考勤管理系统,疫情期间居家办公也能正常考勤!

  • 这个赛车AI不再只图一时爽,学会了考虑长远策略

  • 智算赛道,水大鱼大:取势,明道,优术

  • CVPR 2022 中科院、腾讯提出LAS-AT,利用“可学习攻击策略”进行“对抗训练”

  • “热钱”洒向数据库,耐力比拼进行时

  • 数实相融 浪潮信息策马扬鞭奔向“绿色未来”

  • 钉钉开始直面商业化

  • 工信部:截至2月底,IPTV总用户数达3.57亿户

  • 四家运营商薪资福利大对比,谁能更胜一筹?

  • 彻底告别“个性化体验”,隐私和体验哪个重要?

  • 清华大学孙茂松:自然语言处理一瞥,知往鉴今瞻未来

  • 网传字节跳动调高 Pico VR 今年销售目标至 180 万台;罗永浩微博发文,澄清《罗永浩“真还传”大结局》多处事实错误

  • “山金云”助推山东省数字经济发展

  • 人工智能、机器学习、深度学习的关系,终于有人讲明白了

  • 美国要切断对俄罗斯的GPS服务?“北斗”可否顶上?

  • 13.4亿个账号被处置,2022年“清朗”行动还将重点整治这些乱象!

  • 天云数据完成数亿元D轮融资,重新定义数据基础设施 | 华映portfolio

  • 诈骗、灰产、荷尔蒙,畸形生态下养活的陌陌、探探和Soul

  • 教你如何摘取区块链中的明珠 - 智能合约

  • 科技活动中的“领域变迁”和“关键变迁”

  • “数字员工”已悄然登场,将带来怎样一场变革?

  • 数字经济的内涵、界定和各国规模测算

  • 大数据“杀熟”?新规出手了!

  • 钉钉总裁叶军:发布酷应用,钉钉只做一件事就是PaaS化

  • 苦“大数据推荐”久矣?现在终于可以关掉它了!

  • 锤子科技撤回全部破产申请,罗永浩或将重回科技行业

  • 工信部:三大运营商发展蜂窝物联网终端用户数达到14.64亿

  • “AI+知识管理”为企业数智升级注入新动力

  • 钉钉发布新logo:从要规模到要价值,品牌新主张让进步发生

  • CRM讲堂 - 不要让CRM沦为监管销售的工具

  • 中国联通倾力打造高算力枢纽节点!

  • NFT|无聊猿(BAYC)的发展潜力(一)

  • 调查:Coinbase 与 Binance 上新币种

  • “东数西算”夯实数字经济绿色底座

  • 再见3G:多运营商关闭UMTS和CDMA2000网络

  • 电信和联通如何抗衡一家独大的中移动?

  • 固若金汤的App Store审核也翻车了吗?

  • “元宇宙”破圈爆红,区块链成为幕后推手

  • 第二人生的创始人菲利普·罗斯戴尔对元宇宙发出了与Meta截然相反的概念

  • 科学家称或存在时间倒流反宇宙

  • 现在是投资中国互联网公司的好时候吗?

  • Figma封不住国产软件崛起的步伐

  • 联邦知识蒸馏概述与思考(续)

  • Marteker 日报:(2022.3.21)

  • 详解ID拉通 | CDP 智库系列文章 ②

  • “AI+知识管理”为企业数智升级注入新动力

  • AI靠语意理解把照片变抽象画,无需相应数据集,只画4笔也保留神韵,有毕加索内味儿了

  • 抢先苹果!罗永浩“真还传”下月完结:即将进军VR行业

  • 深度视觉宣布完成过亿元A轮融资,将用于产品研发和市场拓展等

  • 谷歌「模型汤」靠微调屠了ImageNet的榜!方法竟然只有半页纸

  • 刘润:你们不懂罗永浩

  • 这个赛车AI不再只图一时爽,学会了考虑长远策略

  • CVPR 2022 中科院、腾讯提出LAS-AT,利用“可学习攻击策略”进行“对抗训练”

  • 智算赛道,水大鱼大:取势,明道,优术

  • 电子化考勤管理系统,疫情期间居家办公也能正常考勤!

  • “热钱”洒向数据库,耐力比拼进行时

  • 数实相融 浪潮信息策马扬鞭奔向“绿色未来”

  • 四家运营商薪资福利大对比,谁能更胜一筹?

  • 彻底告别“个性化体验”,隐私和体验哪个重要?

  • 工信部:截至2月底,IPTV总用户数达3.57亿户

  • 钉钉开始直面商业化

  • 中概股暴跌后的大厂员工:230万缩水至23万、和家人一起“开源节流”

  • 微博接入TopHolder,数字藏品走向社交化?

  • 首发丨「深视科技」完成千万美元A轮融资,创世伙伴、苏高新集团融享创投领投

  • 降价、降估值,新茶饮「降温」

  • 餐饮探店营销乱象频生,是流量密码还是饮鸩止渴?

  • 一键关闭,再见了,烦人的APP广告

  • 小米的高端化,不能只靠米粉

  • 奶茶卷到美国,卷入TikTok

  • 上海买菜实录:有人在凌晨12点鏖战,有人在早上6点激情下单

  • 内卷的智能投影,奋力抓住年轻人

  • “春天的蔬菜100元一斤,才知道原来我只配吃肉”

  • 一娃一屋,管家伴读,高档酒店「网课房」谁去住?

  • 融资丨「小鸟健康」完成两轮近亿元融资

  • 融资丨「普立蒙」完成近亿元新一轮融资,雅惠投资领投

  • 海外创投丨社交APP「WeAre8」完成1500万美元B轮融资,Channel 4 Ventures、Centerstone Capital联合投资

  • 融资丨「melt season」完成超千万元天使轮融资,Breeze Capital领投

  • 融资丨「天云数据」完成数亿元D轮融资,多家国家队基金共同投资

  • 清华大学孙茂松:自然语言处理一瞥,知往鉴今瞻未来

  • 融资丨「喜屏传媒」完成B轮融资,阿里巴巴独家投资

  • “山金云”助推山东省数字经济发展

  • 美国要切断对俄罗斯的GPS服务?“北斗”可否顶上?

  • 人工智能、机器学习、深度学习的关系,终于有人讲明白了

  • 微软警告:不支持的硬件上安装Windows11
    微软警告:不支持的硬件上安装Windows11

  • 网传字节跳动调高 Pico VR 今年销售目标至 180 万台;罗永浩微博发文,澄清《罗永浩“真还传”大结局》多处事实错误

  • 五年后,元宇宙中的网络安全如何保障?
    五年后,元宇宙中的网络安全如何保障?

  • 315曝光台:美团、去哪儿相继被曝出大数据“杀熟”
    315曝光台:美团、去哪儿相继被曝出大数据“杀熟”

  • 数据的历史与发展
    数据的历史与发展

  • 【数据分析】如何增强客户忠诚度?
    【数据分析】如何增强客户忠诚度?

  • 13.4亿个账号被处置,2022年“清朗”行动还将重点整治这些乱象!

  • 企业使用云计算管理大数据,需要注意哪些漏洞?
    企业使用云计算管理大数据,需要注意哪些漏洞?

  • 大数据时代,如何保护个人信息?
    大数据时代,如何保护个人信息?

  • 万门大学倒闭了,童哲连夜跑路了

  • 价格战来了,乐乐茶“被迫”降价?

  • 科技活动中的“领域变迁”和“关键变迁”

  • 天云数据完成数亿元D轮融资,重新定义数据基础设施 | 华映portfolio

  • 教你如何摘取区块链中的明珠 - 智能合约

  • 诈骗、灰产、荷尔蒙,畸形生态下养活的陌陌、探探和Soul

  • “数字员工”已悄然登场,将带来怎样一场变革?

  • 苦“大数据推荐”久矣?现在终于可以关掉它了!

  • 数字经济的内涵、界定和各国规模测算

  • 钉钉总裁叶军:发布酷应用,钉钉只做一件事就是PaaS化

  • 大数据“杀熟”?新规出手了!

  • 54岁医药老兵三次创业,9年专攻病毒载体,今日收获IPO

  • “AI+知识管理”为企业数智升级注入新动力

  • CRM讲堂 - 不要让CRM沦为监管销售的工具

  • 工信部:三大运营商发展蜂窝物联网终端用户数达到14.64亿

  • 钉钉发布新logo:从要规模到要价值,品牌新主张让进步发生

  • 融资丨「悬镜安全」完成数亿元B轮融资,源码资本领投

  • 锤子科技撤回全部破产申请,罗永浩或将重回科技行业

  • 3月LPR报价公布:1年期3.7%5年期以上4.6%
    3月LPR报价公布:1年期3.7%5年期以上4.6%

  • “东数西算”夯实数字经济绿色底座

  • 调查:Coinbase 与 Binance 上新币种

  • NFT|无聊猿(BAYC)的发展潜力(一)

  • 中国联通倾力打造高算力枢纽节点!

  • “元宇宙”破圈爆红,区块链成为幕后推手

  • 电信和联通如何抗衡一家独大的中移动?

  • 再见3G:多运营商关闭UMTS和CDMA2000网络

  • 第二人生的创始人菲利普·罗斯戴尔对元宇宙发出了与Meta截然相反的概念

  • 新茶饮“下凡” 一点点们“瑟瑟发抖”

  • 固若金汤的App Store审核也翻车了吗?

  • 疯狂涨价,电动车梦碎2022?

  • 2021年全球手机畅销榜单出炉,你看懂了吗?

  • 小镇青年,要对电动车下手了

  • 曹德旺输了,福建人没输

  • 张朝阳好为人师,搜狐视频战术躺平

  • 抖音探店,中间商割韭菜

  • 还记得威马吗?

  • 降价、裁员、关店,新茶饮风向生变?

  • 给食堂“送菜”,年销售百亿,高瓴红杉低调押注丨专访彩食鲜CEO李建波

  • 蝙蝠侠不吃爆米花

  • 融资丨「派学车」完成亿元C2轮融资,达晨财智领投

  • 关于中国企业家网“罗永浩‘真还传’大结局”报道的澄清

  • 现在是投资中国互联网公司的好时候吗?

  • 科学家称或存在时间倒流反宇宙

  • Figma封不住国产软件崛起的步伐

  • 联邦知识蒸馏概述与思考(续)

  • 打造酒类新零售界的“丝芙兰”,酒廷1990想怎么做?

  • 房地产公司抢着送钱,既便宜又不卡脖子,钠电池要火了?

  • AI靠语意理解把照片变抽象画,无需相应数据集,只画4笔也保留神韵,有毕加索内味儿了

  • Marteker 日报:(2022.3.21)

  • 详解ID拉通 | CDP 智库系列文章 ②

  • “AI+知识管理”为企业数智升级注入新动力

  • 郭明錤:iPhone14系列“新瓶旧酒”是一种营销策略
    郭明錤:iPhone14系列“新瓶旧酒”是一种营销策略

  • 年内五连涨!2022款欧拉好猫全系车型价格调整
    年内五连涨!2022款欧拉好猫全系车型价格调整

  • 猝不及防!比亚迪、小鹏等车企宣布涨价
    猝不及防!比亚迪、小鹏等车企宣布涨价

  • 全行业攻坚智能网联汽车安全

  • 特斯拉推送四大新功能:空调功能更新、新增语言支持
    特斯拉推送四大新功能:空调功能更新、新增语言支持

  • NFT与元宇宙热度回撤,阵痛之后何去何从?

中国智能在线