视觉Prompt来了，效果超越微调！

Prompt tuning ，作为NLP领域中的一个“新宠”，甚至曾被学者誉为NLP预训练新范式。

那么，它能否借鉴到 CV领域并产生同样的成绩呢？

现在，来自康奈尔大学和Meta AI等机构，通过Prompt来调整基于Transformer的视觉模型，结果发现：

完全可以！

比起全面微调，Prompt性能提升显著。无论模型的规模和训练数据怎么变，24种情况中有20种都完全胜出。

与此同时，它还能大幅降低每项任务所需的存储成本。

论文地址：

https://arxiv.org/abs/2203.12119

只使用不到1%的模型参数

大家一贯使用的全面微调（full fine-tuning），需要为每个下游任务存储和部署单独的主干参数副本，成本太高，尤其是现在基于Transformer的模型越来越大，已经超过CNN架构。

所谓Prompt，最初指的是在输入文本中预编语言指令，以便预培训的语言模型后续可以直接理解各种下游任务。

它曾让GPT-3即使在少样本或零样本的情况下表现出很强的泛化能力。

最近一些成果则表明，Prompt与完全微调的性能相当，参数存储量还减少了1000倍。

NLP中的高超性能让不少人开始在CV领域中探索Prompt的魔力，不过都只局限于跨模态任务中文本编码器的输入。

在本文中，作者将他们所提出的Visual Prompt Tuning方法，简称为VPT 。这是首次有人将Prompt应用到视觉模型主干（backbone），并做出成果。

具体来说，比起全面微调，VPT受最新大型NLP模型调整方法的启发，只在输入空间中引入少量可特定某任务训练的参数（不到模型参数的1%），同时在训练下游任务期间冻结（freeze）预训练模型的主干。

在实操中，这些附加参数只用预先加入到每个Transformer层的输入序列中，并在微调期间与线性head一起学习。

他们一共探索出两种变体：

VPT-Deep 变体为Transformer编码器每层的输入预先设置一组可学习的参数；

VPT-Shallow 变体则仅将提示参数插入第一层的输入。

两者在下游任务的训练过程中，只有特定于任务的提示和线性头的参数会更新，而整个Transformer编码器被冻结。

接下来，是骡子是马？拉出来溜溜～

20/24的优胜率

实验涉及两种在ImageNet-21k上预训练好的主干，一个来自Vision Transformer，一个来自Swin Transformer 。

进行对比的微调方法有三大种，7小种，包括：

（1）完全微调：更新所有主干和分类头（classification head）参数

（2）以分类头为重点的微调，包括Linear、Partial-k和Mlp-k三种；

（3）以及在微调过程中更新一个主干子集参数或向主干添加新的可训练参数的方法，分为Sidetune、Bias和Adapter三种。

实验的数据集有两组，一共涉及 24个跨不同领域的下游识别任务，包括：

（1）由5个基准细粒度视觉分类任务组成的FGVC；

（2）由19个不同视觉分类集合组成的VTAB-1k，细分为使用标准相机拍摄的自然图像任务（Natural）、用专用设备（如卫星图像）捕获的图像任务（Specialized）以及需要几何理解的任务（Structured），比如物体计数。

测得每项任务上的平均准确度后，得出的主要结果如下：

VPT-Deep在24个任务中有20个的表现都优于全面微调，同时使用的总模型参数显著减少（1.18× vs. 24.02×）；

要知道，在NLP领域中Prompt再厉害，性能也不会超过全面微调。这说明 Prompt很适用于视觉Transformer模型。

和其他微调方法相比（b、c组），VPT-Deep的性能则全部胜出。

此外，选择不同主干参数规模和模型规模的ViT（ViT-B、ViT-L和ViT-H）进行测试还发现，VPT方法不会受影响，依然基本保持性能领先。

而在Swin Transformer中，全面微调法的平均准确度虽然更高，但也付出了巨大的参数代价。

其他微调方法则全部不敌VPT。

推荐内容

视觉Prompt来了，效果超越微调！

下载超十亿人次的试妆APP，要在纳斯达克上市了

洞见2022商业新趋势，热门赛道大神们都在这场直播里说了啥？

红杉中国布局零信任安全领域，「亿格云」完成近亿元Pre-A轮融资

上市公司观察|Marpai Health：人工智能驱动的新型TPA

下载超十亿人次的试妆APP，要在纳斯达克上市了

对话林凡：脉脉只选择垒塔，拒绝搬砖

诸葛IO用户行为分析SaaS怎么样？诸葛IO软件如何收费？

微盟“第二曲线”能否开启下一段增长？

透过微盟财报，看数字商业操作系统“深迭代”

192号验证成功！某省广电5G网内语音及数据网调测

花式裁员！真TMD恶心....

先别着急给视频号下定义

王兴豪赌“明天”

总营收增加，5G投资下降，今年运营商的员工们涨的成工资吗？

通信，也曾经辉煌过……

300M和500M宽带的区别在哪里？看完这篇就知道了

如何让企业用好云？亚马逊云科技助力云管理服务商加速成长

现在中国竟然还有3.7亿人无法上网 占比超1/4 让人惊讶

从菜鸟的产业互联网实践看高质量发展

微软将开发云原生游戏，与世界级开发团队合作，为玩家带来新体验

【新闻资讯】阿里腾讯互联互通再迈一步

客户流失，SaaS业务的头号杀手

网盘们打打打起来了

Epic、英伟达、迪士尼高管‘激辩’数字人

AR社交公司Snap收购脑机接口公司NextMind，未来适用于向用户精准推送广告？

“魔兽世界吧”什么时候开始讨论魔兽了？

破题算力互联网 曙光智算发布“算力链接价值”主张

脉脉点评模式是个伪命题

裁员哀嚎遍野！互联网大厂们，失速焦虑

电信、移动、联通运营商2021年度业报统计

对话蓝墙互联创始人：地产转折，SaaS进击

NetBackup 10：“云级技术”护体，“数据自治”傍身

B站的虚假繁荣

网安刮起东风：360、深信服决战智能化

存量用户时代，方兴未艾的客户服务SaaS

实测！关闭“算法推荐后”，某音某手上的美女真没了！

通信专家质疑5G大建设，6G不可盲目扩张！

有赞被曝裁员，教育产研团队全军覆没

培育强人工智能的「ImageNet」：上海交大卢策吾组提出铰接物体知识库AKB-48

美国FCC将中国电信和中国移动相关子公司列入“安全威胁清单”

内蒙古电信一把手调整

场景共同体：浪潮存储的生态突围秘诀

学微信，淘宝也支持账号名修改了

有赞大裁员？SaaS的冬天来了

重磅！淘宝支持微信支付了

SaaS，不要轻易丢掉“眼界”

陌陌+探探的双保险组合 挚文集团一如既往地稳

你们不懂罗永浩，行业冥灯只是误会

击穿“破局点”，从四季报看挚文集团的“第二曲线”

机遇与危机，婚庆行业的转型之路

视觉Prompt来了，效果超越微调！

下载超十亿人次的试妆APP，要在纳斯达克上市了

融资丨「影为医疗」完成2000万A+轮融资，上海联创独家投资

降价热搜后奈雪首发年报，营收43亿同比增长40%

融资丨「Mighty Jaxx」完成1.7亿元A+轮融资，East Ventures领投

融资丨「默安科技」完成3亿元D轮融资，战略升级AISecOps赛道

红杉中国布局零信任安全领域，「亿格云」完成近亿元Pre-A轮融资

对话林凡：脉脉只选择垒塔，拒绝搬砖

Google发布新评论报告：禁用100万个参与欺诈性评论

上市公司观察|Marpai Health：人工智能驱动的新型TPA

最新测速报告：Starlink下行速率波动记录曝光

融资丨「远舢智能」完成2亿元B轮融资，赛富投资基金领投

中国RNA分子诊断领军者仁度生物成功登陆科创板

融资丨「卫圣康」完成超亿元A轮融资，国投创合、丹麓资本共同投资

下载超十亿人次的试妆APP，要在纳斯达克上市了

洞见2022商业新趋势，热门赛道大神们都在这场直播里说了啥？

融资丨「熊猫烫火锅」完成千万级种子轮融资，百福控股领投

透过微盟财报，看数字商业操作系统“深迭代”

微盟“第二曲线”能否开启下一段增长？

192号验证成功！某省广电5G网内语音及数据网调测

融资丨「丹诺医药」完成2.64亿元D轮融资，燕创资本和高特佳投资共同领投

诸葛IO用户行为分析SaaS怎么样？诸葛IO软件如何收费？

花式裁员！真TMD恶心....

融资丨「Nreal」完成6000万美元C+轮融资，阿里巴巴领投

融资丨「中因科技」完成亿元A轮融资，加速眼科基因治疗产业化进程

通信，也曾经辉煌过……

先别着急给视频号下定义

王兴豪赌“明天”

现在中国竟然还有3.7亿人无法上网占比超1/4 让人惊讶

破题算力互联网曙光智算发布“算力链接价值”主张

陌陌+探探的双保险组合挚文集团一如既往地稳

现在中国竟然还有3.7亿人无法上网占比超1/4 让人惊讶

破题算力互联网曙光智算发布“算力链接价值”主张

融资丨临床质谱研发商「英盛生物」获数亿元C轮系列融资，辰德资本、高瓴创投联合领投