李飞飞团队提出零样本泛化的技术，性能超越SOTA！_中国智能在线

来源：迈微AI研习社

没错！又是李飞飞！

走在队伍前面的，是来自斯坦福大学的博士，李飞飞的门生！

先来看看李飞飞团队这次在arXiv上发表了的论文题目：

SECANT：用于视觉策略零样本泛化的自专家克隆

废话少说，给大家介绍一下这篇论文的大致内容。

论文介绍

简要介绍

强化学习中的泛化（generalization），是指通过不断跟环境交互，产生出一种网络的记忆性。

这个网络能够根据环境中特定的信号完成相应的动作，经过训练的agent能够记住在什么状态下要做什么，还能通过识别状态的细微差别来采取不同的动作。

再通俗一点，就是在未见过的测试数据上也能够进行预测。

因此，提升模型的泛化是机器学习领域中的一个重要研究。

特别是视觉强化学习方面，泛化很容易被高维观察空间中，一些无关痛痒的因素分散了注意力。

机器学习中的泛化：欠拟合、拟合、过度拟合

针对这个问题，团队通过鲁棒性策略学习，对具有大分布偏移的未见视觉环境进行零样本泛化。

因此，团队提出「SECANT」模型，一种可以适应新测试环境的自专家克隆方法（Self Expert Cloning for Adaptation to Novel Test-environments）。

这个方法能够在两个阶段利用图像增广，分离鲁棒性表征和策略优化。

首先，专家策略通过弱增广从头开始进行强化学习的训练。

而学生网络就是通过强增广的监督学习来模仿专家策略，其表征与专家策略相比，对视觉变化更具鲁棒性。

实验表明，SECANT在DMControl（Deepmind Control）、自动驾驶、机器人操作和室内物体导航这四个具有挑战性的领域中，在零样本泛化方面超过了之前的SOTA模型，分别实现了 26.5%、337.8%、47.7%和15.8% 的提升。

主要贡献

提出了SECANT模型，可以依次解决策略学习和鲁棒性表征学习问题，从而实现了对未见过的视觉环境的强大零样本泛化性能。

在自动驾驶、机器人操作和室内物体导航四个领域中，设计并制定了一套多样化的基准测试。除了DMControl外，其它3种环境都具有代表实际应用程序的测试时视觉外观漂移。

证明了SECANT在以上4个领域中，大多数任务都能达到SOTA。

SECANT框架

SECANT的主要目标是发展自我专家克隆技术，通过这种技术可以实现零样本生成不一样的视觉样本。

作者研究的SECANT训练模型可以分解为两步，代码已公开。

专家策略

第一步，作者在原始环境中通过弱增广训练了一套高性能的专家策略。在视觉连续控制任务中，这套策略通过前馈深度卷积网络进行参数化，然后将观察到的图像转化为d维连续动作向量。

在实际应用中，作者采用了帧叠加技术，在时间信息维度上，连接T个连续图像进行观测。然后通过语义保持图像变换来生成数据扩增的算子。采用随机裁剪图像的方法作为默认的弱增广方法来训练专家策略。

这套专家策略可以通过任何标准的RL算法进行优化。作者选择了Soft Actor-Critic (SAC)，因为它在连续控制任务中被广泛采用。然后采用梯度下降法对专家参数进行优化，使专家参数最小化。

学生策略

在第二阶段，作者训练一个学生网络来预测专家策略采取的最优行动，在同样的观察的条件下，通过剧烈变化的图像来进行测试。在这个阶段不需要进一步接触奖励信号。

从形式上来看，学生策略也是一个深度卷积神经网络，但与专家策略不同的是它有着不同的架构。本质上来说，学生策略是根据DAgger模仿流程，从专家策略中延伸而来的。

作者使用专家策略来收集轨迹的初始数据集D。接下来，在每一次迭代中，选择一个强扩增算子，并将其应用于采样的一批观测数据。

作者通过将原有视觉元素进行插入色块（Cc）、随机卷积（Cv）、补充高斯噪声（G）以及添线性混合（M）等方式来生成不同的视觉样本。

作者还研究了以上的组合，并试图发现从低频和高频结构噪声中的随机抽样产生最佳的总体结果。作者注意到，在混合中添加随机裁剪略微有利于性能的提升，可能是因为它改善了学生策略表征的空间不变性。

实验内容

四种不同场景的视觉策略泛化基准测试（从上至下）： DMControl Suite、CARLA 、Robosuite和iGibson

首先，作者提出了一个适用于四种不同领域的基准测试，系统地评估视觉agent的泛化能力。

在每个领域中，团队研究了在一个环境中训练的算法，在零样本设置中的各种未见环境中的表现如何。此时没有奖励信号和额外的试验。

在每个任务中，SECANT以之前的SOTA算法为基准：SAC、SAC+crop、DR、NetRand、SAC+IDM和PAD。

DMControl

研究团队依照前人的设置，使用来自DMControl的8个任务进行实验。

测量泛化能力，随机生成背景和机器人本身的颜色，将真实的视频作为动态背景。

除了一项任务外，SECANT在所有任务中都显着优于先前的SOTA，通常高出88.3% 。

所有方法都经过50万步训练，有密集的任务特定奖励。

Robosuite：机器人操作模拟器

Robosuite是用于机器人研究的模块化模拟器。

作者在4个具有挑战性的单臂和双手操作任务上对SECANT和先前方法进行了基准测试。

使用具有操作空间控制的Franka Panda机器人模型，并使用特定于任务的密集奖励进行训练。

所有agent都接收一个168×168以自我为中心的RGB视图作为输入。

与之前SOTA相比，SECANT有337.8%的提升

实验表明，与之前的最佳方法相比，SECANT在简单设置中获得的奖励平均增加了 287.5% ，在困难设置中增加了 374.3% ，在极端设置中增加了 351.6% 。

CARLA：自动驾驶模拟器

为了进一步验证SECANT对自然变化的泛化能力，作者在CARLA模拟器中构建了一个具有视觉观察的真实驾驶场景。

测试目标是在1000个时间步长内沿着8字形高速公路（CARLA Town 4）行驶尽可能远，不与行人或车辆发生碰撞。

agent在「晴朗的中午」情景接受训练，并在中午和日落时对各种动态天气和光照条件进行评估。

例如，潮湿天气的特点是道路具有高反射点。经过平均每个天气超过10集和5次训练运行，SECANT在测试中能够比之前的SOTA行驶的距离增加 47.7% 。

iGibson：室内物体导航

iGibson是一个交互式模拟器，有高度逼真的3D房间和家具。

在这个模拟器中，实验的目标是尽可能接近一盏灯。

奖励函数激励agent使灯在视野中所占的像素比例最大，当这个比例在连续10个步骤中超过5%时就算成功。

在本测试中，在未见过的房间里，SECANT的成功率比之前的方法高出15.8% 。

声明
来源：脉微AI研习社， RAD极客会推荐阅读，不代表RAD极客会立场，转载请注明，如涉及作品版权问题，请联系我们删除或做相关处理！

推荐内容

李飞飞团队提出零样本泛化的技术，性能超越SOTA！

2022-05-21
钉钉“贪财”出下策

2022-05-21
盘点海外电竞与数据行业超百起合作：8家机构案例最多，定制数据分析为主要诉求

2022-05-21
好运的李檬，难讲天下秀新故事

2022-05-21
冰峰饮料申请撤回申报材料 2020年四款产品销量2.92亿瓶

2022-05-19
TECH数字中国技术年会｜生态各界伙伴这样说…….mp4

2022-05-17
祝象寻科技早日倒闭！技术团队被曝要求20天做出app集体开除

2022-05-17
京东科技赴港上市被拒，或因白条金条是主营

2022-05-17
2022，均值回归

2022-05-17
百度ESG报告：维护网络生态健康，去年拦截恶意信息560亿次

2022-05-17
互联网大航海，泛娱乐社交借东风

2022-05-17
AI时代办公模式迁移：从人找知识到知识找人

2022-05-17
百度ESG报告：维护网络生态健康，2021年拦截恶意信息560亿次

2022-05-17
虚拟偶像女团A-SOUL塌房，字节跳动血汗工厂？

2022-05-17
微软IE浏览器“衰败记”：昔日浏览器霸主为何衰败？

2022-05-17
DeepMind「通才」AI智能体Gato来了，多模态、多任务，受大语言模型启发

2022-05-17
以全系列产品应对多样化需求亚马逊云科技在数据库市场强势崛起

2022-05-17
A-SOUL塌房！虚拟偶像不败人设，为何破防？

2022-05-17
虚拟偶像「休眠」，字节黄粱梦醒

2022-05-17
20家中广电移动分公司已完成注册！

2022-05-17
元宇宙大火，AR/VR重新复活，泡沫经济还是科技变革？

2022-05-14
网易上线“视频版知乎”，但第一批用户已经离开了

2022-05-14
罗永浩离职十六年，俞敏洪终于后悔了

2022-05-14
为防诈骗，多地运营商选择关闭接收国际短信……

2022-05-14
专访钉钉：专注价值深耕，开放服务生态——“钉钉，让进步发生”

2022-05-14
《商业公约》背后，小红书的商业闭环野心

2022-05-14
中交地产股价闪崩跌停会是连续下跌的开始吗？

2022-05-13
屏幕大小并非硬件成本关键手机卖的贵厂商也无奈利润非常大

2022-05-12
8家公司提交听证申请 “申诉”企业不断出现了

2022-05-12
NothingtoSeter启动器正式公测开启测试

2022-05-11
首款Intel锐炫显卡电竞本！机械师曙光16谍照曝光

2022-05-11
摩托罗拉发布两代折叠屏Razr旗舰级设备

2022-05-10
谷歌公布AndroidTV13首个预览版的已知问题

2022-05-10
爆料：三星GalaxyZFold4电池型号在印度曝光

2022-05-10
一起“犇放”的用友与软通动力，共创专业服务生态巨大价值

2022-05-09
SaaS全场景领跑成长型企业商业创新YonSuite新版发布

2022-05-09
红利见底，互联网巨头告别流量时代

2022-05-09
API成网络攻击的优先入口|攻防双方围绕API安全的博弈激烈

2022-05-09
APP工厂永不眠，但「上新」的思路早变了

2022-05-09
以数字经济助推“精致安逸”江南老城的城市转型——杭州西湖区整体智治十年磨一剑

2022-05-09
云游戏：解决大包体精品游戏下载更新时长与卡顿的最优解

2022-05-09
全是干货！我们整理了近两年虚拟人报告

2022-05-09
美智库：不应高估中国的科研实力，中国科研存在两大弊病，难以克服

2022-05-09
只需要十分之一数据，就能通关四大视觉任务，居然还开源了！

2022-05-09
直播一小时营收破百万！虚拟主播说英文在B站疯狂吸金，背后企划公司IPO作价23亿

2022-05-09
行走在开源世界的孤勇者：“只有开源接纳了我” | 技术人访谈录

2022-05-09
马斯克三把火烧向推特这支“烟屁股”

2022-05-09
字节没能一直赢

2022-05-09
趣头条“瘦身”减负？

2022-05-09
工业软件之间的信息交互（2）——PLM/PDM系统与ERP系统的集成

2022-05-09

好运的李檬，难讲天下秀新故事

2022-05-21
盘点海外电竞与数据行业超百起合作：8家机构案例最多，定制数据分析为主要诉求

2022-05-21
李飞飞团队提出零样本泛化的技术，性能超越SOTA！

2022-05-21
大厂青年没有520

2022-05-21
木鸟民宿黄越：创业这些年九死一生，但我仍在坚持

2022-05-21
不确定下的确定选择：贝壳自我革新

2022-05-21
钉钉“贪财”出下策

2022-05-21
85后博士夫妻创业，打造国产手术机器人，即将收获一个IPO

2022-05-21
融资丨文旅元宇宙企业「方天圣华」获5000万 Pre-A 轮融资，俐儒资本独家投资

2022-05-21
柔性显示屏制造商柔宇科技本周三开启裁员：员工可拿基本工资

2022-05-20
莲鑫基金拟收购安谋科技51%股权？安鑫集团回应

2022-05-20
100%破解！RTX30系列显卡算法被破解

2022-05-20
低价竞争放缓盈利能力持续修复多家快递公司年报出炉

2022-05-20
50吨重卡碾压！比亚迪刀片电池“暴力”性能“测试”成功

2022-05-20
爱立信公布业务重组计划将合并云和数字部门

2022-05-20
【资讯】英国电信承诺投资1亿英镑促进企业业务发展

2022-05-20
神秘冒出的莲鑫集团：拟收购51%的中方股权安谋中国回应

2022-05-20
从柜到车、从车到人“最后一公里” 丰巢发布无人配送机器人

2022-05-19
抖音“躺赚”的生意是如何炼成的？

2022-05-19
冰峰饮料申请撤回申报材料 2020年四款产品销量2.92亿瓶

2022-05-19
排队近11个月冰峰饮料5月19日首发上会

2022-05-19
永吉转债转股溢价率369.4% 意味着什么？

2022-05-19
多家零部件上市公司发布2021年年报创新突破迎接新局

2022-05-19
疫情影响下房车露营车雄起

2022-05-19
微软宣布可持续发展云产品计划旨在使用一套测量设备来收集数据

2022-05-19
外媒：苹果iOS 16的首个公开测试版本将发布

2022-05-19
亿纬锂能拟投资30亿元建设10GWh动力储能电池项目

2022-05-19
外媒：2030年现代汽车将在韩国本土投资21万亿韩元

2022-05-19
《旅游景区解说服务规范》修订稿公开征求意见

2022-05-18
警惕！“直存”返现的“钱规则” 你信了吗？

2022-05-18
国家发改委：我国通胀未明显体现在CPI上面

2022-05-18
研究称iPhone关机后仍在运行？浅谈实现原理

2022-05-18
微信8.0.23测试版取消“手机性能检测”入口已消失

2022-05-18
“NING咖啡”来袭，李宁的流量把戏还是真未来？

2022-05-18
麦当劳是“退出”俄罗斯，还是“重返”？

2022-05-18
餐饮老板，别盲目迷信麦肯的标准化体系！

2022-05-18
融资丨「欧利生物」完成数千万元Pre-A轮融资，经纬创投独家投资

2022-05-18
英特尔DG2/Alchemist5.19版曝光可在不使用时完全断电

2022-05-18
微软将从9月份起提高绩效工资和增加股票奖励提高员工工资

2022-05-18
融资｜「剧游宇宙（苏州）」获联众国际数百万元战略投资

2022-05-18
融资丨「森朗生物」宣布完成2亿元人民币融资，前海母基金独家投资

2022-05-18
离开大厂的“返贫”现象

2022-05-18
Windows11更新：22H2版将在5月或6月发布

2022-05-18
英伟达473.47版驱动程序更新紧急推出

2022-05-18
从日到年，这几份清单工具帮你提高效率

2022-05-18
成立一年，营收千万，铲屎官创业做「功能型」猫粮，解决猫咪泪痕、软便等问题

2022-05-18
冰峰虽好，可走不出陕西？

2022-05-18
为何总有直播电商逃离杭州的谣言？

2022-05-18
字节进军茶饮，真意并不在“茶”

2022-05-18
TikTok电商日成交额增至640万美金，东南亚成亮点

2022-05-18
腾讯音乐，困于直播

2022-05-18
茶叶没有第一股

2022-05-18
梦里搞副业暴富，现实搞副业暴雷

2022-05-18
融资丨专注非洲外卖市场的中国出海企业「小馒科技」完成数百万美元种子轮融资，Y Combinator 领投

2022-05-18
上一代B站，被1元甩卖

2022-05-18
独家｜我们投出了MR独角兽，但劝你不要当“元宇宙创业者”

2022-05-18
融资丨「识庐慧图」完成数千万Pre-A轮融资，投资方为AA投资

2022-05-18
家电涨价潮又起，如何对冲原材料涨价的风潮？

2022-05-17
2022年全球半导体公司研发支出同比增长9%

2022-05-17
融资丨「乐途科技」获1800万元天使轮融资，专注于数字化健身私教消费市场

2022-05-17
祝象寻科技早日倒闭！技术团队被曝要求20天做出app集体开除

2022-05-17
京东科技赴港上市被拒，或因白条金条是主营

2022-05-17
TECH数字中国技术年会｜生态各界伙伴这样说…….mp4

2022-05-17
卖衣服、开餐厅、做打印机，教育玩家跨界一年成效几何？

2022-05-17
2022，均值回归

2022-05-17
关店133家，优衣库的“中国困境”

2022-05-17
一季度中国家用智能投影仪销量135万台同比增长12.6%

2022-05-17
马斯克，你想砍价就直说

2022-05-17
咖啡混战场下，云南咖啡正在经历“冰火两极”

2022-05-17
国家统计局数据：4月份规模以上工业增加值比上月下降7.08%

2022-05-17
适老化产品有望撬动万亿级大市场企业如何抓住“银发消费”商机?

2022-05-17
4月动力电池装车量：比亚迪成最大黑马

2022-05-17
百度ESG报告：维护网络生态健康，去年拦截恶意信息560亿次

2022-05-17
微软IE浏览器“衰败记”：昔日浏览器霸主为何衰败？

2022-05-17
互联网大航海，泛娱乐社交借东风

2022-05-17
DeepMind发布人工智能系统完成604项任务

2022-05-17
融资丨eVTOL企业「零重力飞机工业」完成近千万元种子轮融资，蓝驰创投独家投资

2022-05-17
虚拟偶像女团A-SOUL塌房，字节跳动血汗工厂？

2022-05-17
百度ESG报告：维护网络生态健康，2021年拦截恶意信息560亿次

2022-05-17
李宁也要卖咖啡了？

2022-05-17
新增性能优化器 Windows下PCMark跑分提升25%

2022-05-17
中国商飞公司即将交付首架C919大飞机

2022-05-17
AI时代办公模式迁移：从人找知识到知识找人

2022-05-17
A-SOUL塌房！虚拟偶像不败人设，为何破防？

2022-05-17
DeepMind「通才」AI智能体Gato来了，多模态、多任务，受大语言模型启发

2022-05-17
三星完成新的定价谈判价格可能会上涨15%至20%

2022-05-17
联名，有没有方法论？

2022-05-17
泛娱乐出海，如何用好元宇宙爆发前夜的“窗口期”？

2022-05-17
以全系列产品应对多样化需求亚马逊云科技在数据库市场强势崛起

2022-05-17
20家中广电移动分公司已完成注册！

2022-05-17
IDC:2021年中国边缘计算服务器整体市场规模达到33.1亿美元

2022-05-17
在户外体验“拎包入住”式星级服务，「大热荒野」如何成为最受年轻人追捧露营品牌？

2022-05-17
知网的前半生

2022-05-17
虚拟偶像「休眠」，字节黄粱梦醒

2022-05-17
电池回收，救得了锂矿涨价吗？

2022-05-17
国际数据公司：2021下半年中国金融云市场规模39.0亿美元

2022-05-16
天临四年，知网被查，喜大普奔

2022-05-16
只有一个李佳琦

2022-05-16
莆田，“仿冒鞋之都”的艰难转身

2022-05-16
虚拟偶像反抗996

2022-05-16