无需训练，自动扩展的视觉Transformer来了

来自德克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究者提出了一个无需训练就能自动扩展框架 As-ViT，其能以高效和有原则的方式自动发现和扩展 ViT。

当前 Vision Transformers （ViT）领域有两个主要的痛点：1、缺少对 ViT 进行设计和扩展的有效方法；2、训练 ViT 的计算成本比卷积网络要大得多。

为了解决这两个问题，来自得克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究者提出了 As-ViT（Auto-scaling Vision Transformers），这是一个无需训练的 ViT 自动扩展框架，它能以高效且有原则的方式自动设计和扩展 ViT。

论文链接：https://arxiv.org/abs/2202.11921

具体来说，研究人员首先利用无训练搜索过程设计了 ViT 拓扑的「种子」，这种极快的搜索是通过对 ViT 网络复杂性的全面研究来实现的，从而产生了与真实准确度的强 Kendall-tau 相关性。其次，从「种子」拓扑开始，通过将宽度 / 深度增加到不同的 ViT 层来自动化 ViT 的扩展规则，实现了在一次运行中具有不同数量参数的一系列架构。最后，基于 ViT 在早期训练阶段可以容忍粗粒度 tokenization 的经验，该研究提出了一种渐进式 tokenization 策略来更快、更节约地训练 ViT。

作为统一的框架，As-ViT 在分类（ImageNet-1k 上 83.5% 的 top1）和检测（COCO 上 52.7% 的 mAP）任务上实现了强大的性能，无需任何手动调整或扩展 ViT 架构，端到端模型设计和扩展过程在一块 V100 GPU 上只需 12 小时。

具有网络复杂度的 ViT 自动设计和扩展

为加快 ViT 设计并避免繁琐的手动工作，该研究希望以高效、自动化和有原则的 ViT 搜索和扩展为目标。具体来说有两个问题需要解决：1）在训练成本最小甚至为零的情况下，如何高效地找到最优的 ViT 架构拓扑？2）如何扩大 ViT 拓扑的深度和宽度以满足模型尺寸的不同需求？

扩展 ViT 的拓扑空间

在设计和扩展之前，首先是为 As-ViT 扩展的拓扑搜索空间：首先将输入图像嵌入到 1/4 尺度分辨率的块中，并采用逐级空间缩减和通道加倍策略。这是为了方便密集预测任务，例如需要多尺度特征的检测。

通过流形传播评估初始化时的 ViT 复杂性

ViT 训练速度很慢，因此，通过评估训练模型的准确率来进行架构搜索的成本将高得让人难以承受。最近学界出现很多用基于 ReLU 的 CNN 的免训练神经架构搜索方法，利用局部线性图 (Mellor et al., 2020)、梯度敏感性 (Abdelfattah et al., 2021)、线性区域数量 (Chen et al., 2021e;f) 或网络拓扑（Bhardwaj et al., 2021）等方式。

然而 ViT 配备了更复杂的非线性函数如 self-attention、softmax 和 GeLU。因此需要以更一般的方式衡量其学习能力。在新研究中，研究者考虑通过 ViT 测量流形传播的复杂性，以估计复杂函数可以如何被 ViT 逼近。直观地说，一个复杂的网络可以在其输出层将一个简单的输入传播到一个复杂的流形中，因此可能具有很强的学习能力。在 UT Austin 的工作中，他们通过 ViT 映射简单圆输入的多种复杂性：h(θ) = √ N [u^0 cos(θ) + u^1 sin(θ)]。这里，N 是 ViT 输入的维度（例如，对于 ImageNet 图像，N = 3 × 224 × 224），u^0 和 u^1 形成了圆所在的 R^N 的二维子空间的标准正交基。

搜索 ViT 拓扑奖励

研究者提出了基于 L^E 的免训练搜索（算法 1），大多数 NAS（神经架构搜索）方法将单路径或超级网络的准确率或损失值评估为代理推理。当应用于 ViT 时，这种基于训练的搜索将需要更多的计算成本。对于采样的每个架构，这里不是训练 ViT，而是计算 L^E 并将其视为指导搜索过程的奖励。

除了 L^E，还包括 NTK 条件数 κΘ = λ_max/λ_min ，以指示 ViT 的可训练性（Chen et al., 2021e; Xiao et al., 2019; Yang, 2020; Hron et al., 2020）。λ_max 和 λ_min 是 NTK 矩阵 Θ 的最大和最小特征值。

搜索使用强化学习方法，策略被定为联合分类分布，并通过策略梯度进行更新，该研究将策略更新为 500 step，观察到足以使策略收敛（熵从 15.3 下降到 5.7）。搜索过程非常快：在 ImageNet-1k 数据集上只有七个 GPU 小时 (V100)，这要归功于绕过 ViT 训练的 L^E 的简单计算。为了解决 L^E 和 κΘ 的不同大小，该研究通过它们的相对值范围对它们进行归一化（算法 1 中的第 5 行）。

表 3 总结了新搜索方法的 ViT 拓扑统计数据。我们可以看到 L^E 和 κΘ 高度偏好：（1）具有重叠的 token （K_1∼K_4 都大于 stride ），以及（2）在更深层中更大的 FFN 扩展率（E_1 < E_2 < E_3 < E_4）。在注意力分裂和正面数量上没有发现 L^E 和 κΘ 的明显偏好。

ViT 自主的原则型扩展

得到最优拓扑后，接下来要解决的一个问题是：如何平衡网络的深度和宽度？

目前，对于 ViT 扩展没有这样的经验法则。最近的工作试图扩大或增长不同大小的卷积网络以满足各种资源限制（Liu et al., 2019a; Tan & Le, 2019）。然而，为了自动找到一个有原则的扩展规则，训练 ViT 将花费巨大的计算成本。也可以搜索不同的 ViT 变体（如第 3.3 节中所述），但这需要多次运行。相反，「向上扩展，scaling-up」是在一个实验中生成多个模型变体的更自然的方式。因此，该研究试图以一种免训练且有原则的有效方法将搜索到的基本「种子」ViT 扩展到更大的模型。算法 2 中描述了这种自动扩展方法：

初始架构的每个阶段都有一个注意力块，初始隐藏维度 C = 32。每次迭代找出最佳深度和宽度，以进行进一步向上扩展。对于深度，该研究尝试找出要加深哪个阶段（即，在哪个阶段添加一个注意力块）；对于宽度，该研究尝试发现最佳扩展比（即，将通道数扩大到什么程度）。

扩展轨迹如下图 3 所示。比较自主扩展和随机扩展，研究者发现扩展原则更喜欢舍弃深度来换取更多宽度，使用更浅但更宽的网络。这种扩展更类似于 Zhai et al. (2021) 开发的规则。相比之下，ResNet 和 Swin Transformer (Liu et al., 2021) 选择更窄更深。

通过渐进灵活的 re-tokenization 进行高效的 ViT 训练

该研究通过提出渐进灵活的 re-tokenization 训练策略来提供肯定的答案。为了在训练期间更新 token 的数量而不影响线性投影中权重的形状，该研究在第一个线性投影层中采用不同的采样粒度。以第一个投影核 K_1 = 4 且 stride = 4 为例：训练时研究者逐渐将第一个投影核的 (stride, dilation) 对逐渐变为 (16, 5), (8, 2) 和 (4 , 1)，保持权重的形状和架构不变。

这种 re-tokenization 的策略激发了 ViT 的课程学习（curriculum learning）：训练开始时引入粗采样以显着减少 token 的数量。换句话说，As-ViT 在早期训练阶段以极低的计算成本（仅全分辨率训练的 13.2% FLOPs）快速从图像中学习粗略信息。在训练的后期阶段，该研究逐渐切换到细粒度采样，恢复完整的 token 分辨率，并保持有竞争力的准确率。如图 4 所示，当在早期训练阶段使用粗采样训练 ViT 时，它仍然可以获得很高的准确率，同时需要极低的计算成本。不同采样粒度之间的转换引入了性能的跳跃，最终网络恢复了具有竞争力的最终性能。

如图 4 所示，当 ViT 在早期训练阶段使用粗采样训练 ViT 时，它仍然可以获得很高的准确率，同时需要极低的计算成本。不同采样粒度之间的转换引入了性能的跳跃，最终网络恢复了具有竞争力的最终性能。

实验

AS-VIT：自动扩展 VIT

该研究在表 4 中展示了搜索到的 As-ViT 拓扑。这种架构在第一个投影（tokenization）step 和三个重新嵌入 step 中，促进了 token 之间的强烈重叠。FFN 扩展比首先变窄，然后在更深的层变宽。利用少量注意力拆分来更好地聚合全局信息。

图像分类

下表 5 展示了 As-ViT 与其他模型的比较。与之前基于 Transformer 和基于 CNN 的架构相比，As-ViT 以相当数量的参数和 FLOP 实现了 SOTA 性能。

高效训练

研究者调整了表 6 中为每个 token 减少阶段的时期，并将结果显示在表 6 中。标准训练需要 42.8 TPU 天，而高效训练可节省高达 56.2% 的训练 FLOP 和 41.1% 的训练 TPU 天，仍然达到很高的准确率。

拓扑和扩展的贡献

为了更好地验证搜索型拓扑和扩展规则的贡献，该研究进行了更多的消融研究（表 7）。首先，在扩展之前直接训练搜索到的拓扑。该研究搜索的种子拓扑优于图 2 中 87 个随机拓扑中的最佳拓扑。

第二，该研究将基于复杂度的规则与「随机扩展 + As-ViT 拓扑」进行比较。在不同的扩展下，该研究的自动扩展也优于随机扩展。

COCO 数据集上的目标检测

该研究将 As-ViT 与标准 CNN 和之前的 Transformer 网络进行了比较。比较是通过仅更改主干而其他设置未更改来进行的。从下表 8 的结果可以看出，As-ViT 也可以捕获多尺度特征并实现最先进的检测性能，尽管它是在 ImageNet 上设计的，并且它的复杂性是为分类而测量的。

©THE END

转载请联系本公众号获得授权

推荐内容

无需训练，自动扩展的视觉Transformer来了

MasterGo怎么样好用吗？蓝湖MasterGo如何收费、服务怎么样？

联通的移网质量不弱于电信，为什么业绩上却节节败退？

微信朋友圈十周年：有人重度依赖，也有人想逃离

360打造“最强”核心安全大脑

谈谈让数据创造价值的4大核心要素

中国广电经营分析系统二期项目开标！附体系建设汇总

中国广电5G核心网上海节点提前完成广电5G首呼

花几千“P图”的虚拟裙子，谁买谁是大怨种？

参与标准制定，中关村科金获信通院“护脸计划”突出贡献奖！

虚拟数字人爆发式增长，第二个洛天依没有出现，为什么？

撬动万亿数字化服务市场，联想中国定下两大目标

阿里云盘能否革新网盘市场？

知乎二次上市，“知识第一股”赴港求生

我国中等收入群体资产70%以上竟然是它

中国广电报送共计12项商标注册申请

微盟的痛点与新机

区块链行业热门词汇，你知道几个？

牛津大学最新调研：AI面临基准危机，NLP集中“攻关”推理测试

涨得整整齐齐，三大运营商的净增宽带用户都是从哪来的？

知识和信息传播时代：上游失责，中游失序，下游失智——我们需要走出新无知时代

到底什么是相干光通信？

时代在变，万科AI审图，平均每年避免损失超3.1亿。

定了！目标1000万！京东疯涨200%！字节加钱加人！国产VR销售爆棚，元宇宙终于要“开门”了？

斯坦福学生攻破两个约会软件！用GAN模型「女扮男装」骗过人脸识别系统

被阿里猛砸3.8亿，一副“眼镜”如何破局“元宇宙”？

Relation：探索Web3应用赋能，打造社交网络新范式

考过就送9.9ETH起的NFT？顶级学府的加密课程越来越有意思了

200亿买下推特后，马斯克宣布推特已死

一年收购6家AR企业，Snap从社交到AR公司的逆袭之路

从 2012-2021百款VR/AR硬件，看行业发展态势

【新闻资讯】樊硕：人工智能为“数字中国”提速增效

经纬创投的数字科技投资布局

长时间不更新的APP被谷歌清理：用户再也搜不到了

趣链科技推出区块链破产管理平台，助力优化营商环境

陌陌没落了

你和谷爱凌，就差100道MBTI测试题

汇量科技：Mintegral一季度营收翻倍至超2亿美元

电子牵：会是电子签约市场发展的标准答案吗？

电子签约再进化：电子牵，小动作，大价值

Nutanix把超融合变“没了”

中亦科技：从“易维”服务到“亦维”产品

艾瑞咨询：隐私计算卓越者（2022，中国市场）

宋起柱检查中国广电5G北方大区节点，确保按期开网放号

年度会议 | 中国有线将打造定制化服务新模式

中国网络通信标准与开源，又有重大进展了！

记一次渗透Bc网Getshell

轮到抖音解决“产品天问”了

冥想翻红，宗教App曲线出海

AI恶意软件照妖镜 视觉运算揭病毒真身

无需训练，自动扩展的视觉Transformer来了

融资丨「深维智信」完成近千万美元Pre-A轮融资，致力用真实数据驱动，打造销售赢单引擎

融资丨「泽森科工」获数千万元天使轮融资，高榕资本领投

苹果最新专利曝光：屏下FaceID将在2024年出现

耶路撒冷希伯来大学和巴伊兰大学就量子技术进行研究合作

东南亚网约车巨头GoTo在印尼上市市值超300亿元

时隔263天获批版号，中概股逆势上涨

融资丨「Geeklamp」完成数百万元种子轮融资，国宏嘉信独家投资

本田大力投资电动汽车，未来10年将投资5万亿日元

融资丨「玻色量子」完成第三轮数千万元融资，海贝资本独家投资

爆料达人：微软为Xbox开发芯片 尺寸更小

360打造“最强”核心安全大脑

微信朋友圈十周年：有人重度依赖，也有人想逃离

谈谈让数据创造价值的4大核心要素

联通的移网质量不弱于电信，为什么业绩上却节节败退？

无开孔、无刘海！苹果iPhone14新专利获批，或已开始试产

Intel18A工艺提前半年投产，最快2024年三季度登场

MasterGo怎么样好用吗？蓝湖MasterGo如何收费、服务怎么样？

融资丨「领骏科技」完成数千万元PreA+轮融资，在城市物流领域取得重大进展

花几千“P图”的虚拟裙子，谁买谁是大怨种？

合伙模式有瘾，名创优品难戒

中国广电经营分析系统二期项目开标！附体系建设汇总

如何把一碗菜叶子卖上天价？

“小蓝杯”让年轻人排队3小时，为何“小马杯”送礼也难讨欢心？

中国广电5G核心网上海节点提前完成广电5G首呼

椰树傍上瑞幸，土得无法拒绝

餐饮股大涨，但这不是真正的行情反转

这个书香节，我又上了当当的当

活下去才有希望，餐饮人需要具备这些“反脆弱能力”

AI恶意软件照妖镜视觉运算揭病毒真身

爆料达人：微软为Xbox开发芯片尺寸更小