【导读 从自然语言处理任务起家,又在图像分类和生成领域大放异彩,所向披靡的 Transformer 会成为下一个神话吗?

想象一下你走进一家本地的五金店,在货架上看到一种新型的锤子。你听说过这种锤子:它比其他锤子敲得更快、更准确,而且在过去的几年里,在大多数用途中,它已经淘汰了许多其他锤子。

此外,通过一些调整,比如这里加一个附件,那里拧一个螺丝,这种锤子还能变成一把锯,其切割速度能媲美其他任何替代品。一些处于工具开发前沿的专家表示,这把锤子可能预示着所有工具将融合到一个设备中。

类似的故事正在人工智能领域上演。这种多功能的新锤子是一种人工神经网络——一种在现有数据上进行训练以「学习」如何完成某些任务的节点网络——称为 Transformer。它最初用于处理语言任务,但最近已经开始影响其他 AI 领域。

Transformer 最初出现在 2017 年的一篇论文中:《Attention Is All You Need》。在其他人工智能方法中,系统会首先关注输入数据的局部 patch,然后构建整体。例如,在语言模型中,邻近的单词首先会被组合在一起。相比之下,Transformer 运行程序以便输入数据中的每个元素都连接或关注其他元素。研究人员将此称为「自注意力」。这意味着一旦开始训练,Transformer 就可以看到整个数据集的迹。

在 Transformer 出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去 10 年发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家 Anna Rumshisky 说,「从某种意义上说,NLP 曾落后于计算机视觉,而 Transformer 改变了这一点。」

Transformer 很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮,比如 OpenAI 的 GPT-3 可以在数千亿个单词上进行训练并生成连贯的新文本。

Transformer 的成功促使人工智能领域的研究者思考:这个模型还能做些什么?

答卷正在徐徐展开——Transformer 被证明具有惊人的丰富功能。在某些视觉任务中,例如图像分类,使用 Transformer 的神经网络比不使用 Transformer 的神经网络更快、更准确。对于其他人工智能领域的新兴研究,例如一次处理多种输入或完成规划任务,Transformer 也可以处理得更多、更好。

「Transformer 似乎在机器学习领域的许多问题上具有相当大的变革性,包括计算机视觉,」在慕尼黑宝马公司从事与自动驾驶汽车计算机视觉工作的 Vladimir Haltakov 说。

就在十年前,AI 的不同子领域之间还几乎是互不相通的,但 Transformer 的到来表明了融合的可能性。「我认为 Transformer 之所以如此受欢迎,是因为它展示出了通用的潜力,」德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说:「我们有充分的理由尝试在整个 AI 任务范围内尝试使用 Transformer。」

从「语言」到「视觉」

在《Attention Is All You Need》发布几个月后,扩展 Transformer 应用范围的最有希望的动作就开始了。Alexey Dosovitskiy 当时在谷歌大脑柏林办公室工作,正在研究计算机视觉,这是一个专注于教授计算机如何处理和分类图像的 AI 子领域。

Alexey Dosovitskiy。

与该领域的几乎所有其他人一样,他一直使用卷积神经网络 (CNN) 。多年来,正是 CNN 推动了深度学习,尤其是计算机视觉领域的所有重大飞跃。CNN 通过对图像中的像素重复应用滤波器来进行特征识别。基于 CNN,照片应用程序可以按人脸给你的照片分门别类,或是将牛油果与云区分开来。因此,CNN 被认为是视觉任务必不可少的。

当时,Dosovitskiy 正在研究该领域最大的挑战之一,即在不增加处理时间的前提下,将 CNN 放大:在更大的数据集上训练,表示更高分辨率的图像。但随后他看到,Transformer 已经取代了以前几乎所有与语言相关的 AI 任务的首选工具。「我们显然从正在发生的事情中受到了启发,」他说,「我们想知道,是否可以在视觉上做类似的事情?」 这个想法某种程度上说得通——毕竟,如果 Transformer 可以处理大数据集的单词,为什么不能处理图片呢?

最终的结果是:在 2021 年 5 月的一次会议上,一个名为 Vision Transformer(ViT)的网络出现了。该模型的架构与 2017 年提出的第一个 Transformer 的架构几乎相同,只有微小的变化,这让它能够做到分析图像,而不只是文字。「语言往往是离散的,」Rumshisky 说:「所以必须使图像离散化。」

ViT 团队知道,语言的方法无法完全模仿,因为每个像素的自注意力在计算时间上会非常昂贵。所以,他们将较大的图像划分为正方形单元或 token。大小是任意的,因为 token 可以根据原始图像的分辨率变大或变小(默认为一条边 16 像素),但通过分组处理像素,并对每个像素应用自注意力,ViT 可以快速处理大型训练数据集,从而产生越来越准确的分类。

Transformer 能够以超过 90% 的准确率对图像进行分类,这比 Dosovitskiy 预期的结果要好得多,并在 ImageNet 图像数据集上实现了新的 SOTA Top-1 准确率。ViT 的成功表明,卷积可能不像研究人员认为的那样对计算机视觉至关重要。

与 Dosovitskiy 合作开发 ViT 的谷歌大脑苏黎世办公室的 Neil Houlsby 说:「我认为 CNN 很可能在中期被视觉 Transformer 或其衍生品所取代。」他认为,未来的模型可能是纯粹的 Transformer,或者是为现有模型增加自注意力的方法。

一些其他结果验证了这些预测。研究人员定期在 ImageNet 数据库上测试他们的图像分类模型,在 2022 年初,ViT 的更新版本仅次于将 CNN 与 Transformer 相结合的新方法。而此前长期的冠军——没有 Transformer 的 CNN,目前只能勉强进入前 10 名。

Transformer 的工作原理

ImageNet 结果表明,Transformer 可以与领先的 CNN 竞争。但谷歌大脑加州山景城办公室的计算机科学家 Maithra Raghu 想知道,它们是否和 CNN 一样「看到」图像。神经网络是一个难以破译的「黑盒子」,但有一些方法可以窥探其内部——例如通过逐层检查网络的输入和输出了解训练数据如何流动。Raghu 的团队基本上就是这样做的——他们将 ViT 拆开了。

Maithra Raghu

她的团队确定了自注意力在算法中导致不同感知的方式。归根结底,Transformer 的力量来自于它处理图像编码数据的方式。「在 CNN 中,你是从非常局部的地方开始,然后慢慢获得全局视野,」Raghu 说。CNN 逐个像素地识别图像,通过从局部到全局的方式来识别角或线等特征。但是在带有自注意力的 Transformer 中,即使是信息处理的第一层也会在相距很远的图像位置之间建立联系(就像语言一样)。如果说 CNN 的方法就像从单个像素开始并用变焦镜头缩小远处物体的像的放大倍数,那么 Transformer 就是慢慢地将整个模糊图像聚焦。

这种差异在 Transformer 最初专注的语言领域更容易理解,思考一下这些句子:「猫头鹰发现了一只松鼠。它试图用爪子抓住它,但只抓住了尾巴的末端。」第二句的结构令人困惑:「它」指的是什么?只关注「它」邻近的单词的 CNN 会遇到困难,但是将每个单词与其他单词连接起来的 Transformer 可以识别出猫头鹰在抓松鼠,而松鼠失去了部分尾巴。

显然,Transformer 处理图像的方式与卷积网络有着本质上的不同,研究人员变得更加兴奋。Transformer 在将数据从一维字符串(如句子)转换为二维数组(如图像)方面的多功能性表明,这样的模型可以处理许多其他类型的数据。例如,Wang 认为,Transformer 可能是朝着实现神经网络架构的融合迈出的一大步,从而产生了一种通用的计算机视觉方法——也许也适用于其他 AI 任务。「当然,要让它真正发生是有局限性的,但如果有一种可以通用的模型,让你可以将各种数据放在一台机器上,那肯定是非常棒的。」

关于 ViT 的展望

现在研究人员希望将 Transformer 应用于一项更艰巨的任务:创造新图像。GPT-3 等语言工具可以根据其训练数据生成新文本。在去年发表的一篇论文《TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up》中,Wang 组合了两个 Transformer 模型,试图对图像做同样的事情,但这是一个困难得多的问题。当双 Transformer 网络在超过 200000 个名人的人脸上进行训练时,它以中等分辨率合成了新的人脸图像。根据初始分数(一种评估神经网络生成的图像的标准方法),生成的名人面孔令人印象深刻,并且至少与 CNN 创建的名人一样令人信以为真。

Wang 认为,Transformer 在生成图像方面的成功比 ViT 在图像分类方面的能力更令人惊讶。「生成模型需要综合能力,需要能够添加信息以使其看起来合理,」他说。与分类领域一样,Transformer 方法正在生成领域取代卷积网络。

Raghu 和 Wang 还看到了 Transformer 在多模态处理中的新用途。「以前做起来比较棘手,」Raghu 说,因为每种类型的数据都有自己的专门模型,方法之间是孤立的。但是 Transformer 提出了一种组合多个输入源的方法。

「有很多有趣的应用程序可以结合其中一些不同类型的数据和图像。」例如,多模态网络可能会为一个系统提供支持,让系统除了听一个人的声音外,还可以读取一个人的唇语。「你可以拥有丰富的语言和图像信息表征,」Raghu 说,「而且比以前更深入。」

这些面孔是在对超过 200000 张名人面孔的数据集进行训练后,由基于 Transformer 的网络创建的。

新的一系列研究表明了 Transformer 在其他人工智能领域的一系列新用途,包括教机器人识别人体运动、训练机器识别语音中的情绪以及检测心电图中的压力水平。另一个带有 Transformer 组件的程序是 AlphaFold,它以快速预测蛋白质结构的能力,解决了五十年来蛋白质分子折叠问题,成为了名噪一时的头条新闻。

Transformer isn"t all you need

即使 Transformer 有助于整合和改进 AI 工具,但和其他新兴技术一样,Transformer 也存在代价高昂的特点。一个 Transformer 模型需要在预训练阶段消耗大量的计算能力,才能击败之前的竞争对手。

这可能是个问题。「人们对高分辨率的图像越来越感兴趣,」Wang 表示。训练费用可能是阻碍 Transformer 推广开来的一个不利因素。然而,Raghu 认为,训练障碍可以借助复杂的滤波器和其他工具来克服。

Wang 还指出,尽管视觉 transformer 已经在推动 AI 领域的进步,但许多新模型仍然包含了卷积的最佳部分。他说,这意味着未来的模型更有可能同时使用这两种模式,而不是完全放弃 CNN。

同时,这也表明,一些混合架构拥有诱人的前景,它们以一种当前研究者无法预测的方式利用 transformer 的优势。「也许我们不应该急于得出结论,认为 transformer 就是最完美的那个模型,」Wang 说。但越来越明显的是,transformer 至少会是 AI shop 里所有新型超级工具的一部分。

推荐内容

  • Transformer将在AI领域一统天下?现在下结论还为时过早

  • 那个NB的中国移动,又回来了?

  • 中富通:与福建供销集团签订战略合作协议

  • 垂直SaaS的增长密码在哪里

  • 字节跳动,又收编了一个团队

  • 穿云破雾,复星国际的四大能力和一张蓝图

  • 挚文集团财报背后:基本盘稳定中的新耐力长跑

  • 股价涨!中国移动回A首份年报出炉:杨杰这么解读

  • 不是制造业需要钉钉,而是钉钉需要制造业

  • Figma断供大疆,对国产设计软件的启示

  • 地狱开局的2022,穿好你的安全铠甲

  • 解读乐享集团财报:“等风者”第二次穿越周期

  • 破解海量异构数据存储难题,分布式大行其道

  • 如何做好一个分析?

  • 国产设计工具靠什么取代Figma?

  • 墨奇科技携手浪潮信息共建元脑生态,加速AI产业化应用

  • 百度飞桨智慧城市核心技术大揭秘—智慧社区篇

  • Firefox 拉黑中国,Figma 断供大疆!

  • 中国互联网的下一场硬仗 | 衣公子

  • 国内IPv6离“全面通车”还差几步?

  • 2022年快消品行业数字化呈现六大发展趋势

  • 重庆市关于组织开展2022年国家科技型中小企业评价工作的通知

  • 中外SaaS差在哪?一个在做大产业规模,一个还在研究“赛道”

  • 元宇宙的创业姿势

  • 一望无际的产业升级,是浪潮K1 Power无限的未来图景

  • Adobe,元宇宙背后的“工具人”已准备就绪

  • 假冒上市被揭发,这家公司有何来头?

  • 给GNN一堆数据,它自己发现了万有引力定律

  • 电信运营商2021年财报概要分析,总利润率水平比较稳定!

  • 中国移动回A股后首份年报出炉,三大运营商2021年谁最赚钱?

  • 52个Martech关键词:SCRM

  • 不满意、有问题,来联通,找老总!

  • 13.78亿!虎年智慧政务第一单,大肉谁吃?四大运营商喝了点汤——

  • 人事 | 中国电信一位二级副,被知名上市公司聘为总裁!

  • 联通数科:实力战“疫”,有我守“沪”!

  • 又一位中国联通冬奥款待执行天团队员,找到了!

  • 百度百科联合百度超级链发行濒危动物数字藏品助力生物多样性保护

  • 分布式自治组织:DAO

  • 提案没收大户的Token,说好的"私有财产不可侵犯"呢?

  • IP NFT+SocialFi,EUTERPE将如何打开NFT与版权市场?

  • 投研报告 |加密音乐版权NFT平台Euterpe(BCE)

  • 保护人脸识别中的隐私安全,人脸图像加密公司D-ID完成2500万美元B轮融资

  • HR SaaS平台Omnipresent完成1.2亿美元B轮融资,腾讯领投

  • 微软加速器访谈 | 菱歌科技创始人兼CEO栾晔:女性在数字化信息的世界获得更多的自由和成功

  • 腾讯过去一年的不顺当,都写进这份财报了

  • 虚拟人:「虚火」过旺

  • 估值10.2亿美元,第三季度预上市,AI试妆到底是不是智商税

  • 腾讯告别高净利时代

  • 锁死LV、元气森林、安踏、小红书的观远数据,依然缺乏想象

  • 争议元宇宙的另一面:捏脸师月挣5万,工程师学美妆,“电子整容”火了

  • 苹果将为iPhone和其他硬件开发订阅服务或用于按月付款
    苹果将为iPhone和其他硬件开发订阅服务或用于按月付款

  • 那个NB的中国移动,又回来了?

  • 融资丨「微步在线」完成超3亿元E+轮融资,鼎晖投资领投

  • 融资丨「知行科技」完成亿元C+轮融资,讯飞创投与招商启航联合领投

  • 融资丨「纵目科技」完成超过10亿元E轮融资,东阳冠定领投

  • 手机厂商的”围剿“,已让第三方应用商店无路可退

  • Transformer将在AI领域一统天下?现在下结论还为时过早

  • 腾讯音乐与网易云音乐:不争周杰伦争什么?

  • 统信桌面操作系统V20专业版正式发布新增一系列全新特性
    统信桌面操作系统V20专业版正式发布新增一系列全新特性

  • 宁德时代成为新能源产业首家“零碳工厂”
    宁德时代成为新能源产业首家“零碳工厂”

  • 微软Xbox平台预计2026年可获得7%市场份额
    微软Xbox平台预计2026年可获得7%市场份额

  • 亨通光电:光纤光缆集采价格处于底部,行业生态大幅修复
    亨通光电:光纤光缆集采价格处于底部,行业生态大幅修复

  • 跨境电商SaaS站在风口

  • 湖北的造纸业怎么就支棱起来了?

  • 疫情下的郑州奶茶店,加盟蜜雪冰城,我为什么挣不到钱?

  • 居家隔离,拦不住我搞钱

  • 全球投融资周报 | 「文远知行」获4亿美元融资,投后估值44亿美元;科技鞋履品牌「Miracle Miles」获1亿美金A轮融资

  • 2022年,中国餐饮数字化进行到哪一步了?

  • 十大关键词,看2022元宇宙的落地应用

  • 在淘宝找了几次陪聊,我终于明白了为何陌陌、探探、Soul会衰落

  • 空气炸锅走红,背后蕴藏的“流量经济学”

  • 蔚来财报里的两张大饼

  • 阿里回购股份规模至250亿美元;海底捞2021年净亏损41.63亿;百果园计划4月递交招股书;瑞幸门店数达到6024家丨消费周报

  • 从Usmile到素士,电动牙刷网红好当,就是卖不动

  • 一年赚21亿却只盈利1个亿,雍禾医疗难挖出秃发金矿?

  • Facebook开了TikTok账号,图啥?

  • 这个上古社区是遗珠还是弃子?

  • 真人偶像“爱”塌房,虚拟偶像能小火却难出圈

  • 把生活“装”进瓶子里的人

  • 李佳琦否认“出走淘宝”;罗永浩拿天价“分手费”,将进军AR;王者荣耀重回全球手游收入第一丨文娱周报

  • 罐头“拯救计划”不顺利?

  • 是谁在复活瑞幸?

  • 中富通:与福建供销集团签订战略合作协议

  • 垂直SaaS的增长密码在哪里

  • 字节跳动,又收编了一个团队

  • 国家药监局已批准17个新冠病毒抗原检测试剂;复宏汉霖PD-1单抗获批上市;和元生物登陆科创板,上市首日涨幅超65%丨医线周报

  • 穿云破雾,复星国际的四大能力和一张蓝图

  • Figma断供大疆,对国产设计软件的启示

  • 不是制造业需要钉钉,而是钉钉需要制造业

  • 挚文集团财报背后:基本盘稳定中的新耐力长跑

  • 金龙鱼收入比天高、利润比纸薄

  • 股价涨!中国移动回A首份年报出炉:杨杰这么解读

  • 破解海量异构数据存储难题,分布式大行其道

  • 如何做好一个分析?

  • 白象“翻红”,可复制的四个逻辑思维

  • 解读乐享集团财报:“等风者”第二次穿越周期

  • 地狱开局的2022,穿好你的安全铠甲

  • 国产设计工具靠什么取代Figma?

  • 融资丨「MISTINE」完成超2亿元A轮融资,凯辉基金领投

  • 墨奇科技携手浪潮信息共建元脑生态,加速AI产业化应用

  • 百度飞桨智慧城市核心技术大揭秘—智慧社区篇

  • 国内IPv6离“全面通车”还差几步?

  • 中国互联网的下一场硬仗 | 衣公子

  • Firefox 拉黑中国,Figma 断供大疆!

  • 2022年快消品行业数字化呈现六大发展趋势

  • Adobe,元宇宙背后的“工具人”已准备就绪

  • 一望无际的产业升级,是浪潮K1 Power无限的未来图景

  • 元宇宙的创业姿势

  • 中外SaaS差在哪?一个在做大产业规模,一个还在研究“赛道”

  • 重庆市关于组织开展2022年国家科技型中小企业评价工作的通知

  • 给GNN一堆数据,它自己发现了万有引力定律

  • 电信运营商2021年财报概要分析,总利润率水平比较稳定!

  • 中国移动回A股后首份年报出炉,三大运营商2021年谁最赚钱?

  • 裴宇:初创公司的第一款手机将在2022年推出
    裴宇:初创公司的第一款手机将在2022年推出

  • 苹果高管:MacStudio设计源于公司几十年来的工作
    苹果高管:MacStudio设计源于公司几十年来的工作

  • 被评为“十大不推荐产品”、净利润下滑…… 涪陵榨菜的急转直下?

  • 52个Martech关键词:SCRM

  • 假冒上市被揭发,这家公司有何来头?

  • 卖菜太难了

  • 京喜拼拼撤城,京东下沉的退与困

  • 烘焙培训:轻松高薪背后,又是一场收割游戏?

  • 茅台自营电商复活,股民、黄牛最开心,你可能还是买不到便宜飞天茅台

  • 宝洁道歉

  • 投中商汤科技之前,他坐了三年冷板凳

  • 隐私协议太长?为啥就不能给用户划个重点呢

  • 4680电池,特斯拉的新镰刀

  • 攒了三年的老本,海底捞一次全亏了

  • 餐饮生意越来越难做了!都是存量时代的“锅”?

  • 大众视线外的中戏上戏毕业生,他们怎么样了?

  • 联通数科:实力战“疫”,有我守“沪”!

  • 13.78亿!虎年智慧政务第一单,大肉谁吃?四大运营商喝了点汤——

  • 海外创投丨就业SaaS提供商「Omnipresent」完成1.2亿美元B轮融资,腾讯、Kinnevik领投

  • 又一位中国联通冬奥款待执行天团队员,找到了!

  • 不满意、有问题,来联通,找老总!

  • 创业圈最新流行的融资方式:用营收换投资,FinTech创新者向风投和银行宣战

  • 人事 | 中国电信一位二级副,被知名上市公司聘为总裁!

  • 百度百科联合百度超级链发行濒危动物数字藏品助力生物多样性保护

  • 狂揽3.3亿会员,肯德基的社群深耕策略首曝光!

  • 「我监督别人睡觉、备考、减肥,月入20万」

  • 提案没收大户的Token,说好的"私有财产不可侵犯"呢?

  • 融资丨「快弹科技」完成千万元Pre-A轮融资,钧鸣资本独家投资

  • IP NFT+SocialFi,EUTERPE将如何打开NFT与版权市场?

  • 投研报告 |加密音乐版权NFT平台Euterpe(BCE)

  • 分布式自治组织:DAO

  • 融资丨「Fabrie文档」完成数千万元Pre-A轮融资,火山石投资领投、红杉资本和BAI资本跟投

  • HR SaaS平台Omnipresent完成1.2亿美元B轮融资,腾讯领投

  • 保护人脸识别中的隐私安全,人脸图像加密公司D-ID完成2500万美元B轮融资

  • 腾讯过去一年的不顺当,都写进这份财报了

  • 虚拟人:「虚火」过旺

  • 微软加速器访谈 | 菱歌科技创始人兼CEO栾晔:女性在数字化信息的世界获得更多的自由和成功

中国智能在线