大数据文摘授权转载自夕小瑶的卖萌屋

作者:Severus

今年清明节,Google 搞了一点小动作,在 arxiv 上放出了自己的新工作,PaLM[1] (PaLM: Scaling Language Modeling with Pathways)。

这是自去年,Jeff Dean 谈论下一代 AI,提出 Pathways[2] 架构之后,其第一次秀出了自己的成绩。既然秀肌肉的一件工作,我们不必怀疑,其在各大不同的基准任务上,能展现出什么样的非凡能力。

论文发出之后,各家大V迅速跟进,各种解读铺天盖地,关于它是什么样子的,它的实现细节,它展现了什么样的效果,已不必赘述。今天,我想要谈一谈,Pathways 及其背后的思想,可能会开启什么新的纪元?为什么 Jeff Dean 认为它是下一代的 AI 架构?

缘起:Swtich Transformer

事情还是要回到去年1月份。彼时以 GPT-3 为首,预训练语言模型界刮起了大模型之风。当然,这股风浪到现在也没有过去,千亿级别的大模型,仍然是你方唱罢我登场。而在那个时候,Google 一篇 Switch Transformers[3] 引起了我的注意。说来惭愧,当时我注意到这篇工作,还是因为某公众号提出了“万亿”这一关键词。而彼时由于大模型的风刮了太久,对这种工作我充满了不屑,且 Google 是出了名的“大力出奇迹”,我也仅仅是将其当成了卷出新高度的工作,打开看了一眼。

我承认,我被打脸了,Switch Transformers 想要秀出来的,不只是 Google 的厨力有多强,更在于,他们翻出了一个古老而优美的架构——Geoffrey Hinton 于1991年提出的,混合专家模型[4](Mixture Of Experts,下称 MoE)。

MoE,与我们通常所理解的 DNN模型的很大区别是,其内部不是由一个统一的模型组成,而是由若干个小模型组成,一次计算会使用哪些小模型,由一个稀疏门控系统决定[5]。当时我注意到的是,把大模型变成若干个小模型,技术上的意义则是,计算量会降低,运算效率会变快,自然,模型的总参数量也就可以变得更大。

需要说明的是,在这个时候,我对 MoE 前景的理解是极其浅薄的,那个时候的我根本没有看到,其后面的巨大价值。

而到了去年10月底,也就是 Pathways 发布临近,马后炮地说,我在和同事畅想未来的时候,也提出了类似的设想,并将之放在了我11月的技术分享中,作为“未来篇”的结尾。现在想来,这是一个美好的巧合,从当前 AI 技术的发展步调来看,却也是一个历史的必然。

以我老 CS 人的嗅觉,我发现,MoE 的潜在价值在于其工程思想,这一架构,给多任务,乃至多模态提供了一个新的、且我认为更加靠谱的方向。

无限统合

首先,既然 MoE 的各个专家由稀疏门控制,则专家之间相互可看作是独立的。那么我们就可以做一个非常朴素的猜测,不同的任务,可以由门控系统分配给不同的专家来处理,这样任务之间就不会有太大的影响。这一点个人认为是比较重要的,因为不同的任务,大概率会有相互之间冲突的地方,虽然大模型可以依靠大规模参数所带来的记忆能力,缓解这一问题。

通常多任务学习的前提假设是,多个任务之间,是可以互相增益的,其潜在逻辑在于,多个任务所应用到的知识,存在共通的地方。实际上,预训练模型或预训练特征(word2vec等),就是找到一种看上去所有任务都会用到的自监督特征,使用大量的语料训练出来,保证覆盖,使之在迁移学习上成立。

而独立,则可以真正地让一个系统处理多个任务。

而如我上面所提,那不是就意味着,多个任务之间共通的那部分特征也就独立,造成不必要的冗余了呢?实际上,哪怕只有一个任务输入到 MoE 系统中,也不可能只激活一个专家,单个任务,也有可能同时激活多个专家, 那么,我们是否可以认为,激活的这多个专家,实际上已经把这个任务给拆解开了呢?理想状况下,被激活的各个专家各司其职,分别抽取一部分特征,再通过某种方式结合起来,决定了模型的输出。

那么,多任务场景之下,理想状况下,就可以认为,任务之间共通的知识,由相同的专家学到,而任务之间差异的知识,则由不同的专家捕捉,二者有机结合,形成了一个统合的多任务系统。

说到这,我们就可以把脑洞开的更大一些了,多任务可以解决,多模态能否解决呢?

我认为,Pathways 所代表的思想,是一种更加有力的多模态解决方案。

多模态与 Pathways

当前多模态最大的困境是什么呢?实际上是数据空间无法对齐。以文本与图片为例,请小伙伴们同我思考,当我说出“一匹马”的时候,你的脑海中会想象出多少张图片?

而当我让你描述这样一张图片的时候,你的脑海中又能蹦出多少种描述方式?

我想这两个问题的答案,都是无限,对吧?这也就意味着,通用意义上,或当任务空间足够大的时候,图片和文本数据,是不可能对齐的。数据无法对齐,训练过程中,多模的知识自然也会趋向过拟合式的绑定,这也就意味着,单个 dense 网络结构的多模态模型,仅仅可以处理足够窄场景的多模任务,如某音的短视频搜索。

而到了 MoE 中,如我前面所说,不需要做数据对齐,同时也没有直接去硬性组合最终的输出,而是在中间层的抽象特征上,做了映射和组合。这样一种结构,不敢说通用,至少处理更大场景、更多元的多模任务时,看上去更加合理一些。

那么我们可以大胆设想,预训练-微调可以是这个样子的:训练一个包罗万象的大模型,由这个大模型,则可以导出各种处理专用任务的小模型,这可能才是有钱有算力的机构的使命所在。由于大模型是保罗万象的,内部是由多个独立专家组成的,我们不必再担心 fine-tuning 会破坏模型原本学到的知识,预训练阶段学到的知识也能够得到更好的利用。

最后一部分,我想要从另一个角度,谈一下为什么我相信 Pathways。

从认知科学的角度

人工智能研究的目标之一,是真正做出一个强智能,而由于目前,我们能够参考的唯一一个真正的强智能,只有我们自己,所以接下来,我将以我对人脑粗浅的认识为类比,继续聊一聊 Pathways。

我们继续以多模态为例。首先,人处理信息的时候,一定是多模态的,这个已经是一个常识了。所以多模态也一定是 AI 的趋势。但是,单个 dense 模型的多模态研究,前文已提到,需要的是数据的对齐,而用认知的话来讲,则是用一个感知系统去处理多种感知信号(需要说明的是,这里所说的感知系统与器官不是等同概念)。

是的,人是多模的,但是,人不是这么处理感知信号的,对于不同形式的感知信号,人是有不同的感知系统对应处理的,而同时又有认知系统进一步处理感知信号,形成我们对世界的认知。

人脑是有多个感知系统的,而感知系统之间,又是相对独立的,不同的感知系统有可能分布在不同的脑区。同时,去年我关注到毕彦超老师关于知识的双重编码理论的工作[6],他们的实验结论表明,先天盲人也是能够通过认知系统,学习到“红色”这一概念的,也就说明了,即使对于颜色的感知系统缺失了,人依旧能够学会颜色概念。同时,通过核磁共振成像,也可以观察到,在提到颜色概念时,先天盲人被激活的脑区,和视觉正常的人被激活的脑区,是不一样的。也就说明,感知系统和认知系统也分布在不同的脑区,且相互独立。

这种结构,保证了很好的容错能力。即,人的某一个感知系统出现问题了,一般不会影响到其他的感知系统(双目失明的人同样可以听到声音,尝到味道);而某一感知系统缺失,也可以不影响人的认知。

那么,我们将这些对应到我上文所讲到,Pathways 的前景上,是不是可以说,相比于单纯的堆砌神经元数量,它和目前认知科学所理解到的,大脑的运行机制,非常像呢?不同的感知系统,对应不同的专家网络,而从感知到认知,则在系统中作为抽象特征组合,也由更高层次的专家网络处理,部分通用的知识,也由认知系统存储了下来;且不同的模态,或不同的特征可以缺省,增强了整体的容错能力。从这个角度来看,的确,下一代的智能可能就应该是这个样子的。

我不敢妄言具象的 Pathways 一定就是未来,从最抽象的意义上讲,它提出了一条可行的路径,或许可以通往智能。

当然,做这个东西的大前提是,有钱……

推荐内容

  • 谷歌称之为“下一代 AI框架”, Pathways真有那么强吗?

  • 戴尔商用全场景:打开“时空”里的生产力

  • 数字化助力品牌高质量发展,数说故事受邀出席周大福93周年峰会

  • 黑客攻击白俄罗斯国家铁路系统影响运营

  • 共109个!河南公布首批数字化转型典型应用场景名单

  • 「数据新星」Databricks 崛起启示录

  • 人工智能应用加持,戴尔科技升级混合办公新体验

  • BAT数字藏品大战,打到太空了

  • 朋友圈:十年一觉社交梦

  • 科大讯飞年报解析:营收日进5000万,连续10年涨幅25%,连续13年分红

  • 抢滩陌生人社交:挚文破圈

  • Keep不需要刘畊宏

  • 工信部启动示范项目申报,广电5G可加入

  • 诚毅软件中标中国广电经营分析系统二期项目

  • 中国广电2022年度光缆产品集采购项目招标

  • 中兴通讯首季开局稳健 实现营收279亿 净利22亿

  • B站、快手、抖音之后,小红书怎么做音乐社区?

  • 新华三智慧IT:夯实加速数字化转型的绿色“根基”

  • 网络安全产品提供商雪诺科技完成数千万元天使轮融资

  • 大而全还是小而美,财税SaaS的两种选择

  • 中国电信集团副总刘桂清兼任重要职务

  • 5月1日起施行,取消初中毕业后普职分流

  • 《数字化工厂 价值链数据管理技术要求》团体标准发布,奇点云参与起草

  • 知乎屡被传裁员后业绩连续亏损!

  • 白话版,聊聊“深度学习”

  • 接过了国产化替代这杆大旗 星环科技的自研更有底气

  • 破局而立的以太全光网,凭什么站在企业级园区网络的“上风处“?

  • 吴说每周矿业资讯:0418-0424 美国制裁俄罗斯矿业

  • 社交购物元宇宙七朋元视界创新元宇宙新型购物体验

  • 2021年亚马逊Alexa设备出货量锐减 导致智能音箱市场回落

  • 主流媒体人 | 元宇宙和媒体传播的未来!

  • 腾讯「NokNok」APP上线

  • 企业如何进行数字化转型?零代码简道云剑指「全民开发」新机遇

  • 开发者注意!据传App Store 将下架长期未更新App!

  • 严重了!联通某公司因这个违法行为被处罚!

  • 清明接到紧急任务,联通人秒变装修工!

  • 嘘!让这些联通人再睡会儿……

  • 联通云“出圈”深耕法律界!多位正部、副部领导亲临见证!

  • 聊一聊知乎的招股书

  • 扎克伯格Meta元宇宙被质疑:年均烧百亿美元,货要等十年

  • 中国NFT维权第一案背后的制胜法宝原来是它

  • 星期六股份想“脱鞋”,遥望虚拟人路难走

  • 应用不更新,就该被苹果、谷歌赶尽杀绝吗?

  • 上上签和e签宝产品对比如何?哪个评价好?哪家性价比更高?

  • “东数西算”大潮之下,重新认识联想

  • Web3真的有未来吗

  • 老罗跑路,锤子回归!将推出一款新品,能一雪前耻吗?

  • 为了这双手套,大厂们又卷起来了

  • 王思聪摊上大事了!

  • 每天少玩手机一小时,生活就能更幸福和健康

  • 戴尔商用全场景:打开“时空”里的生产力

  • 谷歌称之为“下一代 AI框架”, Pathways真有那么强吗?

  • 「数据新星」Databricks 崛起启示录

  • 融资丨「影刀RPA」完成1亿美元C轮融资,高盛领投

  • 黑客攻击白俄罗斯国家铁路系统影响运营

  • 融资丨「粒界科技」完成数千万美元B+轮融资,百度风投、建信信托、朗玛峰创投共同领投

  • 朋友圈:十年一觉社交梦

  • 人工智能应用加持,戴尔科技升级混合办公新体验

  • Keep不需要刘畊宏

  • 数字化助力品牌高质量发展,数说故事受邀出席周大福93周年峰会

  • 抢滩陌生人社交:挚文破圈

  • 共109个!河南公布首批数字化转型典型应用场景名单

  • 面对疫情焦虑,职场人如何做好心态建设和防护?

  • BAT数字藏品大战,打到太空了

  • 科大讯飞年报解析:营收日进5000万,连续10年涨幅25%,连续13年分红

  • 如何一眼看穿一个人的真实水平?

  • 满街都是“亲兄弟”,餐饮业深陷同质化“怪圈”

  • 工信部启动示范项目申报,广电5G可加入

  • 中国广电2022年度光缆产品集采购项目招标

  • 中兴通讯首季开局稳健 实现营收279亿 净利22亿

  • B站、快手、抖音之后,小红书怎么做音乐社区?

  • 新华三智慧IT:夯实加速数字化转型的绿色“根基”

  • 诚毅软件中标中国广电经营分析系统二期项目

  • 电子签没抽到“上上签”

  • 我花钱,宠物受罪

  • 我对阿里战略思路的理解

  • 廉价电动汽车“消失”,小电驴要抢宏光mini们的风头?

  • 融资丨「大族机器人」完成近2亿元B+轮融资,无锡新投等参与投资

  • 13位一线投资人“伯乐团”pick最具潜力的“千里马”项目啦,错过机会再等一年

  • 融资丨「领鹊科技」完成近亿元A轮融资,IDG资本领投

  • 融资丨「通微新能源」完成天使轮融资,险峰长青独家投资

  • 融资丨「连娱宝」完成数百万元种子轮融资,与行资本独家投资

  • 融资丨「橡鹭科技」完成数亿元Pre-A轮融资

  • 瑞幸成奶茶界公敌

  • 融资丨「天港免疫」完成数亿元Pre-A轮融资,中科创星与创谷资本联合领投

  • 网络安全产品提供商雪诺科技完成数千万元天使轮融资

  • 融资丨「楷拓生物」完成数千万美金A轮融资,元生资本领投

  • 融资丨「喜姐炸串」完成7500万元A+轮融资,嘉御资本独家支持

  • 大而全还是小而美,财税SaaS的两种选择

  • 超亲石墨烯口罩使用时长是传统一次性口罩的25倍
    超亲石墨烯口罩使用时长是传统一次性口罩的25倍

  • 阿里腾讯领衔“全民回购”:3000亿筑底,还是集体强撑泡沫?

  • 融资丨「灵赋生物」完成超2亿元pre-A轮融资,国寿股权领投

  • 谁才是“正品”?辛巴、“品牌方”各执一词,真相扑朔迷离
    谁才是“正品”?辛巴、“品牌方”各执一词,真相扑朔迷离

  • 亲子游旺季来袭:有人收钱有人被收购

  • 融资丨「LifeLabs」完成数百万美元新一轮种子轮融资,绿动资本领投

  • 聚焦“国之大者”,L3级自动驾驶暴露出概念模糊问题
    聚焦“国之大者”,L3级自动驾驶暴露出概念模糊问题

  • 正积分“双增长”,皆大欢喜
    正积分“双增长”,皆大欢喜

  • 1块钱的脱口秀课,养出多少好韭菜?

  • 年轻人的野餐,人前精致人后狼狈

  • 《数字化工厂 价值链数据管理技术要求》团体标准发布,奇点云参与起草

  • 一代女装之王被迫退市

  • 知乎屡被传裁员后业绩连续亏损!

  • 破局而立的以太全光网,凭什么站在企业级园区网络的“上风处“?

  • 智能手机“钉子户”蔓延至年轻一代:需求放缓已是不争事实
    智能手机“钉子户”蔓延至年轻一代:需求放缓已是不争事实

  • 中国电信集团副总刘桂清兼任重要职务

  • 接过了国产化替代这杆大旗 星环科技的自研更有底气

  • 5月1日起施行,取消初中毕业后普职分流

  • 白话版,聊聊“深度学习”

  • 国家统计局:2022年第一季度国内光缆产量增长11.6%
    国家统计局:2022年第一季度国内光缆产量增长11.6%

  • 腾讯「NokNok」APP上线

  • 社交购物元宇宙七朋元视界创新元宇宙新型购物体验

  • 龙芯中科胡伟武:自主又兼容夯实信息产业“三箭齐发”
    龙芯中科胡伟武:自主又兼容夯实信息产业“三箭齐发”

  • 主流媒体人 | 元宇宙和媒体传播的未来!

  • 吴说每周矿业资讯:0418-0424 美国制裁俄罗斯矿业

  • 企业如何进行数字化转型?零代码简道云剑指「全民开发」新机遇

  • 苹果回应取消随附充电器:已节省55万吨铜锡锌矿石
    苹果回应取消随附充电器:已节省55万吨铜锡锌矿石

  • 台积电3nm工艺下半年生产,2nm明年量产,2023年没戏
    台积电3nm工艺下半年生产,2nm明年量产,2023年没戏

  • 2021年亚马逊Alexa设备出货量锐减 导致智能音箱市场回落

  • 扎克伯格Meta元宇宙被质疑:年均烧百亿美元,货要等十年

  • 应用不更新,就该被苹果、谷歌赶尽杀绝吗?

  • 上上签和e签宝产品对比如何?哪个评价好?哪家性价比更高?

  • 严重了!联通某公司因这个违法行为被处罚!

  • “东数西算”大潮之下,重新认识联想

  • 王思聪摊上大事了!

  • 老罗跑路,锤子回归!将推出一款新品,能一雪前耻吗?

  • 中国NFT维权第一案背后的制胜法宝原来是它

  • 清明接到紧急任务,联通人秒变装修工!

  • Web3真的有未来吗

  • 开发者注意!据传App Store 将下架长期未更新App!

  • 为了这双手套,大厂们又卷起来了

  • 每天少玩手机一小时,生活就能更幸福和健康

  • 嘘!让这些联通人再睡会儿……

  • 互联网大厂纷纷“造人”背后:虚拟数字人的现状与挑战

  • 联通云“出圈”深耕法律界!多位正部、副部领导亲临见证!

  • 星期六股份想“脱鞋”,遥望虚拟人路难走

  • 聊一聊知乎的招股书

  • 显卡危机500天:只有NVIDIA和AMD赢麻了

  • 社区团购,外火内虚

  • 另类财富管理:怎么把遗产留给宠物

  • 三线城市做LP,百亿规模投什么?

  • 小红书大裁员,全民种草时代落幕?

  • 巴比食品,一篇真实的小镇面点师逆袭爽文

  • 我在B站直播弹幕互动游戏,月入20万

  • 年轻人开始设想葬礼:记得给我烧《甄嬛传》、贴假睫毛

  • 被坑上百万,小米和酷安网友必有一战

  • 五一电影档,悬了

  • 角斗潮流电商

  • 首发丨数字安全产品提供商「雪诺科技」完成数千万元天使轮融资,纪源资本领投

  • 预制菜群雄逐鹿,品牌成为突围的“重武器”

  • 为什么被骂的,总是长视频?