环球快讯:2022生成模型进展有多快？新论文盘点9类生成模型代表作

萧箫发自凹非寺量子位 | 公众号 QbitAI

ChatGPT的出现，彻底将生成AI推向爆发。

但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输入的就有7种——

图像、视频、代码、3D模型、音频、文本、科学知识……

(资料图)

尤其2022年，效果好的AI生成模型层出不穷，又以OpenAI、Meta、DeepMind和谷歌等为核心，发了不少达到SOTA的模型。

这不，立刻有学者写了篇论文，对2022年新出现的主流生成模型进行了年终盘点。

一起来看看这两年间，各领域的AI生成模型进展究竟怎么样了。

9大生成模型，最新代表作是？

这篇论文将AI生成模型分成了9大类。

下图是2022年前后，在生成效果上达到最优的模型总览：

除了谷歌LaMDA和Muse以外，所有模型均为2022年发布。

其中，谷歌LaMDA虽然是2021年发布的，但在 2022年又爆火了一波；Muse则是2023年刚发布的，但论文声称自己在图像生成性能上达到SOTA，因此也统计了进去。

文本-图像生成

这方面的代表作有DALL-E2、Stable Diffusion、Imagen、Muse。

DALL·E2 是来自OpenAI的生成模型，在零样本学习上做出大突破。与DALL·E一样，两点依旧是CLIP模型，除了训练数据庞大，CLIP基于Transformer对图像块建模，并采用对比学习训练，最终帮助DALL·E2取得了不错的生成效果。

下图是DALL·E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴犬”生成的图像：

Imagen 来自谷歌，基于Transformer模型搭建，其中语言模型在纯文本数据集上进行了预训练。Imagen增加了语言模型参数量，发现效果比提升扩散模型参数量更好。

下图是Imagen根据“一只可爱的柯基住在寿司做的房子里”生成的图像：

Stable Diffusion 由慕尼黑大学的CompVis小组开发，基于潜在扩散模型打造，这个扩散模型可以通过在潜表示空间中迭代去噪以生成图像，并将结果解码成完整图像。

Muse 由谷歌开发，基于Transformer模型取得了比扩散模型更好的结果，只有900M参数，但在推理时间上比Stable Diffusion1.4版本快3倍，比Imagen-3B和Parti-3B快10倍。

下图是Muse与DALL·E2和Imagen的生成效果对比：

文本-3D模型生成

主要代表作有Dreamfusion、Magic3D。（这里没有把OpenAI的Point·E统计进去，可能是生成效果上没有达到SOTA）

DreamFusion 由谷歌和UC伯克利开发，基于预训练文本-2D图像扩散模型实现文本生成3D模型。采用类似NeRF的三维场景参数化定义映射，无需任何3D数据或修改扩散模型，就能实现文本生成3D图像的效果。

下图是DreamFusion生成“穿夹克的松鼠”3D效果：

Magic3D 由英伟达开发，旨在缩短DreamFusion图像生成时间、同时提升生成质量。具体来说，Magic3D可以在40分钟内创建高质量3D网格模型，比DreamFusion快2倍，同时实现了更高分辨率，并在人类评估中以61.7%的比率超过DreamFusion。

图像-文本模型生成

主要代表作有Flamingo、VisualGPT。

Flamingo 是DeepMind推出的小样本学习模型，基于可以分析视觉场景的视觉模型和执行基本推理的大语言模型打造，其中大语言模型基于文本数据集训练。输入带有图像或视频的问题后，模型会自动输出一段文本作为回答。

VisualGPT 是OpenAI制作的图像-文本模型，基于预训练GPT-2提出了一种新的注意力机制，来衔接不同模态之间的语义差异，无需大量图像-文本数据训练，就能提升文本生成效率。

文本-视频模型生成

主要代表作有Phenaki、Soundify。

Phenaki 由谷歌打造，基于新的编解码器架构C-ViViT将视频压缩为离散嵌入，能够在时空两个维度上压缩视频，在时间上保持自回归的同时，还能自回归生成任意长度的视频。

Soundify 是Runway开发的一个系统，目的是将声音效果与视频进行匹配，即制作音效。具体包括分类、同步和混合三个模块，首先模型通过对声音进行分类，将效果与视频匹配，随后将效果与每一帧进行比较，插入对应的音效。

文本-音频模型生成

主要代表作有AudioLM、Jukebox、Whisper。

AudioLM 由谷歌开发，将输入音频映射到一系列离散标记中，并将音频生成转换成语言建模任务，学会基于提示词产生自然连贯的音色。在人类评估中，认为它是人类语音的占51.2%、与合成语音比率接近，说明合成效果接近真人。

Jukebox 由OpenAI开发的音乐模型，可生成带有唱词的音乐。通过分层VQ-VAE体系将音频压缩到离散空间中，损失函数被设计为保留最大量信息，用于解决AI难以学习音频中的高级特征的问题。不过目前模型仍然局限于英语。

Whisper 由OpenAI开发，实现了多语言语音识别、翻译和语言识别，目前模型已经开源并可以用pip安装。模型基于68万小时标记音频数据训练，包括录音、扬声器、语音音频等，确保由人而非AI生成。

文本-文本模型生成

主要代表作有ChatGPT、LaMDA、PPER、Speech From Brain。

ChatGPT 由OpenAI生成，是一个对话生成AI，懂得回答问题、拒绝不正当的问题请求并质疑不正确的问题前提，基于Transformer打造。它用人类打造的对话数据集、以及InstructGPT数据集的对话格式进行训练，此外也可以生成代码和进行简单数学运算。

LaMDA 基于Transformer打造，利用了其在文本中呈现的长程依赖关系能力。其具有1370亿参数，在1.56T的公共对话数据集和网页文本上进行训练，只有0.001%的训练数据被用于微调，这也是它效果好的原因之一。

PEER 由Meta AI打造，基于维基百科编辑历史进行训练，直到模型掌握完整的写作流程。具体来说，模型允许将写作任务分解成更多子任务，并允许人类随时干预，引导模型写出人类想要的作品。

Speech from Brain 由Meta AI打造，用于帮助无法通过语音、打字或手势进行交流的人，通过对比学习训练wave2vec 2.0自监督模型，基于非侵入式脑机接口发出的脑电波进行解读，并解码大脑生成的内容，从而合成对应语音。

文本-代码模型生成

主要代表作有Codex、AlphaCode。

Codex 是OpenAI打造的编程模型，基于GPT-3微调，可以基于文本需求生成代码。首先模型会将问题分解成更简单的编程问题，随后从现有代码（包含库、API等）中找到对应的解决方案，基于GitHub数据进行训练。

AlphaCode 由DeepMind打造，基于Transformer模型打造，通过采用GitHub中715.1GB的代码进行预训练，并从Codeforces中引入一个数据集进行微调，随后基于Codecontests数据集进行模型验证，并进一步改善了模型输出性能。

文本-科学知识模型生成

主要代表作有Galactica、Minerva。

Galatica 是Meta AI推出的1200亿参数论文写作辅助模型，又被称之为“写论文的Copilot模型”，目的是帮助人们快速总结并从新增论文中得到新结论，在包括生成文本、数学公式、代码、化学式和蛋白质序列等任务上取得了不错的效果，然而一度因为内容生成不可靠被迫下架。

Minerva 由谷歌开发，目的是通过逐步推理解决数学定量问题，可以主动生成相关公式、常数和涉及数值计算的解决方案，也能生成LaTeX、MathJax等公式，而不需要借助计算器来得到最终数学答案。

其他生成模型

主要包括Alphatensor、GATO、PhysDiff等“其他生成模型”。

AlphaTensor 由DeepMind开发，懂得自己改进矩阵乘法并提升计算速度，不仅改进了目前最优的4×4矩阵解法，也提升了70多种不同大小矩阵的计算速度，基于“棋类AI”AlphaZero打造，其中棋盘代表要解决的乘法问题，下棋步骤代表解决问题的步骤。

GATO 由DeepMind开发，基于强化学习教会大模型完成600多个不同的任务，包含离散控制如Atari小游戏、推箱子游戏，以及连续控制如机器人、机械臂，还有NLP对话和视觉生成等，进一步加速了通用人工智能的进度。

PhysDiff 是英伟达推出的人体运动生成扩散模型，进一步解决了AI人体生成中漂浮、脚滑或穿模等问题，教会AI模仿使用物理模拟器生成的运行模型，并在大规模人体运动数据集上达到了最先进的效果。

作者介绍

两位作者均来自西班牙卡米亚斯大主教大学（Universidad Pontificia Comillas）。

一作Roberto Gozalo-Brizuela，目前是卡米亚斯大主教大学研究助理（Investigador asociado），从事AI相关的项目研究工作。

Eduardo C. Garrido-Merchán，卡米亚斯大主教大学助理教授，研究方向是贝叶斯优化、机器学习、强化学习、生成式AI等。

你感觉哪个领域的生成式AI进展最大？

萧箫 发自 凹非寺 量子位 | 公众号 QbitAI

9大生成模型，最新代表作是？

文本-图像生成

文本-3D模型生成

图像-文本模型生成

文本-视频模型生成

文本-音频模型生成

文本-文本模型生成

文本-代码模型生成

文本-科学知识模型生成

其他生成模型

作者介绍

推荐内容

环球快讯:2022生成模型进展有多快？新论文盘点9类生成模型代表作

今日快看!美版头条ChatGPT上岗写稿消息一出，股价暴涨119%，此前刚裁员12%

每日聚焦：DeepMind关闭首个海外实验室：设立仅五年！受硅谷大裁员影响！

天天观速讯丨科普 | NFT是如何存储的？链上、链下和去中心化存储（抗审查）

观天下！私域动态：德邦与京东签署服务协议;小米回应汽车设计文件泄密;有赞计划授出1445万份购股权…

天天看点：NFT的特点与风险 | 金融科技

天天观天下！谷歌要被分拆了？

每日信息：大厂元宇宙，又菜又爱玩

AR正从社交入侵、蔓延 | VR陀螺

【全球快播报】百胜软件牵手现象级母婴品牌Babycare，中台助力智慧新门店项目起航！

微资讯！裁员11000人，微软也扛不住！互联网巨头都怎么了？

全球焦点！数字化案例来袭——微创数据中台赋能联交所实现一网交易改革目标

即时焦点：这个春节，一款好用的浏览器能为用户做什么？

头条焦点：回顾2022，值得关注的10个数字化最佳实践报告丨爱分析报告

等了十年！iOS17更新，终于等来了这项重大改变！

环球今日讯！中国互联网的流量屏障能否被打破？

私域动态：视频号官宣2023年"竖屏看春晚";快手新增拦截物流服务;喜马拉雅实现十年来首次盈利…

花费665亿，阿里巴巴收购“饿了么”后，发展趋势怎么样？

世界微动态丨中国科学院2023跨年科学演讲：复兴路上的科学力量-中国科学院

中国联通长航时无人机应急通信验证成功！基站下载速率10Mbps

每日热门：大降60%的通信资费，为何仍被嫌弃“贵了”？

当前快讯:联合国发布《2022-2025年数字战略》，建设包容、可持续的数字社会

当前速讯：京东云牵头发布《隐私计算白皮书（2022年）》，助力实体经济建设数智供应链

每日动态!打开新年新方式，从UC开启兔年智能新体验

每日报道：TOPBRAND | 百度旗下小度科技完成B+轮融资；乐华娱乐上市；乐乐茶回应或开放加盟；达能调整最新高层

【全球热闻】小红书能让小众爱好走向大众消费吗？

联想中国区发起重大组织调整 六大纵队走向前台

当前头条：PyTorch 称霸，TensorFlow 正在“无声”消亡？

世界通讯！米哈游总裁刘伟：计划在2030年打造出10亿人元宇宙虚拟世界

天天观察：用远见超越未见｜回溯2022，看山石网科匠心育人之路

每日速讯：谈谈吓坏马斯克的 ChatGPT 与沸腾的 Web3 AI 赛道

热文：Amazon DeepRacer 自动驾驶总决赛收官，店匠科技斩获全国四强

当前快报:智慧家庭应用推广或将由运营商主导 互联网、科技公司能怎么争

天天快资讯：微软或又将裁员？微软发言人：纯属谣言

环球看热讯：各地数据交易所掀起建设热潮 数据要素市场蓬勃增长

秘密筹备五年、一朝走到裁员，谷歌的增长新希望破灭了？

当前报道:微创软件荣膺国际数字服务大会双项大奖!

世界讯息：Web3基础设施OORT黄皮书

环球新资讯：传微软将继续裁员1.1万人

Web3基础设施OORT白皮书

微资讯！《春节互联网人吹水黑话大全》

天天看点：数据要素政策解读纪要

聚焦：B站up主用千亿级参数模型训练出的AI小姐姐，竟让骗子倒贴520

百度，一直在掉队，从未被超越？

天天快资讯丨施耐德电气Galaxy PX：重新定义模块化UPS的极限与极致

最新快讯!美的集团董事长兼总裁方洪波方：纵情向前，繁星满天

长风合睿空间企服小程序正式上线，一键解锁企业资源链接

环球今日报丨一文看懂AR技术原理

【新视野】趣丸科技拓路元宇宙，技术创新打造普惠平台

今日热闻!聚观早报 | 硅谷大数据龙头Palantir扩招

ps照片换底色最简单方法是什么？ps照片美白处理教程是什么？

cmd怎么开启端口命令？用cmd命令打开端口？

天天观速讯丨科普 | NFT是如何存储的？链上、链下和去中心化存储（抗审查）

今日快看!美版头条ChatGPT上岗写稿消息一出，股价暴涨119%，此前刚裁员12%

error500怎么解决？error未知错误该怎么办？

环球快讯:2022生成模型进展有多快？新论文盘点9类生成模型代表作

cmd如何关掉某个端口？cmd查看端口是否开放？

天天快看：全国铁路今日预计发送1200万人次 开行列车10689列

每日聚焦：DeepMind关闭首个海外实验室：设立仅五年！受硅谷大裁员影响！

世界热门:融资丨「谱天生物」完成近亿元A轮融资，鼎晖百孚独家投资

环球视讯！美版今日头条宣布ChatGPT上岗写稿，股价暴涨119%

视焦点讯！特斯拉故事重塑，考验信仰的时刻到了

每日信息：大厂元宇宙，又菜又爱玩

天天看点：NFT的特点与风险 | 金融科技

天天观天下！谷歌要被分拆了？

观天下！私域动态：德邦与京东签署服务协议;小米回应汽车设计文件泄密;有赞计划授出1445万份购股权…

AR正从社交入侵、蔓延 | VR陀螺

萧箫发自凹非寺量子位 | 公众号 QbitAI

联想中国区发起重大组织调整六大纵队走向前台

当前快报:智慧家庭应用推广或将由运营商主导互联网、科技公司能怎么争

环球看热讯：各地数据交易所掀起建设热潮数据要素市场蓬勃增长

天天快看：全国铁路今日预计发送1200万人次开行列车10689列

全球最资讯丨肚子怎么瘦如何瘦肚子

实时焦点：* 次数：9999999 已用完请联系开发者* 佛教打坐的正确方法更利于冥想修行

【天天播资讯】《中国奇谭》的核心，是不听劝