导语


(相关资料图)

Generative(生成式)AI在过去的一段时间引起广泛关注,被Gartner列为2022年顶级战略技术之一,在中国信通院发布的“2022人工智能十大关键词”中排第二位。

简单理解,Generative(生成式)AI就是利用AI来生成文本、图片、音频、视频、代码、Logo、数字主播等内容的技术。详细的Gartner定义:通过各种机器学习(ML)方法从数据中学习工件的组件(要素),进而生成全新的、完全原创的、真实的工件(一个产品或物品或任务),这些工件与训练数据保持相似,而不是复制。

行业巨头和新创业公司都争先进入到Generative(生成式)AI领域中,例如ZMO.ai帮电商卖家生成逼真虚拟模特来展示服装,阿里巴巴旗下Lubanner帮助营销人员生产Banner,影谱科技帮客户自动合成影像/生产视频内容等。而这个赛道有大量的中国开发者开始活跃在全球舞台上。出海同学会71期,我们也来聊聊这个领域。

本期主要分享嘉宾

北京顺势科技 联合创始人 张国锋

INDIGO的数字镜像 主理人 Jedi Lu

经纬创投 投资人 M onica

看山击水 创始人 刘俊

来也科技 CTO 胡一川

聆心智能 联合创始人 李文珏

斯坦福商学院 硅谷徐老师

数说故事 副总裁 龚毅

Mindverse AI 联创COO Kisson

明势资本 投资经理 徐玥晨

某互联网大厂 算法研究员Rolan

某互联大厂 战略&投资 胡家康

元气学霸 创始人 季森

ZMO 创始人 张诗莹

课代表:我思锅我在 高宁

(*公司名字母序)

其余嘉宾因公司PR保密不能露出及外发内容,我们同样感谢他们的精彩输出

要点问题

GenerativeAI的行业格局?

主要应用场景是?发展到什么阶段?

全球行业标杆玩家有哪些?

有哪些行业瓶颈的技术环节?

未来可能的机会与发展方向发展?

Generative(生成式)AI的行业格局?

某互联网大厂 Rolan

我在公司主要负责AI技术落地,给游戏场景做 AI相关赋能,更多关注是技术侧。实际上现在AIGC(利用AI技术自动生成内容的生产方式)火,主要是因为 text to image 成功了,好几个工具从OpenAI的Dalle2开始,到Mid Journey和Stable Diffusion这两个工具出来后彻底火了。在中文互联网这边先火的是NovelAI,已经商业化了。

AIGC不仅仅只文字生成图片,最近也开始崭露头角的还有 AI生成视频 。以前就有,只是一直没有做得特别成功,也是借生成图片的这个范式火起来的。

对话生成 ,也一直是 AIGC 很重要的一环,只是对话生成的产品化难度比较高。

语音生产 ,近期国内有一个相对出圈的case ,米哈游前段时间在一个新游戏《未定事件薄》活动上,这是一个女性向的游戏,刚好 CV(配音演员)因为一些事没有办法参与到下一个活动配音,玩家们在说要怎么整,活动的推迟挺伤的,就用了逆熵实验室的AI 配音来替代这一次的活动角色。开始玩家们的反抗情绪是比较高的,女性向游戏特别在乎声情并茂,大家觉得可能AI配出来的不够有那味。但后来demo一出,效果特别好,按照大家的说法基本就是本人无误,在我看来也是AIGC比较关键性的一个事件,但可能是在游戏领域里才比较火。米哈游他们在做的鹿鸣虚拟人,实际上也是走的语音和动作生成,我估计都会用 AI 来替代,只是现在还没有专门对外公布技术细节和方案。

刚才我说的几个大方向,包括从text to image,text to video,以及前几天Google发布的 text to 3D model ,3D建模,已经可以看到生成的类型正在逐步扩大,也很符合早期AI发展趋势。

熟悉AI赛道的都知道,最开始做AI实际上都是在做识别,不是做生成,生成任务的普遍很难,所以到现在才开始火。一开始做识别时,实际上也是这几个数据领域类型,文本、图像、视频语音,后面才逐渐地下放到很多垂领,生成这一块技术范式打开之后,也会继续往更垂直的领域去靠拢。我个人比较关心3D生成,包括一些跟美术资源相关的生成,这些才会真正影响到工业级别的产品上面的开发流程。

ZMO 张诗莹

整个生成AI的爆发,也是因为跨模态,从文字模态到图像模态领域的爆发,让大家看到各种各样产品的出现。Dalle2、MidJourney 、开源的Stable Diffusion,都集中在今年下半年爆发。

我们更多地关注在图像,图像生成还在一个非常初级的阶段。虽然大家已经在用文字去生成图像,在很多的商用场景上产生了很多应用。我们也做image creator产品,但离工业级还有很多地方要进一步去完善。

整个图像生成领域,第一,大家可能不仅满足于art,在做产品时,发现大家更多的 focus 在各种各样的艺术品、好看的图,但在整个的应用层面, 有更多的图像类型,包括我们在做的3D生成、真实照片生成,插画生成,有很多种类是需要进一步去耕耘的。

第二点, 生成图像在我们看来是一个素材库 ,可能代替的是stock photo或在设计里所用的各种各样的素材、贴纸。除此之外,还有一个刚需的就是图像编辑,类似于美图秀秀、 photoshop图像编辑的功能。在图像生成领域,除了从无到有去生成素材之外,非常刚需的点是 能不能零门槛使用 ,可能有一个想法或者甲方爸爸有一个评论,能够说一句话,就把背景从办公室变到海边,把我的眼睛从特别小的变成特别大的,或换各种各样的发型。

在我们看来,图像生成是可以去替代可能要积累10 年、20年才能积累出来的素材库。更重要的是它也可以在图像编辑领域,可以让未来大家不用再去学非常复杂的 photoshop 的技能,可能一句话就把整个设计给编辑出来。

最后提一个小点,就是应用场景,除了art爱好者之外,大量的还是设计师和博客写手,包括游戏的character design。 大量设计师最痛苦的在于元素 ,一开始design的element,如果有了元素,再去进一步设计。帮很多设计师去解决元素的问题,帮博客写手解决他们的stock photo插入的问题,帮很多gaming designer,比如设计哪吒角色,可能先设计 100 个,再选出来好看的,再把它3D化。设计师往往希望生成100个3D形象,选一个或者说通过修改,最后改成我想要的,立刻给它绑骨能动起来。从图像到3D确实能够极大地去解决很多的动画,包括游戏工作者的实际问题。

Mindverse AI Kisson

我们做的是对话交互式AI,也是generative AI中的一种。首先从产业格局来看,transformer和GPT-3肯定是开启了新范式。之后才有Dalle2、Stable Diffusion等等。这个关系就有点像以太坊和 NFT的关系,就是从新范式到新赛道,下一步会会看到很多新的应用。

目前有几个阵营,第一大阵营就是 open AI,Google系列 ,包括OpenAI自己出的Dalle2, Google出的text to video刚出的一些模型。同时也包括 Google出来的一些创业者,像character.ai,Adept,他们的创始人都是 Transformer和Lamda (小typo)出来的,所以都非常强大。这些我觉得应该是属于第一阵营,他们做的 AI模型整体效果非常的好。

第二阵营,我自己觉得是 FB ,对话的AI来讲,FB的blenderbot在记忆方面做的很好。至于图片和视频类的AIGC他们也是早有布局。我自己之前也在Facebook工作过很多年,2018年就开始研究 AIGC能够给新的应用带来什么样的场景。比如说当时产品研发时有做一款很轻量级的尝试,哼一些歌就可以生成不同的style 出来,或者画一个简笔画,就可以通过AI变成一幅完整的画。这些其实在2018年时就尝试过。Facebook在这部分的尝试也是比较早的。

第三大阵营就是大家自己去开发出来的各种各样的模型,包括开源的模型,还有一些去中心化的,创业公司做出来的,也有很多很优秀的,包括我们讲到Stable Diffusion,也是一种开源的模型,本身也非常的优秀。

最后从媒体分类的角度,现在看到最成熟的应用就是text to image,也有越来越多的to video,这几天也有出来的to music的模型,text to game,text to movie还有text to program 等。我们会看到的一个趋势: natural language as the new UI ,UI 不是 user interface 而是universal interface ,因为未来natural language就是我们去做各种各样的交互的universal的媒介,这是一个很大的趋势。Mindverse在做的就是让大家可以通过自然语言去生成各种多媒体内容,包括对话、文本、视频、图片,而且是1:1的交互。我们相信未来的交互一定更加沉浸、自然、个性化、互动化,因此我们搭建的全脑框架AI可以接入不同的AIGC技能,让用户通过一套自然语言就可以生成这些内容,并且赋能营销、服务等各种场景。

另外一个很有启发的点,就是 视觉是非常重要的universal MVP ,AI刚出来的时候,大家会觉得可能会替代掉一些标准化的行业,但实际上它最先替代掉的不是标准化的行业,而是最具有艺术感的、最具有想象力的行业。因为这些行业,可能第一是因为它们数字化比较多,第二因为视觉真的是对于所有的用户都很重要,让一个 App 爆发、被更多人知晓的一个很重要的切入点。

INDIGO的数字镜像 Jedi Lu

我很早以前在微博的创始团队,后来做了一个很小的venture fund,投过一些出海项目。我是带着问题过来的,我去Google Colab拉了diffusion的库,把我自己的照片拿进去训练来画我的画像,测试了一下,遇到了 t raining上的效率问题, 神经网络训练新素材的训练能不能够做到更加及时一些?

第二个从投资角度上来看,视觉是最容易吸引人家注意力的,但可能并没有颠覆到传统的标准模板式的劳动,一下子打动创意行业。AI生成的作品,在细节程度上面还并不能够当素材库使用。随着训练能加强包括GPT-4出来之后,以及更大的训练规模,应该可以很快的把质图像的质量提高。因为 transformer这种模式的训练,可能会很快替换掉所有的自填 AI的这些模型,精度提高之后,应用场景会非常巨大。

下一波会在 图形创作 上面,包括我经常用的叫VideoLeap这个软件,说支持AI创造语音,帮你创作素材库,比较快速的进入到普通用户的创作工具或生产力工具里。接下来会在专业的行业里,比如说在垂直设计行业里,都会有所使用。

ZMO 张诗莹

在业内,如果直接用开源模型出来的效果确实是不够好的 ,一是模型结构要去优化的,二是训练数据,需要更大的数据量。 直接用,至少工业界我觉得可能还不能接受的。大家都基于diffusion框架,如果直接用Stable Diffusion,不去进行整个模型的优化和调优的话,细节就不会好。而且,之所以很多人都在用它去做art,因为art对于细组细节的要求不高。如果做工业级的应用,建筑设计、3D 模型设计,对于细节的要求是非常高的。

刚问到的,大家都share自己的GPU ,一起来训练,听上去像一个web3项目,其实是可以的,你是需要很多算力、数据,还有就是根据你的use case,把你的数据和结构偏向那一种use case去做,而不是非常泛的一种。做艺术,像 MidJourney是另外一种结构,都不是基于diffusion,更偏于这种暗黑系的gaming的这种艺术形式,出来的效果就会更好。所以还是要看,大家如果一起训练,得有共同的目标,效果可能才会更好。

硅谷徐老师

Generative AI 是给了我蛮多的inspiration,AI过去十几年主要还是做classification,主要还是给广告业务做事情。对大多数人来说,就是在做广告。

但是做generative AI,能够做一些比较有用的事情。诗莹说的有一点挺好的,就是现在的局限性,无论是accuracy 还是granularity 粒度 ,各方面还是有差距。我觉得问题不大,反正就是一点点做呗,朝那个方向走。

在工业界对于AI machine learning的position的要求还是蛮高的。广告你弄错了不会怎么样,有99.9%也不错了。但是在工业界,一个单子收钱、付钱,一块钱,一分钱最好也不去差。今天这些model还是有差距,只要是朝一个好的方向走,就好了。从ToB的角度来看,一个公司有各种各样的岗位,marketing,sales,能够看到很多的岗位有了generative AI以后,当然也是需要精度做得越来越好,能够代替很多的岗位。从这个角度上来讲,我是对今后五年、十年的这一块方向还是蛮 excited的。

主要应用场景有哪些?发展到什么阶段?

全球行业标杆玩家有哪些?

有哪些行业瓶颈的技术环节?

某互联网大厂 Rolan

应用场景发展到什么阶段,我个人会感觉目前最快的肯定是生成图像,也跟当初识别是一样的,最早跑出来的全是图像。图像的工具化,技术作为一个工具的落地场景是最直接的,从AI的难度上来说也相对简单。

图像和语音都属于感知级别的数据,像文字已经是认知级别的数据了,所以说一直以来都是图像和语音领域先跑出来 。语音应用场景就这么多,但图像的想象空间大很多,包括延展到视频,结合短视频想象空间就会更大了。所以图像工具化阶段基本是算完成了,现在垂领还在慢慢跑。

NovelAI 是比较专精于各种二次元图,在B站上才看到有人用这种生成工具,结合语音AI做出了一个AVG游戏,AVG就是文字型对话型的游戏,专门搞剧情。以前也有单人或者少数几人成型的情况,有这种工具加持,在不要求质量特别拔尖的情况下,量产速度肯定是比以前大很多。

我现在很多画师朋友挺焦虑的,因为工具的出现,他们要重新摆正自己的位置, 重新审视自己应该怎么样去把它当做一个工具来看待。

数说故事 龚毅

我们在 2022 年年初,上架了一款类似Jasper的写作工具,欢迎试用(www.content-note.com)。在语法或者说是表达上,AI已经做得很好了。我们拿种草文去训练的模型,只要你输入品类、品牌关键词、产品的利益点,生成的种草文从语法上问题不大了。

现在的问题是对一些垂直场景,可能要一个个场景打磨。现在我们的模型在营销文案领域的效果还是很不错的,但是在通用文案方面还缺乏一些常识作为基础。比如说写作模型不知道深南大道在深圳,在写北京旅游的时候会提到深南大道。 存在一个AI模型和知识去结合的问题。

具体突破方法是一个一个的垂直领域去打磨,但也 期待有专门做知识图谱的,去接上一个后处理的模型 ,让过程变得更可控,打磨垂直场景就会比较快了。就可以一个通用的模型。结合知识图谱,满足某个垂直领的需求了。

李文珏 聆心智能

我们主要做还是偏对话一点,比较像character.ai 的方式,跟其他的不太一样,像彩云小梦, 他们底层是会用一个语言大模型的,我们底层是有两个,除了语言大模型之外,还有一个独特的也是 现在国内量比较大的一个专门的对话模型。 所以是在两个模型的共同加持之下在做这个事情,可能跟大家的思路会 稍微有一点不太一样。

刚刚才嘉宾说的也都我都很理解,可能加之图谱还稍微可以解决一些,这块我们也在做一些事情,还在科研中。

行业提问: AI 代写代码领域,微软对github也发了越来越好的代码辅助,对程序员刚开始可能是一个效率工具,到后面能独立的完成一些任务。现在处于什么样的阶段,以及后面会往什么方向发展。

某互联网大厂 Rolan

刚好这个问题是我团队实际发生的,有一个已经开始收费的开源就代码辅助工具,程序员是挺惊喜的, 是比较强的效率工具,但没有到必要的地步。

两大原因:

第一个,在很多代码场景,快速写代码并不一定是好事,做过程序员的都知道,写代码不是最费劲的, debug才是最费劲的 。如果有一大段的代码不是你写的,只是看过一眼,有可能在提bug时,还是得再看一遍,功夫不会少太多。除非这一部分代码属于一些小型的、临时性需求。 从工业维护角度来说,这一部分时间不太能省,更多的就是一个建议性的工作。 有点像现在的text to image的现状。

第二个是老问题,就是 隐私化的问题 ,因为你不知道你写这部分代码到底就是有没有可能跟这个库本身发生一些代码泄露之类的事情。

有一些技术能帮助程序员,属于一种效率工具,确实一定程度降低门槛。但 降低代码门槛的根本点得在于程序框架的设计以及新型的适配,该场景的新型程序语言的发明,这些才是根本性解决问题的方式。 代码工具本身存在一定的需求,但是我个人会认为它的上限会比较明显。

来也科技 胡一川

来也科技主要是做通过RPA和AI去帮助企业和个人做工作的自动化。本质上做的是一个低代码或零代码的开发工具,能够让更多的人 便捷地去开发能够帮助实现自动化的机器人 ,底层还是有代码的。只不过是通过可视化的方式,让更多非计算机科班出身的人,具备机器人和流程开发的能力,但即便这样,它依然有一个开发的过程。所以说,从去年开始也特别关注,怎么能够进一步讲降低开发者来开发自动化的门槛。

开发者分为两类,一类叫professional developer,针对专业开发者,像Copilot这样的代码生成代码辅助的工具,就是效率工具,而且它的价值不是那么容易衡量的。但针对另外一类开发者叫citizen developer,平民开发者,如果代码生成的功能做得足够易用,是可以带来从无到有的过程。很多人以前写不了代码,如果你能够帮助他去生成代码,一下子能够把写代码的人的基数扩大很多。

我们现在主要看两个应用场景:

第一个场景是通过自然语言或对话的方式,生成自动化的代码。 比方说我是一个电商运营人员,需要每天定时去Amazon的某一个品类下去抓取商品的实时价格、评论数据。 如果要做一个这样的机器人,请开发者可能花半天到一天的时间。 未来有没有可能通过对话的方式,把需求用自然语言描述出来,机器人能够通过对话澄清我的需求,最终把在亚马逊抓取商品信息这件事的代码片段实现出来。 通过自然语言到代码生成,还没有到爆发的时候,不论是技术上还是用户的预期上,还有一个很大的gap,但是可能未来的1-3年内,会开始有些可落地的产品出来。

第二个,进再进一步,刚才说的是输入是自然语言,然后输出是代码,相当于通过自然语言来生成代码。那还有没有可能输入都不是自然语言, 输入一个员工日常的工作的行为,通过行为去学,生成出一个机器人。 我观察了你一个礼拜,给你生成了一段代码,看看是不是能完成你的工作中的任务。这更难一些,因为输入是语言、视觉的特征,比方在屏幕上按了什么按钮,展示了什么内容,他用键盘和鼠标输入了什么内容,会比从自然语言到生成代码更有挑战。

经纬创投 Monica

在代码生成这块,如果只是解决让代码写得更快的问题,有点像2015、2016年说我的计算机视觉算法比别人做得更好一样,最终很快会被commoditize。

比如做自动生成代码,其实最大的挑战在于怎么把它作为整个DevOps工具中的一环,如果只是看算法的话,国内也有一些公司号称可以做得比Copilot做得更好,但是忽略、渠道、心智的重要性。比如AWS推出一个产品,也许只需要做到业界top的70-80 分,就可以抢占80%的市场。因为这只是整个业务环节的一环,要靠别的更多的环节去把价值做厚。

在2015、2016年,当时computer vision的火热跟现在Stable Diffusion, Open AI 的情况很像。当时从准确率、计算效率来说,很多公司都号称都比当时Facebook推出了的Openpose 更好。但不到半年时间,整个业界就已经达到当时我们自己认为很好的水准,那些做CV-as-a-Service, 卖简单技术API,SDK的,都没有跑出来。我想Generative AI也是,如果只是比拼技术,没有去把价值做厚的话,也是昙花一现。

比如像copy.ai现在做得非常好,如果很多人已经在用grammarly去做marketing文案,生成各种commercial文案。如果这时这样的公司推出一个也许只有copy.ai 70%的服务,底层用的算法都差不多,有distribution渠道的公司,是更有优势的。

按照过去的发展规律,到不了大半年的时间整个行业能够达到的水平基本差不多,就看谁多了上面的价值和同时又能很快能构建起distribution的channel。再举个例子,像kong的transcription肯定不是业界做得最好的,但是它肯定是在从text message,从grace to text 上面应该是做非常多的公司。Content creation的content这种不是mission critical自动出来产品,不是mission go,在这个情况下,最后什么是能够赚到钱的,大家能够去加厚价值链的方式有哪几种,还是说等所有人把市场教育了以后,有分发渠道的平台,再推出类似的功能,就把大部分的市场给吃掉了。

行业提问:

Text to 3D,还是AI生成3D方向,技术发展情况以及现在阶段有什么可以分享给大家?

看山击水 刘俊

给大家演示一下,大家肉眼能够看到这是一个2d图,但它背后都是3D的model,只不过要生成NFT,必须得render出一个2d的图。所有的蘑菇都是用通过程序化生成,就是PGC的逻辑,PGC在 AIGC 之前是一个更成熟的领域,它应用在游戏行业或者说细分的工业行业里,用于游戏、地形、一些特定角色的生成。

我们之前是做3D模型相关的,像这样的模型都是通过代码去写的,编写一个蘑菇的头,再编写一个身体诸如此类,通过代码去hard code。但是AIGC的出现,让我们观察到的一个新迹象, 特别是前段时间比较火的NeRF是通过三维重建的一个方法。 之前都是显示的三维模型,在图形学里面叫explicit function,模型都是通过点线面方式去生成的。但是NeRF这种模型是一个神经辐射场,背后都是数学函数,不是一个离散的点线面,用于三维模型的生成非常方便。

我们在这方面做了一些细致的研究,把距离场也是相当于一个隐式表面的表达,用于三维模型的生成,现在大家能够看到这是一个星之卡比, 我们可以通过扭曲,把一些常见的数学表达式非常简单地融入在三维模型的创作里面。 这在传统的三维创作的领域当中,是非常麻烦且复杂的,并且还有对应的布尔值,这个是布尔的一个投射,然后叉级和并集。还有像这样的一个镜像,都是我们从一些新的范式中得到了灵感,它完全可以融入到新的 3D 创作的领域当中。

用一个很简单的例子来解释,把数学这种融入到三维创作里。比如说,这边是一个球体和一个立方体,我可以给球体加一个融合的数值,相当于把球体融合到立方体里面。在数学里,非常简单的一个数学函数就能做到,而能够做到这样的基础是所有的模型都是基于隐式的表达,可以简单理解为数学函数。

在这样的逻辑下,由于我们本身都是距离场,所以在做光线追踪时,它也是非常方便的。再回过头来说到三维方面,我们一些新的想法。这张图是我之前看到海外的一个作者,也是通过代码生成的,背后的代码其实非常简单,它是通过几个非常古早,很老的数学函数算法生成的,能做出这样的东西让我们觉得非常的神奇。他做了很多投机取巧的东西,比如说精灵都是通过轴对称的方式去生成,只要生成一半,另一半通过轴对称来去生成这样的逻辑。

我们现在在思考的时候,在AIGC里融入一些PGC的逻辑,AIGC有很多不可控的地方,可能它不能准确地知道人脸是怎样,但是PGC 的逻辑下,人脸或是你要做的一个生物,你大概是会界定在一定的范围里面之内的,可以通过PGC先生成一个大型,用AI去做他最擅长的事情,比如说style transfer风格转移、上色,或者说别的一些专业场景或者艺术感的后期操作。 AIGC的出现能够帮助传统的 PGC领域,在无论是2D、3D做出更多有意思的东西,把它理解为一个加速创作的领域。

这图上面的昆虫也是通过程序化生成的,只不过更多是人为的程序化,把昆虫拆分为头、身体、翅膀、角,通过程序化去生成各个身体部位,通过噪声去生成绒毛、翅膀的纹理。这些来自于一些生物学的很常见的算法知识,把它融入到程序化生成里面,就能做出特别有意思的东西。其实最难的是上色,那是另外一个领域的事情。

我今天讲的话题可能没有那么多侧重于 AIGC,更多的是侧重于PGC领域。AIGC也好,PGC也好,分布在各个环节上,最终已经能够把这些环节组合在一起,才能是一个我们认为是一个比较有意思的产品,或者说能够真正爆发出这种革命式的效果。

海外有很多艺术家做了很多年的尝试。包括前段时间比较火的MidJourney,在海外有一些艺术家先运用到二维的创作领域。三维层面,刚提到通过语义化代码生成,如果像Copilot这些能够理解文本语义,就能生成程序化代码,通过程序化代码再去生成3A模型,能够加速我们PGC的创作。在特定狭小的应用场景范围内,它是可控的,并且我们也不需要它做太多复杂、强逻辑性的东西,更多的就相当于画画一样。之前用代码画画,现在只不过是通过语句话输入文本,再生成代码,然后代码再进行会话,确实能够加速创作。

行业提问:

已知物体,通过programming方式,是有逻辑去构建的。非现实的,比如说方形的熊猫,是不是更适合AIGC的方式去创造?

看山击水 刘俊

在3D领域,首先你要得让他知道熊猫是怎么样的。可能先用PGC来生成一个熊猫,再通过AIGC把它transform成一个方形的熊猫。很多时候,二维有很多数据源,知道二维的熊猫是怎样,人形脸是怎样,很容易训。但是 3D目前最大的问题是缺少数据源 ,很多生成3D都是通过二维生成图片,图片再转3D,这些也是一个方式,但是你会看到它的材质表现、光照表现,都是难题。

目前我们看到有一些方向,但是要攻破的话,还是需要一些时间。首先得让它理解物体的三维的结构得是怎样,它得先生成关于他三维的一个表达,再去做到加的一些修饰词,方形的也好,或身上有粉色绒毛,再加上这些修饰的材质表现,生成最终的结果。

之前有和auto desk图形研究员聊过,他们说有全世界最大的3D数据集,但肯定是不会对外开放的,他们也在做相关AIGC的操作。本身三维的数据量和二维的数据量相差不是一个量级,而是海量的区别。每天有大量的二维的内容的产生,百度图片也好,社交分享也好。三维的话,3D模型国内都是积分下载,海外可能最多的是sketch web,有一些3D模型新的网站,但都是数万、数十万的量级,和二维的比起来,用于训练来说远远不足够。而且很多东西都找不到三维模型,比如说我要一个航线飞机内部的结构,很多时候三维模型的对应的数据,它都是不存在的。

ZMO 张诗莹

在我们的平台上,是可以直接生成3D模型,不是一开始就直接生成,可以理解成是一个skeleton加appearance的东西,看上去就是一个3D的样子,或是一个3D render的形状。为什么大家在讨论AIGC,不仅仅效率和节省时间,更重要的一个点, AIGC跟之前AI的区别在于它有一定的creativity,一定程度上提升了整个创作的上限 ,能做出来一些原来人做不出来的东西。

无论是在游戏还是动画,很多时候大家是有选角色的过程,比如说要做一个哪吒的动画,要先生成 100 个类似于原型,最终只会选出来一个,他觉得OK,最后再去对它进行精致的建模。

AIGC可以从一开始的appearance的选型,可以大量地生成很多的option,挑选出来你觉得最OK的那一个。在这个基础上,从生成的这个角度是可以直接去对它们进行生成的驱动的,并不是直接去生成3D 模型,我们也是用文字,给他一些动作,比如说shooting the basketball,或running,或dancing,一些比较常见的,可能不是特别精致的,一定是这个手在35度,膝盖怎么去做,光线追踪,更多的可能就是一些描述,去把它驱动出来。

在游戏和动画的制作里,会存在低模角色,不是每一个角色都要像主角一样精细地去把它的3D模型做得很好。还有很多的NPC,或是不需要这么高模的一些版本,是可以通过AIGC先在外观上大量去生成,选出来一个比较好的之后,再用一些文字驱动的方式,让它去进行一些简单的行为动作 。在3D上来说,能够提升效率的上限,包括可以极大地去真正创造出来一个3D世界,完全靠人去做,还是有挺多工作量的。

行业提问:

在生成人像上,不太能细看,从图像技术的发展上来看,现在还有哪些障碍?有哪些改进方式,生成更精确真实的图像?

ZMO 张诗莹

人脸主要是因为数据的原因,算法完全能做到。问题在于有很多人脸数据是敏感的, 因为涉及隐私,不能直接用某一些人脸数据直接来训练。 我们也会用自己生成的很多人脸数据进行模型训练,可以规避一部分问题。用生成的数据去训练,能规避隐私问题,这个问题不会很难解决。

未来可能的机会与发展方向发展?

某互联网大厂 Rolan

我做一个预测,所有跟图像相关的一些延展型的,尤其是最近刚出的3D,还有视频,应该很快就会跟上。我最近刚刚把AIGC的论文扫了一下,从技术细节上来说,嵌入其他模态的信息,对于现在的AIGC的这一套技术栈来说会方便得多,这是我从一个技术人角度的观感。我预计在垂领化或模态多样化这一块的进展速度,可能比当年AI初期还要更快,也许一年之内就能看到新玩法的出现。尤其对于我这种做游戏跟3D和建模相关的东西,如果它能快点出来的话, 工具化能力会让开发和生产得到大幅的提升。

对话也是这整个领域中我认为比较至关重要的一环,包括在虚拟人的产业里,都是一个很核心的技术点。但实际上, 对话我个人持一个相对保守的态度,主要还是因为对话难,产品化难度也会比较高。 实际上对话目前也已经有了很明显的进步,只是可能还没有到太出圈的地步。

首先对话生成模型也已经得益于跟text to image一样的技术底层,得益于同样的架构的产生,效果上也有有突飞猛进的进步。最近也会看到一些相关的demo性的产品出现,只是说没有这么容易工具化和变现,但是已经看到的一些可能性。

对话落地时有一个很关键的点, 是否能够做到足够的个性化 ,实际要用到时候,尤其在游戏,可能更加多的是考虑到你能不能让对话带有一定的性格,它符合某些具体人设,符合具体的世界观上下文。 这个能力在技术层面 之前一直是很难,但我最近发现已经有一些团队的产品,已经做到这方面的快速突破。 国内的彩云小梦,国外最近有一个新秀叫cha racter.ai,玩过的人应该知道,生成一个新的有具体的人设比如说Alon Mask,用户去生产这具体人设,速度是很快的。 不像以前可能得收集相当量的数据,要等待训练,还得自己调参, 它适配新人设的速度特别快 , 而且最后生成出来的对话效果也比以前我用过的都强很多 ,说明在这一块技术层面应该是已经有了一定的突破了,现在已经有产品化的感觉了,后面产品化的进程,可能也会得到一个质的加速。

北京顺势科技 张国锋

我们一直在做智能证件照相关的产品服务。普通的证件照制作,就是抠图加美颜。现在我们正在做的一个方向是人像的写真修图,不是用传统的AI 算法能够解决的,一定是用生成式的方式去来实现。

比如说用户在家拿一个手机就可以拍出去海马体或天真蓝网红照相馆的照片,实际上效果包括重打光、姿态调整、换发型、换服装等,以前在海马体要花至少两三百块钱,以后让用户在家里花十几块钱、二十几块钱就可以做。我本身做技术多一些,按我的理解,刚提到做人脸生成相关问题,其实人脸编辑它是一个研究领域,一般只拿人脸数据单独去做。为什么说生成出这个人脸很奇怪,是因为只输入一些文字时,你的目标是这个人生成在特定的环境下,没有约束人脸是不是符合一个正常的人脸。在人脸编辑的研究领域,人脸只是拿裁剪框出来做一些编辑,用StyleGAN什么做生成,是两个领域。如果想去融合,可以做到,只是说看有没有需求。

三四月份开始做diffusion方向的生成式方法,发明了很多锤子,这个锤子从一开始只能做图像,现在这个锤子非常强了。但是做投资或创业,可能要非常关注在哪里去敲钉子。尤其ToC,钉子目前看来不多,另外生成图时处理比较慢,如果不解决计算性能问题,ToC的推广落地上可能有问题。在ToB落地时,生产力工具比如说做游戏、做设计,可能目前是比较好的方式,但是都很细分,很难有方向能够打造出平台级的产品或大公司出来。

元气学霸 季森

我现在是在做一个教育硬件的品牌,属于电商领域。我跟几个北大人工智能学院的同学,一直在看nerf这块的商业化应用,从商业化的角度补充几点。

AIGC 本质上有一个物理世界孪生迁移数字化的意义。有两个层面的意义,一是处于比较偏原生一点的,通过AIGC的方式直接完成。二是对现实世界重新采集之后、孪生重建的一个补充的过程,可能现在对现实物理世界的采集,目前是相对比较大的问题。

虽然说nerf技术发展比较快,最近在看3D扫描仪,市场挺大的,市面上造价大概上万美元,精度大概做到了16帧每秒的采集速度,分辨率也较高。去年全球范围内出货量应该到了接近2000万台。3D扫描仪是大规模应用在工业方面的,国内也有做出来上市公司。但像日常的采集,大家对这些方面关注比较少。现在的3D打印市场行业的发展是很快的。可以关注下采集这块,包括人脸,像前段时间readyplayer.me也是融了很多钱,做人像的孪生形象,可能应用在 web3相关的范围内。

另一方面,AIGC因为准确度、细节度做得还没有那么好,目前是可以作为一个辅助工具,对商业场景做一个降本增效的效果,包括Dalle上个月做的把一些图像进行背景的拓展等一些应用,就是对数字化的产品、图像或者视频做补充。

比如,渲染图形,特别是应用在电商领域,讲解类、抖音视频类似的短帧素材的生成,能有一个比较好的效率的提升,也是能够比较去降低成本的。再比如,渲染一张图,电商使用成本大概在300到400块钱。包括一些视频素材,视频创作者去搜集它是需要很大的时间成本的,AIGC作为一个辅助型工具,对于这些场景的补充,在未来是有比较可见的应用范围。 AIGC 作为辅助工具对这种商业化场景的补充,目前是非常的有用的。

明势资本 徐玥晨

我们是一家早期基金,从去年下半年开始看AIGC,从图形看到短视频看到3D,技术不断在迭代,大模型不断在迭代,解决可能更少的参数、更少的数据,模型生成的有更高的可控性,有更高的准确度。我们看到其实卡在数据训练上,3D的模型能不能用大模型跑出来?投入足够多的算力,足够多的训练模型一定可以。

但从技术供应商角度来讲,永远是要算ROI的,跑那么大的算力生成出来的东西,究竟有没有人用。 在有限的算力或在ROI相对可控的状态下,能不能生成一个在商业化上至少有落地场景的地方。 大家都知道AIGC不是目的,它是手段。从生成内容的角度,不管是短视频、图片、3D内容也好,看到内容形态的迁移是必然的。从品牌商的角度,谈到内容,最大的一块预算都是营销预算并且都放在内容上,放在传统的图片到短视频到3D。

从去年开始,大家对3D就非常的嗨,但在今天这个时间点看,在短期能够看得到真的在用 3D的,只有像支付宝的这种比较好一点的App的首页的特效,抖音里的礼物特效,电商里的产品图展示,这是目前看得到的,也是短期内可能会落地的场景。再往前推一个短视频形态,投放到抖音、快手上面的一些广告投流视频。终归来讲,最终AI 解决什么样的问题,无非就是两种可能, 一种是极大的降低原来的内容生成的成本,二是创作内容比人有更高的创造力。

我之前有个误区,把AI提效看得非常重,但后来发现要因事而异。比如说之前看短视频的投流广告,预算那么多,每年平台赚那么多广告预算,假设除以5是内容制作的总预算,就是个非常大的市场,通过 AI 的方式把它替代掉,是不是也是一个很大的市场。我也跟抖音、快手的广告的人聊,站在平台的角度,在今天的时间点,不那么喜欢很多重复性的内容,很多内容形态可能很新颖,但并不是真正的好内容,不喜欢别人去test它的黑盒的推荐机制。替代人的效率这件事情,可能还是要跟创造力有一个平衡。

未来的方向在哪儿,以及技术可能卡在哪,我会看一些3D的落地场景。直接用大模型去生成3D,ROI肯定是算不过来的。很多创业公司用很多组合式的方式,就是技术栈堆叠的方式,比如说短视频内容形态,主播里面加了一些3D元素;虚拟人是用人去建模的,但是驱动用AI去驱动的,语音是用 TTS ,背景图可能是用最传统的AIGC的大模型去生成的。

大家都在用开源的东西, 最难的是工程化的能力,怎么能更好的把各种技术栈堆叠在一起,且能够无缝连接,最后实现一个很好的效果。 对于创业公司来说,或对于大公司来说比较难的一件事情。内容形态的迁移是一定的,那未来的落地场景,最先爆发的几个场景我自己可能比较看好,比如说像电商,企业对外表达类的需求。这两个场景我们自己会可能比较看好。

短期来讲,我对纯粹的AIGC可能是比较保守的,但我觉得AIGC在某些领域能起到的一些关键的作用,比如说关于背景图。我始终认为 AIGC在短期解决的还是一些模糊化的、不是特别确切的需求。比如我想要一个非常美的背景,表达出我很开心的一个环境,肯定是没问题的。而特别确切的需求,可能要让一个人拿起水杯,表现出非常欣喜若狂的,手翘到什么样的高度这种还不太行。 对于短期加中长期的看好的方向,我想的是3D在稍微模糊化场景的一些应用。

我思锅我在高宁

MidJourney接受的一个采访,在公测也不到半年的时间,观察到20%用户的使用场景是叫做art therapy,用户会把他们失去的亲人、宠物创作出来,在一些美好的场景里面出现,以此来作为一些心理上的疗愈。

对于普通大众来说,他们的应用场景会逐渐的超过我们所能理解或想象的范围,这也是让我挺兴奋的地方。对于降低门槛,让更多的普通的大众有机会通过 AIGC解决她们的一些个人问题,这种场景会非常的广,我们的理解还是非常的早期。

INDIGO的数字镜像 Jedi Lu

我们俩在做视频会议时,如果说传输的信号变成了一种数据过去,对方重新用AI算法把我的脸绘制出来,也算是一种压缩技术。在视频的数据传输里,可以大量减少带宽,它可能替换成一种虚拟的摄像头,用AI的方式把你的脸重绘。往前再走一步,会成为另外一种形式的deep fake ,深度伪造,把你的脸变成另外一种形式,变成卡通的,变成另外一种人的样子,应该是一种可能的应用场景。现在只有生成和录制好的视频,不是实时的。现在 transformer技术应该是可以做到实时的,把脸替换掉。

另外一块,对于text to video或text to image,特别是video,会不会成为一种数据的压缩技术,训练数据足够强大时或特定场景足够厉害时,我可以相对精准地把它给再还原出来。它是另外一种压缩形式,就是text to到各种大的数据量这样的一种内容。我看过一本大佬的书里讲到,transformer算法已经很接近科学家研究出来的脑部的海马体记忆存储的算法了。海马体是每天晚上大家睡觉的时候,它会把一部分的东西变成数据信号,传给这个上体字层,形成长期记忆,它就在大脑里面通过神经网络来进行每天的影像的压缩回放。

某互联网大厂 胡家康

我最早是在公司做大模型相关的产品经理,在文本方向做的比较多,现在是在做整个大模型和AIGC相关的战略和投资的工作。

我结合一些产业实践的观察分享一下,主要是 政策和合规风险 ,目前来看,AIGC在国内推广是有一个比较大的隐患,包括我们自己的平台,包括一些海外的模型,有生成很多政治敏感的内容,这一块在内容监测上的成本和难度会比以往高很多。未来大规模 AIGC出圈时,这个问题如果不能很好地解决的话,有点担心整个行业会受到一些比较大的打击,类似之前AI换脸“ZAO”的那个时候,被工信部约谈事件的出现。这是第一个补充的角度。

本期编辑:盼盼

推荐内容