丨划重点
●人类现在能创作的内容,AI都可以有所助力。这一波AI的最新进展在于,过去AI偏科,分得很细,现在通用能力更强
●AIGC界面表面上好像有点像搜索,但底层原理完全不同,有很大的创造成分存在,基于数据收集、算法计算可创作出独一无二作品,甚至能模仿大师风格,画出“机械虾”
(资料图)
●传统创作者需要拥抱新技术变革,AIGC本身的意义是“解放人类”而非“替代人类”,会赋予更多普通人强大的创作能力,不是简单的“抢饭碗”
●AIGC作品著作权归属现阶段尚无明确定论,平台一般不会声明版权,但也不建议创作者利用AIGC内容进行商业化
丨概述
2022,AIGC(人工智能产生内容)爆火并迅速出圈,在PGC(专业人员产生内容)、UGC(用户产生内容)之后成为生产内容的新方式。
这一趋势是由OpenAI、DeepMind和智源等优秀的科研机构引领的,巨头也积极下场抢占风口,包括谷歌、Meta、微软等知名科技公司先后布局,当然业内也不乏AIGC的新晋独角兽Stability AI、Jasper、MidJourney 加速抢占制高点。
但AIGC“光鲜亮丽”的背后也隐藏着许多问题,诸如版权、创意等等目前都并没有得到有效的解决,AIGC是否真的会从人类手中“抢饭碗”,商业化的持续探索又该何去何从?
AIGC在今年快速走红这个现象,智源研究院运营副院长刘江认为这离不开AI“大模型”(是指基于大规模算力,使用大规模数据训练而得到的新一代规模巨大的人工智能模型,可以用于广泛的应用场景)的快速发展。
关于AI内容生产对PGC和UGC等传统内容生成形式的冲击,智源研究院NLP/多模态模型研究负责人伍昱认为AIGC的目的是帮助创作者从重复性、比较枯燥的劳动中解放出来,与现存的创作形式并不存在冲突,创作者应该更多的学习、利用AIGC的技术。
智源创新应用实验室负责人黄文灏则认为未来AIGC的发展始终需要保持开放开源的态度,要重视产品形态的设计以及对UX(用户体验)的把握,让AI绘画不只是一个茶余饭后的消遣,而是成为一种刚需。
基于通用大模型,AIGC可以打90分
刘兴亮:AIGC到底是什么,它有什么作用?
刘江:AIGC英文是AI-Generated Content(AI生成内容),Content不仅仅包含绘画,还有文字、音乐等等。
文字方面代表的平台是美国研究机构OpenAI的GPT-3,智源研究院在这方面的悟道模型也是比较领先的。只需一段文字提示(类似高考作文题或者一个开头),AI系统就可以写一篇作文,甚至长篇大论。
往下继续延伸,AIGC还可以生成代码(也是一种文字),如今已经出现比较成熟的商业化平台可以帮助广大程序员写代码。智源也在从事音乐和视频生成模型的研究。
在我看来,人类所能想象到的东西,AI都有可能实现,至少能帮助人更好更快地实现。未来会赋予更多普通人强大的创作能力。
最近AIGC为什么火了呢,因为确实效果太好了。利用AI或编程进行内容生成,之前其实有很长的历史,但效果不能满足大多数人的需求。这次为什么生成的效果这么惊人?这离不开这几年AI领域的最新进展——我们称之为“大模型”。
大家可能不知道,之前AI都是非常偏科的,每个系统只会干很专门的事情,分得非常细。多细呢?搞文字和搞语音、音乐、图片视频的是好几波人,都有自己的技术和工具,搞的是不同的系统。甚至搞图片的也要分成分类、目标检测、分割、生成等很多小任务,都是不同的。有点像高考,有系统会做数学卷子,但不会语文、英语、物理、化学,反过来也一样。甚至语文卷子里,会做填空题的不会做选择题,会做阅读题的不会做作文题。所以AI总体发展还是挺难的。
而近几年“大模型”出现之后,原来分得很细的AI科研人员和AI系统,有了共同的基础技术,开始往通用的方向发展了。现在智源研究院的科研团队,原来搞文字的和搞图片的已经开始打通,可以有广泛合作了。
智源研究院旗下免费AIGC创作平台FlagStudio
伍昱:过去对不同任务需求,都是需要不同的方法去求解,大模型或者说预训练模型,则是尝试用同一套技术去解决,然后针对不用的任务/应用场景,进行一定程度的微调,在自然语言领域已经形成了用预训练模型这样一种相对统一的方法去解决不同的问题的范式。
近两年可能是更大的一个融合,包括像计算机方向。智源也有团队在研究视觉的大模型,其实在解决问题的技术和方法上是很接近的,从技术的发展上确实看到了不同模态、不同任务的统一这样一种范式的转变。
多模态的发展非常迅速,而文字生成视频近年来爆火,正是多模态方向的发展。近一两年来,从Open AI提出DALLE模型开始,在实现方法上会有一定的区别——它引入了文字控制,而文字的控制又是从语言大模型发展过来的。
GPT-3(自然语言处理计算模型)它能够去做文本的生成,而对于语言的能力转化,我可以通过语言来交互,让计算机生成一张图片,使得它能够符合我的预期。同时我的语言其实又可以与计算机交流,让它生产代码,所我的语言变成了一种工具,可以完成更多的事情。
黄文灏:AIGC技术已有一段时间的发展历史,之前就有通过AI完成内容生成的案例,但一直没有引爆话题。
我觉得从产品上来看,最大的问题——之前的质量生成内容质量不符合使用者预期,可能在60分的水平,但这次AIGC火爆和出圈的原因爆火出圈的原因在于我们拥有了大模型的能力,使得它的模型水平可以从60提高到80-90分。
它肯定不是完美的,和预期会存在差距,但基本上可以做到以假乱真的地步,而且比大多数人实际绘画要好很多,满足使用者的预期,得到他们想要的图片。
所以,我觉得大模型带来了技术或者模型层面上的一个质变,使得更多的产品涌现出来,让使用者更容易体验到技术带来的优势。
齐白石也能画“钢铁虾”
刘兴亮:体验AIGC后,有时感觉自己是个画家,有时候感觉这只是另一种形式的搜索,有什么区别吗?
刘江:它的界面看上去与搜索很像,也是在一个框里输入一些文字,就出结果了。但底层原理其实完全不同,AIGC并不是将预先生成的很多图片,根据搜索词进行匹配调出。AI是收到文字(其实是一种命令提示)后,再调用底层模型,把画计算出来的。
AIGC背后涉及比较复杂的数学、计算算法,基于海量的数据。同样的一条指令,可能不同时间,生成的内容却是不一样的,它有比较强的随机性,看上去是有一定创造能力的(背后的机理还不完全清楚)。
搜索则是基于已经存在库中的已有图片,最后呈现的图片也是数据库中的,只是去找对应的图像,而AI绘画的前提是,这幅画本身并不存在。
比如齐白石,算法为什么知道齐白石?因为齐白石的风格统一,而且有很多作品,计算机算法会对现有的作品和风格进行规律总结。你可以命令系统画出齐白石风格的变形金刚、星球大战等场景,这是大师生前都不知道的事情。当然你也可以让AI画梵高、毕加索风格的中国画……
AIGC生成的融合齐白石风格、金属元素的“虾”
伍昱:首先它肯定不完全是搜索,因为它有创造的成分。
搜索的空间是有限的,比如给定的图片的数据,只能从固定的数据中寻找,如果没有,就不会出现相应的图片。而AIGC的模型是从大量的数据中去学习的,首先肯定具有很大的数据库,并且有文字和图片对应,AI模型会学习文字跟图片对应的概念。
其次AI模型可以从数据中掌握规律,比如苹果可能是什么样的,其他的概念是什么样的,再通过语言的创作来组合不同的元素,结果则是,图片原来可能数据库中不存在,但是可以基于给定的条件和规律生成。
甚至可以去混搭一些概念,比如尝试不同的风格,像齐白石他有自己的绘画风格,但在新概念下,蒸汽朋克风、机械风都可以成为可能,我们也能创作一个齐白石画风的机械虾。
黄文灏:可以举两个例子来回答,第一个就是牛油果椅子。
AI生成的牛油果椅子
上图是模型生成出来的牛油果椅子,相当于模型知道牛油果是什么,也知道椅子是什么,尽管世界上之前是没有人画过牛油果椅子或者造出过。AI模型仍然可以进行组合,生成既像牛油果又是个椅子的绘画作品。
这就可以很直接证明,AIGC的内容是模型创造出来的,而不是搜索出来的,因为世界上还没有出现类似的实物。
这样的例子还有很多,像镂空的咖啡杯也很火。
第二个很简单的方法也可以用来验证AIGC的唯一性,用户可以拿生成的图片去百度或者Google,通过以图搜图会发现很多搜索结果当中,与生产的图片很相似,但却找不到完全一样的结果,这就证明AI具备理解大多数类似的图片相同规律的能力,但它提供的结果则不完全一样,足以证明生成的内容是它创造出来的。
刘兴亮:如果用户输入条件完全一模一样,出现“撞画”的概率有多少?
伍昱:AI创作模型有很大的随机性,普通用户不用担心“撞画”的情况,这种概率非常小,但如果从专业的模型研究或者开发的角度来讲,其实是能够去控制随机性的。
开发者可以通过控制让算法基于同样的输入,得到同样的结果输出,因为整个模型算法的设计中虽然引入了随机性,但可以对随机性可以进行控制。在用户接触到的产品端,往往不会让用户来控制这个随机性,所以即使相同的文本输入,用户的图片生成结果也会不一样。
刘兴亮:从数学的角度,重复概率用一个直观的数据来表达会是多小?
黄文灏:AIGC相关的绘画工具涉及到很多参数,但如果所有参数都一样,也会因为“随机种子”这个参数,使得输出结果是随机的,但考虑到用户友好的问题,我们会把随机种子“藏”起来,用户在生成时都是默认随机的状态。
这种情况下概率应该是二的32次方分之一。
随机种子在AIGC应用中挺有用处,我们发现随机种子会控制图片的风格,比如通过控制随机种子,来控制不同时间生成的图片的相似度。目前,很多的产品设计里面都会把随机种子固定住,如果随机种子固定,其他参数一致,那两次生成就会出现同样的图片。
AIGC是高级版PS,不会抢人类“饭碗”
刘兴亮:AIGC生成图片,哪些行业可能会受到影响,会抢夺人类“饭碗”吗,PGC跟UGC创作者应该如何应对?
刘江:对于所有技术包括AI的影响,人容易在短期高估,长期低估。这个问题也不是AI独有的。人类科技不断进步的进程中,从最早的机械化到后来的电气化、计算机,包括软件等各种各样的技术趋势,都是在不断的对我们工作产生巨大的影响。
需要认识到的是,科技能把饼做得更大,是人类社会发展的底层动力,但每个人能否在科技带来的变革中能分到更多份额,取决于你是否能拥抱科技、拥抱变化。
我给大家的建议是,每个人无论你做什么工作,都要思考一下,自己从事的工作中比较重复、枯燥类型的成分是不是很多,这类工作本来就不应该人来做,而更适合机器,我认为是会逐步被AI的发展所取代的,但它的进程不会那么快。
而工作中需要思考和进行复杂判断的成分,具有真正创造力的,AI想取代人就很难。比如司机这个工作,其实大部分人稍加培训都能胜任,看似不难,但由于路况复杂多变,尽管自动驾驶发展多年,投入巨大,还远没有对司机就业方面产生重大的影响。
另一方面,AIGC等技术手段首先的目的是帮助提升人类的效率,而不是为了取代人。所以从业者要减少重复性工作,积极学习新知识、新技能和新工具,拥抱变化,以开放的心态,享受AI技术发展所带来的好处。
伍昱:AIGC技术的发展,更多的是能够消除重复的劳动,帮助创作者更好的去创作,将创作者从重复的劳动中解放出来,更专注于创作的本身,更好的去表达内容。
有人认为,AIGC可能是下一代更加高级的PS,能更方便的进行图片编辑与创造。
AI工具降低了创作的门槛,比如以前绘画这项工作,必须接受长期的训练,那通过技术的形式,能够将长期训练的门槛降低,使创作者缩短训练时间,就能够更轻易的进行创作。
PGC与UGC需要去利用好AI这个工具,开发者则需要将其扩展到更多的领域,让更多的人加入到AI创作中来。
黄文灏:我觉得“绘画”这个行业可能会一直存在。
AIGC爆火之后,我们可能仍然会在某些招聘平台上看到插画师的岗位,只是的职位要求改变了——过去可能会要求有过硬的绘画技术,但在未来可能会要求具备使用AI创作工具的能力,插画师则变成了创意专家。
面对AIGC,我认为我们应该去拥抱它们,PGC和UGC的创作者们要将AI工具作为他们创作的一部分,帮助他们更高效或者更便捷的去产生相应的内容。
所以我觉得未来会是合作创造作品的状态,而且专业内容的创造者或者说插画师,他对图画的审美是有能力,AI绘画外行可能觉得已经很不错,但是专业领域的人会发现瑕疵,会接着去做细微的修改,最后的作品必然会更加优质。
如果说,AI可能现在可以做到80-90分的绘画水平,人类是可以把后面的10分弥补上的。对于专业人士来说,其实他们更擅长后面的部分,在前面90分内容的基础上,接着去完善作品。
基于这个角度,AIGC应该是一种帮助,所以未来应该是专业内容生产者和AI工具,共同协作的一种模式。
版权归属尚无定论,需要多领域协同共建
刘兴亮:AIGC相关作品,版权是属于谁?
黄文灏:FlagStudio有明确规定,作品的版权是归创作者所有,模型开发者没有版权。
即便如此,也不建议用户利用生成的作品去盈利,去做商用。这方面,法律上对此并没有强制的约束,因为世界上对于AIGC著作权在法律上并没有统一的认知,著作权究竟是属于谁如今还处在争议的区域,现阶段并无强制规定。
刘兴亮:假如侵权,谁来赔?通过AIGC生产的作品,如果获奖属于自己还是平台?
伍昱:我觉得因为AIGC发展非常迅速,引起的争议与版权相关的法律法规可能目前还在逐步完善。一些创作者在进行艺术创作过程中,也没有意识作品会被AI模型去学习,被其他的用户进行再创作获利,导致自身利益因而在某种程度上被损害。
未来技术发展过程中,我觉得有一种可能,创作者一开始就能够知情——我的作品会被AI模型去学习——同时模型产生的后续基于自身作品的新创造,原始创作者同样能够从中获利。
从这个角度上来讲,解决模型创作时损害原始创作者利益的问题,需要形成一套更新的规范和流程。
刘江:各种争议的源头,即法律到底在著作权矛盾中起到什么作用?其实本质上都是在做利益共享机制的分配。
由于法律和规范也在不断变化,且会有一定滞后性,协调和规范的前提都是基于“出现什么问题,解决什么问题”,但是技术发展的速度快,所以经常会出现法律不适用的情况。
AI版权问题的复杂性表现在两个方面,一是AI要基于数据进行创作,在数据基础上进行训练,但是数据的收集、使用、确权、商用等目前在法律上还很不清晰。
二是从贡献来讲,需要有一个合适的利益分配机制,现在还是缺乏的。我最近在研究Web3,也是出于这个原因。
接下来AI发展它要基于数据,但数据单独放置也并没有多大价值,只有当全部数据都汇聚在一起,用人类的集体智慧,再加上AI技术,这样才能够发挥更大的价值。
因此,相关法律法规在未来也需要不断的进行完善,才能更好的推动AI行业进一步的发展。
黄文灏:数据对于创作者非常重要,智源的下一个方向可能会是让大家去做自己的定制化模型。这个数据可能是用户自己的,比如梵高,它有自己的数据,用户也可以使用。
在一个开放的基础模型情况下,创作者自身可以利用梵高的数据训练出一个梵高风格的模型。因为基础模型是开放的,定制模型也属于用户,用来定制的数据也是如此,那么用户就可以通过定制模型去进行商业化的使用,但无论是共享,还是商业化,我认为未来版权相关的法律规范都会有更准确严谨的定义。
刘兴亮:如今的AIGC已经大火,那在未来我们要用什么样的眼光去看待这项技术的继续发展?
伍昱:我们希望能够多方共建,既包括从AI技术的方向,也希望有更多的专家从法律层面来考虑其中存在的很多问题,包括著作权、图片生成的安全性,是否会对社会造成影响,怎样进行AI的交互等等。
一个新的技术发展,肯定需要得到多方利用专业知识来共建,而不仅仅是AI的专家。
此外,技术本身它是有多面性的,也需要更多的专家来保证技术是被用在合理的地方,能够更好的促进社会发展,我们也希望更多的人关注到AI的发展,加入AI相关行业,一起去推动这项新兴技术的发展。
黄文灏:AIGC技术如今基本上是开源开放的状态。智源也一直是秉承着这种开源开放的态度来运行,我们做的所有模型也都是开放的,免费进行使用。
在这种情况下,我觉得未来在产品方面,更多是对产品形态的设计以及对U X(用户体验)把握的考验。如果基础模型或者技术能力都很接近的情况下,谁能更好的帮助到用户解决真正的痛点,将会更加重要。
以及,如何能让技术能在商业模式上或者在落地层面找到它的刚需场景,也是比较重要的,只有这样才能更好的发挥技术的作用,而不是像现在很多用户仅仅尝试一次,之后便不再会去使用。
来源:腾讯科技