文/奕艾

网易雷火艺术中心原画师

AI绘画现在已经进化到什么程度了?

前段时间刚刚发生的新闻,美国科罗拉多州的一个博览会,有人用下面这幅名为《空间歌剧院》的作品拿到了博览会数字绘画的金奖。结果后来他表示:《空间歌剧院》是用AI生成的,他不仅没有动过笔,甚至自己连一点绘画的基础都没有!


(相关资料图)

这让其他参赛者非常不满,他们从小辛辛苦苦练习绘画,为了这次比赛也准备了很长时间,结果竟然被一个不会画画的人打败了……再来看看下面这三张图,你们觉得哪一张是AI画的呢?

答案是1。是不是已经有点傻傻分不清楚了?

AI绘画无疑是这段时间业内最火的话题之一。而围绕着它,大家的态度也基本分为了两派:一派非常支持用AI进行创作;而另一派则会觉得它扰乱了这个行业,会影响很多从业者的工作。

今天,我就将带大家了解目前比较火的一些AI绘画平台,并着重对其中我个人比较喜欢的Midjourney进行深入的操作心得讲解;然后我就会聊一聊,我作为一个游戏行业的美术工作者,在体验了AI绘画之后,对这项技术的一些看法,以及给大家的一些建议。

01

现在哪家AI最好用?

现在的AI绘画平台,正呈现出一种百花齐放的态势。各个厂商都推出了自己的产品,有不少都是值得你去体验的。

但你可能不知道的是,其实很早之前,谷歌就曾推出过自己的AI绘画产品,在当时也有很多人尝试。但是,谷歌AI生成图片的时间过长,效果也不是特别好。

而且,它在生成的过程中还不能让电脑息屏,否则就会立即停止工作,必须重头开始。它在当时没能引起广泛的讨论,想必你也能知道是为什么了。

至于现在的AI绘画就不一样了,它们方便、快捷、生成的图片又快又好。在体验AI绘画的过程中,你甚至会觉得自己在玩一款很爽快的游戏,因为它会不停地给你正反馈,让你充满惊喜和满足,然后当你回过神来的时候才发现——自己已经把充值的额度给用完了。

在这里,我主要向大家介绍3个平台,它们应该算是我目前体验下来的“AI三巨头”:

一个是我最喜欢的Midjourney,它在8月份的时候结束了内测,现在不需要邀请码,每个人都可以去使用;

一个是Stable Diffusion,目前也非常火;

还有一个是Dall-E2,出品自OpenAI这家人工智能领域的巨头公司。

因为后面我会着重去讲Midjourney这个平台,所以在这里先简单跟大家介绍一下Stable Diffusion和Dall-E2。

Stable Diffusion这个平台挺神秘的,因为他们的技术很好,很多投资人想去投资,结果都被老板给一一回绝了,说我们不差钱。

有多不差钱呢,据说他们有4000张DGX A100顶级显卡用于AI计算——以防你不知道,一块A100大概需要20万美元!难怪他们生成图片的速度能这么快。

此外,Stable Diffusion目前也已经开源了,所以现在很多公司都在根据他们的代码,来开发自己的AI绘画产品。他们的口号是“AI by the people, for the people”,意思就是“AI取之于民,用之于民”,也算是很直白地说出了AI绘画的工作原理。

如果说Stable Diffusion是“低调神秘的慈善家”的话,那么Dall-E2的称号应该就是“甲方终结者”了,因为它生成的图片更有3D感,对于平面类或者设计类的需求非常在行。绘画感则稍差一些,所以可能不是那么适合原画师。

Stable Diffusion和Dall-E2还在其他方面有一些区别:比方说Dall-E2会有关键词的屏蔽,不能出现一些血腥、暴力、政治相关的内容。例如某德国元首就不会出现在它生成的图片里,哪怕你已经很明确地把他的名字输入给了AI。

而Stable Diffusion的话就没有这些限制,你可以让AI给你生成一个二次元风格的元首,或者是波普风格的,随心所欲。

Dall-E2还有个特点是,不管你的关键词写的有多奇葩,它都能把你描述的词给放进图里。你们猜下面这张图的关键词是什么?是“键盘侠在阅兵”,黑色的地方实际上是键盘。

而Stable Diffusion就只能给你画出一个阅兵的场面,没办法识别出更多的意思。它是有选择性的,并不是任何稀奇古怪的关键词都给你考虑进去。

Dall-E2因为是大公司出品,我虽然不敢保证未来会发展成什么样,但投入给它的资源应该不会少。不过就目前而言,我个人体验下来还是Midjourney和Stable Diffusion更加推荐一些。

不过需要注意的是,如果用Stable Diffusion的话,你的花费可能会大一点,而且就算花了钱,也会有张数的限制;而Midjourney只要付30美元就不会有张数的限制了,虽然可能需要你排排队。

除了上述提到的“三巨头”之外,其实百度最近也推出了自己的AI绘画产品“文心”。它最大的特点是比较能贴合我们中国自己的文化。

比方说它能知道孙悟空长什么样,而国外的产品可能连他是个猴子都不知道。包括一些国内流行的梗,比如“鸡你太美”什么的,它也知道你在说什么。

更经典的例子是中国菜:什么过桥米线、狮子头,文心理解起来毫无压力;而国外的产品,估计真的能给你画成一座桥,再加一个狮子的头。

此外,它还有个优势是擅长生成古风和二次元类的绘画,据说有些图的质量甚至到了可交付的程度,感兴趣的同学也可以去试一试。

02

“最强AI”Midjourney操作指南

这一部分我们会详细地来聊一聊Midjourney这个平台。

先说说它背后的公司:它是由大卫·霍尔兹创办的,在做这家公司之前,他主做物体追踪领域。当时他们的物体追踪技术比XBOX的kinect都要先进上好多倍。后来这家公司被收购,他就去创办了Midjourney这个平台。

打开Midjourney的主页,如果你之前没有注册过的话,应该看到的就是下面的这张图。Midjourney有个好处是,它是个全平台的产品:你可以用网页、也可以用电脑客户端、手机上也有APP——因为等下你就会知道,它本质上其实就是个“聊天软件”,所以多端使用对它来说不是问题。

如果你想要开始创作,可以点击第一个“Join the beta”按钮,就会进入到Midjourney的官方discord频道——没错,我们会在这个频道里,开始我们的创作之旅。

点开之后,你会发现下面这样一个页面。最左边是好友栏,旁边是频道——大家可以理解为是房间,你可以到对应的房间操作一些指令;然后中间的部分则是对话框。

至于如何去创作?你只需要在下面的文本框里输入一些关键词,系统就会在对话框里发送根据关键词生成的图,快的时候可能连一分钟都不要——没错,就是这么简单。整个的操作流程,其实都是通过discord这个聊天软件完成的,是不是没想到?

下面是一些基础的指令,那些没有接触过AI绘画的同学可以来参考一下:

如果大家想要生成图片,基本上用第一个指令“/imagine”加上一些关键词就好了。而“/info”,其实就是能显示你目前账户状态的一个指令。如果你没有订阅的话,就会显示你还剩多少张图可以生成。订阅之后,会显示你是标准版、基础版还是企业版等等。

值得注意的是这个/private私人隐私订阅。Midjourney里的频道,其实就相当于是一个公共的聊天室,所有人打上去的字,包括系统生成的图,大家全都能看到。但有了隐私订阅之后,你在频道里输入的东西就只对你一个人可见了。

目前有不少国内的博主会选择这个订阅,因为他们不希望自己的关键词被公开——毕竟如果别人也用了这些关键词,那么很容易就能做出类似的图片了。

没错,对于目前的AI绘画来说,关键词的调教可以说是重中之重。生成的图好不好,是不是自己想要的效果,全靠它。下面我们也会重点来说一说这个模块。

首先,你需要输入一个你想要的主题。比如,我想要AI画一个平遥古城,那么我就输入平遥古城的英文——记得,不能打拼音。你也可以直接用中文,也能识别,但是效果不保证,所以我建议大家还是去维基百科上查询官方的英文译名比较好。

输入好关键词,然后点击生成。因为你没有规定它的画幅比例,所以它默认生成出来的图就是1X1的,每次都会给你生成4张,效果如下:

如果想在这个基础上增加更多想要的效果,那么可以在主题描述不变的情况下,在后面加入一些新的关键词。比如我想要晚上的平遥古城,那就加一个Night就可以。

不同的关键词之间可以用逗号去隔开,也可以用加号,那样就会把两个关键词融合在一起,偶尔会出现不伦不类的情况,所以我大多数情况下还是用逗号连接。

你也可以去手动规定生成图片的比例,比如16:9,21:9,这些都可以。或者可以用“-w”和“-h”来规定宽和高,来输出类似1920x1080这样精确尺寸的图。

在加上Night这个关键词之后,AI生成的图片就都是晚上的平遥古城了。但因为我没有写明想要什么色调,所以AI同时给出了黄色和蓝色两种色调的图。

这也是AI绘图的一个运行逻辑:如果你没有给AI一个明确的需求,那么它就会对你没有规定的部分做出一些猜测。但如果你规定了你就想要蓝色的,那它就肯定不会给你生成黑色或者红色的——它不会违背你的命令,顶多就是有点任性。

然后我们继续去细化我们的关键词。我在原有的基础之上增加了“美丽的灯光”,然后又加了一个引擎渲染的效果,我希望它生成的图带有虚幻引擎的感觉——当然,如果你想要其他引擎的效果也是可以的,添加相应的关键词就行。

另外,我也加了一个艺术家的名字进来,我希望画面也能有他的风格。不过需要注意,很多时候艺术家的风格和游戏引擎的风格是冲突的。

如果艺术家本身的风格是写实那就还好,加上虚幻引擎说不定能更加分;但如果艺术家本身是二次元风格,那还是不要强行把它们放在一起吧。

这么调教下来的效果如下图,个人认为还是挺令人惊喜的:

后来,我把虚幻引擎的关键词去掉,然后把艺术家的名字换成了葛饰北斋,得到了下面这一组图,效果也不错:

不过,葛饰北斋和灯光这个关键词其实是有点冲突的,如果你单纯只是想要葛饰北斋的风格,那就可以把灯光这个关键词给去掉,得到下面这一组图:

另外,根据很多人的测试,好像竖画幅的构图更容易出片。于是我又把艺术家的名字换成了唐伯虎,再把参数里的画幅由横构图换成了竖构图,最终得到的成品如下:

其实AI绘画用的多了之后,你会发现AI的思维和人类的思维是很像的。譬如我们在看到一些关键词的时候,其实脑海中浮现的也都是一些模糊的、整体的印象。

比如提到故宫,你能想到红色的宫墙、黄色的屋顶、大气磅礴的中式建筑这些概念,但很难想到某一个具体的图案或者结构。AI也是类似,很多时候它就是把关键词的整体感觉呈现给你。

但如果你仔细观察的话,会发现图片在一些地方存在着杂乱的效果堆积——就跟人类在想象某个物体的时候对于细节的缺失感一样。

不过呢,Midjourney也有对应的功能,去完善缺失的细节。下图的“U”就是放大添加细节的功能,而“V”则是按照构图重新计算一次,1、2、3、4则对应着四张图片,很好理解:

选了U放大之后,它会生成一张新的图,同时再多给你几个选项:

第一个按钮是重新做变化,也就是根据当前这张的构图,它会重新生成一张差不多的图片;

第二个是细节尺寸放大,也就是在U放大之后,你可以再放大一版;

第三个是降噪,所谓降噪其实就是把一些细节稍微模糊掉一点,讲道理,效果并不是特别好,所以我也不常用;

然后是增加细节处理,你可以让图片里的细节变得更多;

最后就是重制了,完全地重新制作,这也是一个新推出的功能,同样我个人觉得也不是那么好用。

下图是放大尺寸和增加细节过后的对比。

可以看到,增加细节处理之后,整个画面就有点过于锐化了,这不是我们想要的效果。而且,生成这些细节更多、尺寸更大的图,耗费的时间也会更长。

如果你去社交媒体上看很多人的分享,你可能会发现他们出的图都特别精细。但其实他们一般都不是直接在Midjourney上放大的,他们会拿着AI画的图去其他平台做像素放大,又实惠又快捷,效果还更好。

除了关键词之外,其实你也可以添加网络图片的地址,或者直接上传本地的图片,让AI参考图片来绘图。

但要注意,AI可能不会去识别这张图的构图和颜色,而是试图去理解这张图里呈现出来的元素。比如深蓝色的面积比较大,那AI可能就会识别这是一片海。如果海里面有一艘很小的船,可能它就识别不出来了,或者会把它识别成一条鱼。

在识别了这些元素之后,AI在后台会把它转化成关键词,然后再去生成图片。你需要明白这个功能的原理,否则可能做不到你想要的效果。

此外,AI也不能完全根据图片来生成新图,它会同时参考关键词和图片,并且有一个可调节的权重。你可以在参数里用“--iw”来调节参考图与关键词之间的权重比例,最高好像是5,也就是1:1,图片和文本的参考度对半分。

我在这里也总结了一些其他常用的参数。如“--no xxx”,其实就是在你的关键词可能会有歧义的时候用的。比如你想要一个热狗,你就可以加上“不要出现真的狗”,否则说不定AI就能给你画出来一只着了火的狗。

长宽比就很好理解,不过你们也可以试着直接输入“HD”,AI就会自动给你生成1920x1080的分辨率,很方便。

“-q X(1-5)”指的是精细度,q后面的数字越高,代表精细度越高,花费的时间也就越长。

风格化,这个数字越高,它的风格化越强,也就越平面;数字越低,那它就越接近真实。

然后是渲染停止,如果是stop50的话,那它渲染到一半就会停下来,直接输出一个半成品给你。如果你有特殊需求的话,不妨去试一试这个参数。

然后我也把一些你可能用得上的关键词分门别类总结了出来,供大家参考。值得一提的是,除了镜头的视角你可以规定之外,甚至你还可以自定义相机的品牌,比如索尼相机,或者是尼康相机等等。不同的相机品牌,它生成出来的效果也是会有细微差别的,非常好玩。

至于要添加多少关键词才合适,我想说其实很多人都不会弄一长串单词在上面,因为关键词一多,相当于就多了很多局限。虽然AI生成的图可能会更符合你想要的效果,但就会少了很多惊喜。

Midjourney最多能识别60个左右的关键词,再多它的系统就处理不过来了——当然,我想也不会有人真的放那么多词在上面吧?

然后,记得在撰写关键词的时候不要把一些前后矛盾的描述同时输入进去。这就像是跟设计说我想要一个五彩斑斓的黑一样,AI在接到这样的指令的时候也会觉得懵逼的。

另外在使用关键词的时候,也多去使用一些明确的定义,避免使用“不是xxx”这样的描述。“不是xxx”,可选择的范围就太大了,生成出来的结果可能就和你想要的相去甚远。

如果你是个新手,需要一些关于关键词的引导,那你可以去 https://promptomania.com/这个网站看一看。它收集了很多关键词,并且一步一步、分门别类地为你整理好了。

你只需要根据网站给出的步骤,从它的关键词库里选择你想要的效果,然后把这串关键词直接复制到Midjourney里就好。把“填空题”变成“选择题”,非常方便。

下面这个工具也和上面的类似,你可以看看哪个更适合你的操作习惯。网址:https://github.com/willwulfken/MidJourney-Styles-and-Keywords-Reference

另外,如果你想把关键词准确地翻译成英文,可以试试这个网站:https://www.deepl.com/translator。这个网站翻译出来的内容,比谷歌翻译更好一些,能够让AI更加准确地识别你的意思。

毕竟Midjourney是外国的平台,它对于很多词语的理解都是基于西方的理解之上的。

比如我们想要一条中国龙,就不能简单地告诉它想要一只“Dragon”,而是要去描述它有蛇的身体、鱼的鳞片、鳄鱼的手足、鹿的角等等,这样可能才能得到你想要的结果。

03

AI绘画对我们的影响

其实AI绘画这个东西在刚出现的时候,我并没有特别大的感触。

因为当时AI的技术还不过关,有的时候甚至还需要自己去改代码,出图的质量也非常糟糕,所以也不会觉得它可以替代人类做很多事。但我没想到AI绘画的发展居然可以这么快。

等到Midjourney出来了之后,忽然之间你就会觉得,这项技术好像已经非常成熟了。服装设计、插画、建筑工艺、平面设计,当然还有我们的游戏行业,或多或少都受到了它的影响。

诚然,它现在还不能一下子完成一个可交付质量的东西——特别是像很多人调侃的那样:“你给我生成一个带分层的PSD文件试试啊?”

但实话实说,至少对于前期的概念设计来讲,目前的AI已经相当够用了。

所以,我觉得AI绘画对一部分的插画设计从业者,冲击会比较大。因为插画这个行业,有相当一部分的甲方没有太多的审美要求,他们可能只是需要插图整体的一个效果,不需要太多细节,只要能让受众get到意思就行了。所以,有了AI绘画之后,很多工作甲方自己就可以完成,对乙方的需求量就会大大减少。

此外,我觉得AI绘画对电影行业的冲击可能也会不小。因为电影所需求的一些绘画内容,大多都集中在前期的概念阶段。这些概念图的关注点都在情绪的表达和氛围上,本身就不需要多少细节。这些工作也是可以用AI去替代的。

而对于我们游戏行业来说,因为我们对美术的要求是非常高的,所以AI绘画的冲击相对来说就不会那么大。相反,它的出现,对我们还有很多好处。

比如,它可以充当我们前期的创意工具。AI的运行原理,就是把整个互联网当做是自己的数据库,从中寻找参考,然后生成一张的新的图。

而我们在做设计的时候,其实也是这样,先去搜索一些参考的素材,然后再根据自己的想法做一些概念上的融合,毕竟设计是没办法凭空产生的。

因此你会发现,AI的创作思路,和我们人类的思路是相通的,那么在前期寻找创意的阶段,就可以让AI来代劳,它的效率更高,往往也能给到你惊喜。

甚至于,策划也可以利用AI来提升效率。以往策划同学和我们沟通,通常也是要自己先找几张参考图,然后告诉我们想要的感觉——但是这样毕竟不直观。现在有了AI之后,其实他就可以自己生成一些他想要的概念图直接给到我们,省去了大量的沟通成本和理解成本。

后续,我们也可以直接在概念图的基础上进行修改——但要注意的是,一般来讲场景改的会比较快,但是角色类的图改起来会比较麻烦。因为如果你要动五官或者透视的话,基本相当于是重画一张图了。

AI绘画还有个好处是降低了美术的门槛。这样可以让更多的创意加入进来。因为有很多同学,其实他们有非常好的点子,但就是因为他们不会画画,所以只能通过文字来表达,或者干脆不去表达。那其实这些人就可以通过AI绘画让自己脑海里的东西具象化,大大地扩充了我们的创意来源。

当然,AI绘画目前也有一些缺点,比如目前AI生成的图片依然很随机,可能它不会一下子给到你最想要的那种感觉。

如果你只是想要一些创意,想让AI给自己来一点惊喜,那这算是个好处;但如果你想把AI绘画当生产力工具,融入自己的工作流当中,那出图靠运气这种事情就会很烦人了。有的时候你的关键词已经写得足够精确了,但AI就是做不出你想要的那个样子。

其次,它的艺术加成逻辑性非常差。如果你仔细观察的话,你会发现AI生成的一些结构,或者是它画面元素的一些组合其实是没有什么逻辑性的。但在我们的工作中,无论是画场景还是画角色,我们都要考虑到合理性,不是光好看就行了。

还有一个问题是,由于现在相同的关键词过于泛滥,这会导致生成的图片同质化非常严重。因为除了那些多花了20美元开通了隐私模式的“土豪”,所有其他在频道里输入的内容,大家都能看到。然后大家看到有些关键词的效果好,就一窝蜂地都在用这些关键词,这就让作品变得越来越没有新意了。

不过就像我之前说的,虽然AI绘画还有很多缺点,但它进化的速度特别快。下面是我早些时候利用Midjourney生成的,给出的关键词是《海贼王》和《火影忍者》角色的融合。可以看到效果并没有那么好,角色都显得比较畸形,有点恐怖。

但短短几个星期过去,你就很少能看到这样畸形的角色了:

而且非常强大的是,如果你就想要那种畸形、抽象的感觉,你也可以通过相关参数让AI变回去,很有意思。

所以,现在AI的缺点,也许在未来很快就会被它克服。毕竟全世界每天这么多人都在拿现成的图“喂”它,它的成长速度可能会超过我们的想象。

04

AI绘画的未来

前段时间有一个新闻,是关于谷歌的一个智能语音助理项目的,叫LaMDA2。

有一次,一个谷歌伦理部门的工程师在跟LaMDA2对话的时候,发现这个AI似乎有了自己的意识。它觉得自己是有形态的,你问它在哪里,它还会说自己无法描述,它正处于一种虚无的状态,就好像是一个灵魂那样。这个工程师后来把他们的对话给公布了出来,前段时间也是闹得沸沸扬扬。

之所以提这个新闻,我是想说,不管你喜不喜欢,很多公司已经在研究这些我们以为未来才会出现的高智能AI了。像是《银翼杀手》里的仿生人,还有《我,机器人》里带有智慧和意识的机器人,也许在不远的将来,它们就将成为现实。

别以为听上去很夸张,要知道50年前的人类,他们也无法想象一台巨大且昂贵的电脑可以被塞进一个屏幕里。而现在,我们习惯称这台电脑为iPad,而且它能便宜到很多学生都在使用。

我的意思是,科技的发展是一条不可逆的道路。大家只能去适应和学习这些新的技术,然后为自己所用,让自己更具竞争力。毕竟,不管你喜不喜欢,总是会有很多新技术正在被研究出来。

对于我们原画师来说,现在网上很流行一段话:AI不会替代原画师,但是可能会替代不会AI工具的原画师。你会AI之后,你的竞争力也会更强。就像blender刚出来的时候一样,这项新技术让很多同学的作品质量突飞猛进。

不过这也警醒了我们:还是要多关注自己的创造力。在技术工具泛滥的情况下,创造力、想象力、基本功的积累会变得更加重要。

举个例子,如果你没有基本功的话,你就算拿着AI出的图给到甲方,甲方觉得有一些地方需要修改,你也是没法改的。所以不管怎么样,这些基础的能力都是不可或缺的。

还有的就是审美。AI创作出来的图,我们也要根据自己的审美能力去提炼、去判断。并不是每一张AI出的图效果都好,那它不好在哪里,好的图又是什么样的,这就依赖于你的审美能力了。

否则就算AI生成了高质量的图,可能你也会拿着质量不怎么样的那一张去交差——这就会贻笑大方了。

积极地拥抱这些新事物,为自己所用,并且关注自己的独特价值与不可替代性,我觉得这是我们看待AI绘画,乃至未来所有新技术时应该有的一种态度。

本文转载自网易雷火艺术中心。

推荐内容