作者 |格林 出品 |新芒X
最近几个月,一种强大的新形式的人工智能突然出现并吸引了公众的想象力:文本到图像的生成式人工智能。
文本到图像的 AI 模型只需要根据简单的文字输入就能生成原始图像。用户可以输入他们喜欢的任何文字提示——比如,“一只可爱的柯基犬住在一个用寿司做的房子里”——然后,人工智能就像施了魔法一样,会产生相应的图像。(此示例见上文)
这些模型产生的图像在世界上和任何人的想象中都从未存在过。它们不是对互联网上现有图像的简单操作;它们是新颖的创作,其独创性和复杂性令人叹为观止。
(资料图)
最著名的文本到图像模型是 OpenAI 的 DALL-E。OpenAI 于 2021 年 1 月推出了最初的 DALL-E 模型。其继任者 DALL-E 2 于 2022 年 4 月发布。DALL-E 2 引起了公众的广泛关注,将文本转图像技术推向了主流。
在围绕 DALL-E 2 的兴奋之后,没过多久竞争对手就出现了。几周之内,一个名为“DALL-E Mini”的轻量级开源版本风靡一时。与 OpenAI 或 DALL-E 无关,DALL-E Mini 在 OpenAI 的压力下更名为 Craiyon。
5 月,谷歌发布了自己的文本到图像模型,名为 Imagen。(本文所有图片均来自Imagen。)
此后不久,一家名为 Midjourney 的初创公司出现了一个强大的文本到图像模型,该模型已可供公众使用。Midjourney 的用户增长惊人:仅在两个月前推出,截至撰写本文时,其 Discord 组中的用户已超过 180 万。Midjourney 最近登上了《经济学人》的封面和约翰·奥利弗的深夜电视节目。
该类别中的另一个关键进入者是 Stability.ai,它是 Stable Diffusion 模型背后的初创公司。与任何其他竞争对手不同,Stability.ai 公开发布了其 AI 模型的所有细节,在线发布模型的权重供任何人访问和使用。这意味着,与 DALL-E 或Midjourney不同,Stable Diffusion 可用于生成的内容没有过滤器或限制,包括暴力、色情、种族主义或其他有害内容。
Stability.ai 的完全无限制发布策略一直存在争议。另一方面,该公司毫无歉意的开放精神正在帮助它围绕其平台建立一个强大的开发人员和用户社区,这可能被证明是一种宝贵的竞争优势。
关于作为当今生成 AI 基础的突破性技术有很多话要说,但特别值得强调的一项关键创新是:扩散模型。最初受到热力学概念的启发,扩散模型在过去一年中大受欢迎,迅速取代了生成人工网络 (GAN),成为基于 AI 的图像生成的首选方法。DALL-E 2、Imagen、Midjourney 和 Stable Diffusion 都使用扩散模型。
简而言之,扩散模型通过使用增加的噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练,扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。
退一步说,我们要如何看待这个领域最近的所有活动和声音?事情将何去何从?以下是四个预测,旨在消除噪音并为您提供有关生成 AI 狂野新世界的原始观点。
一:在接下来的 12 个月内,大量风险投资将涌入这一赛道。
风险投资界已经开始流传一种说法,即文本到 图像 的人工智 能是“下一件大事”。 毫 无疑问,这项技术 是 非凡的。 时间 会证明 它是否以及如何成为大规模、经久不衰的企业的基础。
无论如何,随着投资者寻求乘风破 浪,预计短期内该领域会出现一连串的风险投资。
上周开场,有报道称 Stability.ai 正在从 Lightspeed 和 Coatue 等蓝筹投资者那里以高达 10 亿美元的估值筹集高达 1 亿美元的资金。
这不会是该类别中的最后一笔巨额交易。 例如,Midjourney 目前可能会吸引大量入境投资者的兴趣。 到目前为止,Midjourney 一直由创始人 David Holz(前 Leap Motion 首席技术官/联合创始人)自筹资金,但如果该公司很快决定用风险投资资金填补其资金池,以便在这个日益增长的领域竞争和扩大规模,请不要感到惊讶快速发展的生态系统。
许多新的文本到图像的初创公司将在未来几个月内出现,它们具有不同的愿景和方法来将这种强大的新技术商业化。 即使在当今不利的市场条件下,风险资本家也会热切地为其中许多人提供资金。
二:该技术最大的商业机会和最佳商业模式尚未被发现。
迄今为止,推动文本到 图像 AI 采用的 主要 用例 是个人用户的 纯粹 新颖性和好奇心。 难怪 任何 玩过这 些模 型的人都 可以证明,这是一种 令人振奋和引人入胜的体验,尤其是刚开始时。
但从长远来看,个人爱好者的随意使用本 身并不太可能维持大规模的新业务。
哪些用例将释放巨大的 企业价值创造,并为这项技术带来最引人注目的商机? 简而言之,文本到图像 AI 的“杀手级应用”是什么?
立 即想到的一个应用程序是广告。 广告本质上是视觉的,因此非常适合这些生成的 AI 模型。 毕竟,广告为 Alphabet 和 Facebook 等科技巨头的商业模式提供了动力,这些都是历史上最成功的企业之一。
一些品牌,例如卡夫亨氏,已经开始 尝试 使用 DALL-E 2 等人工智能模型来制作新的广告内容。 毫无疑问,我们会看到更多这样的情况。 但是 , 坦率地说 , 让我们 都希望 能 为这项 令人难以置信的 新技术找到更有意义的用例,而 不仅仅是 更多的广告。
退后一步,考虑一下这些 AI 模型可以快速、经济且富有 想象力地生成和迭代 任 何 视觉 内容,而 无需 任何 特殊的专业知识 或培训。 当我 们如此广泛地 界定这 项技 术的范围时, 就会 更加 明显 地发现,各种 变革 性的、颠覆性的商业机 会应该会出现。
也许这项 技术最直观 的用 例是创造 艺术。 全球美术市 场规 模为 650 亿美元 。 即使撇开 这个高端市场 不谈,文本到 图像 AI 可以 应用 于艺 术的更多日常 用途: 书籍 封面、杂志 封面 、明信片、海 报、音 乐专辑设计、壁纸、数字媒体 等等。
以库存图片为例。 库存图像可能看起来是一 个 相对 利基的 市场,但它本身代表了一个价值数十亿 美 元的机会,包括 Getty Images 和 Shu tterstock 在内 的 公开 交易 的 竞争对手。 这些 企业 面 临着生成人工智能的生存破坏。
从长远来看,任何实体 产品(汽车、家具、衣服)的 设 计 (以及生产)都可以 转 变 , 因为 生成式 AI 模型 被用于构思新颖 的功能和设计 ,从而吸引消费者。
相关地,文本到图像的人工智能可能会通过“提出”独特的、意想不到的新结构和布局来影响建筑和建筑设计,进而激发人类建筑师的灵感。 今天 已经在进行 这些方面的初步 工作。
图注:“撒哈拉沙漠中戴着草帽和霓虹墨镜的小仙人掌。”资料来源:谷歌
除了杀手级应用的问题之外,还有一个相关但独特的话题,即这一类别的竞争格局将如何演变,以及哪些产品和上市策略将被证明是最有效的。
OpenAI 和 Midjourney 等先行者已将自己定位为与行业无关的核心 AI 技术的横向供应商。他们构建了通用的文本到图像模型,通过 API 将它们提供给客户(按使用付费),并将其留给用户来发现他们自己的用例。
一个或多个横向参与者是否会通过提供一个基础的文本到图像平台来实现大规模运作,在该平台上构建一个由各种应用程序组成的整个生态系统?如果是这样,它会是赢家通吃吗?随着技术最终商品化,这样的企业的长期护城河是什么?
或者随着行业的成熟和不同的用例成为焦点,为特定应用程序构建专门构建的专业解决方案是否会有更多价值?
例如,可以想象一种专为汽车行业设计的用于新车型设计的文本到图像的解决方案。除了 AI 模型本身针对此特定用例的训练数据进行微调外,此类解决方案可能包括完整的 SaaS 产品套件和完善的用户界面,旨在无缝集成到汽车设计师的整体工作流程中。
另一个关键的战略问题涉及核心 AI 模型本身。这些模型能否成为公司可持续的防御来源,还是会迅速商品化?回想一下,Stable Diffusion 是当今领先的文本到图像模型之一,它已经完全开源,其所有权重都可以在线免费获得。与利用开源社区或其他公司已经构建的模型相比,新创业公司在内部训练自己专有的文本到图像模型的频率和条件是多少?
我们还不能确定地知道这些问题中的任何一个的答案。我们唯一可以确定的是,在未来的几个月和几年里,这个领域将以令人惊讶、意想不到的方式发展。新技术的部分魔力在于它开启了以前无法想象的可能性。当拨号上网第一次出现时,谁预测到了 YouTube?当第一部智能手机问世时,谁看到了优步的到来?
企业家最终将通过自己设想和建设未来来回答这些问题。
3. 文本到图像的人工智能将引发版权、法律和道德问题的蜂窝。不要指望这些会减慢技术速度。
任何 能够 深刻改变现状 的新 技术 都会与 现有的社会规范 和政策 框架 产生摩擦和挑战。 生成式 人工 智 能 也不 例 外。
这项技术引发了许多宏观问题: 人工智能 驱动 的 工 作 岗位 流失 这一永远存在的话题,这些模 型 加剧 的 深 度 伪造的 迫在 眉 睫 的 威胁,什么是真 正的艺术 以及 人工智能 是否 可 以创造的哲学 问题 。 这些问题 没有 简 单的答案,关于 这些 问题的公众讨论将 持续多年。
这里有一个近期值得 简要 讨论的问 题 : 谁 拥有 并有 权 将 这些 模型产生的图像商业化的 问题。
提出文本提示并将 其输入 AI 模型的人能 否获取 生成 的图像 并用它做任何他或她喜欢的 事情(包括在商业环境中)? 或者构建 AI 模型的组织是否 保留 对该模型产生的所有媒体的权利? 如果 AI 模型是开源的呢?
让事情更复杂的是,谷歌和 OpenAI 等公司首先创建这些模型 的方式是通过对这些公司不拥有的 大量公 开可用图像进行 训练,包括无数其他艺术家、设计师和组织。
这些问题不仅仅是理论上的;它们将产生非常真实和直接的商业后果。是否以及如何解决这些问题将对使用该技术的公司的战略和机会产生重大影响。企业家和投资者需要注意。
“如果按照我认为 [OpenAI] 设想的方式采用 DALL-E,那么使用该工具将产生大量收入,”贝克麦坚时律师事务所专注于人工智能的律师 Bradford Newman说. “而且当你在市场上有很多参与者和问题时,你就有很高的诉讼机会。”
OpenAI 目前声明的政策是,DALL-E 的个人用户拥有将他们使用该模型创建的图像商业化的全部权利——包括重印、出售或商品化图像的权利——但 OpenAI保留对原始图像的最终所有权。Midjourney 的服务条款也有类似的说法。
但是,当涉及这些图像的高风险争议不可避免地被提起诉讼时,法院会这样看吗?这是未知的领域;没有直接的法律先例。
Epstein Becker & Green 律师事务所的高级合伙人 Jim Flynn提供了一个具体的例子来说明其中的动态:“如果我代表其中一家广告公司或广告公司的客户,我不会建议他们使用这个软件来创建一个活动,因为我确实认为人工智能提供商会[目前]对知识产权有一些要求。我会寻求谈判一些更明确的东西。”
最终,这些问题不应被视为技术的阻碍,而应被视为在这个新兴行业全速前进时将发挥作用的未解决问题。别搞错了:法律上的模糊性不会阻止企业家和技术人员推动这一领域的先进技术,也不会阻止建立将这项技术带给大众的企业。
OpenAI 的一位发言人总结得很好:“版权法过去已经适应了新技术,并且需要对人工智能生成的内容做同样的事情。”