李志飞将 AIGC 看得很透,他可能是行业里 “最不着急” 的人。


(资料图)

@数科星球原创

作者丨苑晶

编辑丨大兔

“几乎每一个行业,从业者都是国外的 2 倍,利润又是同行的 1/5,让中国的创业难度提升了 10 倍”。李志飞的这句话适用于广大行业,也可看成 AIGC 行业所面临的现状。

在 2023 年,AIGC 行业开局即炸裂。“被离职”、泛互联网从业者及创业者扎根其中,保守估计已逾百万之众。热闹中裹挟着焦虑,熙熙攘攘的人群中到处可听见 “chat、chat”。

第二季度,国内企业动作频出,百度、360、阿里、商汤相继发布自研大模型,创业圈也热情不减,王慧文、李开复、贾扬清、王小川相继下场宣布入局大模型,当大家的关注点都聚焦在 5000 万美元能买多少张卡,可以支持几次训练的时候,李志飞和出门问问却走出了另外一条路。自研大模型 +AIGC 产品矩阵,底层技术和应用落地并行是这家公司的特色,他可能是这个行业 “最不着急” 的人。

01

什么是大模型

在李志飞看来,大模型本质上是序列模型。

以 GPT 为代表的大模型起源于文本,⽂本是简单线性序列,从这个角度看,大模型本质上是一个序列模型。

他认为,序列本身是很通用的,语言是一种序列,天气温度、股票价格也是序列。任何一个序列都有所谓的 Prefix(前缀)、中缀(Infix)和 Suffix(后缀),这些元素构成短语后就能形成具有递归能力的层次式表示,就像语言的语法树一样。大模型现在已经学会快速表达序列,这一能力是以前的 AI 在机器翻译、语音识别等序列任务里都不具备的。而且语言序列只是一种非常简单的序列,因为它是线性的。

这似乎并不难理解,在数科星球(ID:digital-planet)多方印证下,找到了序列模型的一些解释:(GPT、BERT 等)之所以被称为序列模型,是因为它们是在序列数据上进行预训练的。在自然语言处理领域,大模型的输入通常是一句话或一篇文章,这些输入可以被看作是一个序列。因此,在训练这些模型时,它们通常会以序列方式处理输入,并使用一系列技术来建立记忆和理解上下文之间的关系,以提供更好的预测能力。

在数科星球(ID:digital-planet)的研究中发现,如今,序列模型在业界已被广泛采用。例如,Google 的 BERT 模型可以通过在大量文本数据上进行预训练,理解单词和短语之间的关系,从而实现对复杂自然语言处理任务的卓越表现。同样,OpenAI 的 GPT-3 模型是基于序列到序列的转换模型,以多种方式训练,使用 Transformer 架构来学习计算机生成的文本与真实的人类生成的文本之间的关系。

值得注意的是,大模型较之以往 AI 产品的好处是显而易见的。以往,问题在通过 AI 生成结果之前,需要定义语义模板,而这通常是指一种用于描述和表示语言语义信息的结构化模板。这些模板描述了一些常见的语言结构和句式,在生成文本时可以根据这些模板来指引生成过程。但缺点是,当问题发生变化,AI 的程序也需变化,这让模型本身变得 “不那么通用”。

“而大模型训练过程中并不会预设问题,只在最后 Fine Tuning 阶段给模型一些范例数据(而非按照格式去标注数据),然后就可以直接提问模型并得出答案。”这意味着,大模型产品不需要特意标注数据和重新训练系统,在通用性角度上,是一种极大的进步。

02

参数不是越多越好

随着 ChatGPT 在全球越来越火爆,大模型的基本原理已逐渐被世人熟知。在一个个大模型推向市场的同时,数科星球(ID:digital-planet)看到,大模型的参数量变成了人们关注的焦点。对此,人工智能科班出身的李志飞认为,大模型不只是” 大 “。

他提到,参数量超千亿的语言模型并非近年才发展起来,早在 2007 年,Google Translate 的语言模型就已在 2 万亿文本 token 里进行学习,并达到 3000 亿参数。但那时的大模型都是基于文本里的 n-grams 构建,只是对互联网文本的表层建模,至多只能往前看六个词,主要用于在翻译过程中判断哪些句子更加符合目标语言习惯,并不具备泛化任务的能力。

所以大模型不只是「大」,更多是需要对互联网文本深度地建模。

在数科星球(ID:digital-planet)对话相关业内人士后,也得出了相似结论:即大模型并不是参数越多越好——大模型确实需要参数到达一定的量级才会出现 “涌现 “能力,增加参数量也的确可以提升模型表现,但也会带来以下一些潜在问题:

训练时间和计算资源:参数越多,训练模型所需的时间和计算资源就越多。这可能导致开发周期变长,并需要更强大的硬件设备才能支持。

过拟合:较多参数的大模型可能面临过拟合问题。当一个模型具有太多参数时,它可能过于复杂,以至于对训练数据捕捉过多细节,而无法很好地泛化到新的、未见过的数据。

优化挑战:参数较多的模型在寻找最优解时具有更大的搜索空间,从而使优化过程更为复杂和困难。

易用性和部署:大模型可能导致较大的存储和内存需求,这可能影响模型的易用性和部署。在资源受限的设备上(如移动设备),部署大模型可能存在挑战。

因此,在设计和选择模型时,应该根据任务需求和资源限制来平衡模型的大小和复杂度。在实际应用中,往往需要找到模型大小和性能之间的最佳平衡点。有时候,使用更小的模型加上合适的正则化方法、数据增强等技术,也能达到不错的效果。

03

关键在于把如何大模型用起来

4 月 20 日,出门问问在 2023AIGC 战略发布会上内测自研大模型 “序列猴子”,展示了其在知识储备、多步推理等方面的能力,李志飞本人甚至做了一场 “人机交互” 的 live demo。

此外,出门问问还推出了四款 AIGC 产品形成产品矩阵,分别为 AI 写作平台 “奇妙文”、AI 绘画平台 “言之画”、AI 配音平台 “魔音工坊”、数字人视频与直播平台 “奇妙元”,涵盖了剧本生成、解说讲稿、文本工具、创意想法、视频制作和制图配图等多个使用场景。

自 2012 年成立,出门问问这家公司在语音识别、TTS 和 NLP 等领域均有尝试。2020 年 6 月,GPT-3 出现之后其强大的通用能力让人李志飞非常震撼,一个单一的模型便可以完成多种特定任务,甚至能够完成从来没有接触过的任务。惊艳于 GPT-3 的表现,出门问问开始探索中国 GPT-3 之路,并于 2021 年发布大模型「UCLAI」,但由于其商业化落地过于艰难,出门问问便停止了对大模型的投入。

随后的一年多时间里,出门问问开始布局生成式 AI,做出了一系列 AIGC 产品,如「魔音工坊」和「奇妙元」。同时在美国,以 Jasper 为代表的 AIGC 产品迎来爆发式发展,成为 GPT 落地应用的最佳场景之一。

2022 年 10 月,出门问问重启大模型业务。历经 6 个月,出门问问在发布会中连发 4 款 AIGC 产品,涵盖剧本生成、解说讲稿、文本工具、创意想法、视频制作和制图配图等多个使用场景形成覆盖创作者全流程的生成式产品矩阵。

厚积薄发之下,大模型技术以及 AIGC 落地场景和产品应用的积累彻底打通了出门问问的 “任督二脉”,让产品 - 数据和用户之间形成了飞轮效应。

客观地说,出门问问的模式可以成为大模型和 AIGC 企业的成长样板,在可预期的未来,AIGC 产品之间也将在进一步提升语义语境理解、垂直模型和个性化之间展开。在数科星球看来这场技术革命才刚刚开始,远没到终局之时。

不过面对 OpenAI 引发的这场技术浪潮,相比于年初的满腔热血,李志飞理性了很多。

“跟 ChatGPT 差距是 16 个月 ”是李志飞对国内大模型技术水平的判断,他认为,目前国内各家大模型的平均水平大概处于谷歌 FLAN 阶段(FLAN 开启了大模型的指令学习 Instruction Tuning 范式),

做大模型不能太着急,它是个长期主义的事情。

如今,在琳琅满目的 AIGC 类产品推向市场的同时,数科星球认为,创业企业在构建技术底座的同时,还应该明确落地场景和商业模式。毕竟目前,国内外差距展现出来的只是技术问题,而中国拥有全球难以企及的应用优势。技术和商业并行,两条腿走路或许是最适合国内大模型企业的发展路线,就像李志飞所说,发展大模型的关键在于把如何大模型用起来。

结尾:在对话多家 AIGC 企业后,数科星球觉得,李志飞和出门问问可能是行业中 “最不着急” 的人。他本人对 AIGC 的态度是长期看好,但并不焦虑。

现在,AIGC 的子弹飞翔两个多月,并搅得行业 “天下大乱”。在未来,数科星球希望看到更多更扎实、更能沉得住气的企业加入 AIGC 大潮。有理由相信,倘若再给行业多些时间,那么将会有更多的企业给大众带来更多惊喜。

推荐内容