作者 | 吴鸿键
“最近大模型的涌现,比大模型能力的「涌现」都要快。”
【资料图】
「涌现」是一个专业概念,放在大模型的语境里,指的是模型在突破某个规模时,出现了意想不到的能力。这话虽然是调侃,但也高度概括了行业现状。
ChatGPT在全球掀起热潮以来,国内已有多家公司发布或将发布自己的大模型,这些公司中既有阿里巴巴、百度、京东、华为等互联网或科技大厂,也有以商汤为代表的AI公司,以及备受瞩目的初创企业(例如王慧文的光年之外,王小川的百川智能)。
如果再把科研院所算上,据民生证券的统计,国内目前已有超30个大模型亮相。行业俨然有大模型“军备竞赛”的意思。
“混战”本身说明了不少事情,比如各家都已认识到大模型的价值,试图通过大模型升级已有业务和打开新增长空间。即使人们普遍认为大模型门槛高,但“百花齐放”也折射出业界认为大模型的发展尚处早期,且并不是只有极少数大玩家才能参与的游戏。
机会看上去很多,但拨开冗杂的信息,我们需要判断,大模型的“涌现”是不是昙花一现?以下四点值得关注。
产业融合成共识
相比ChatGPT在用户端的热潮,国内厂商更愿意谈大模型和产业的结合。“客户”是高频词,“接入我们的大模型”是共同目标。
以阿里巴巴的通义大模型为例,近期,阿里云官宣自研大模型“通义千问”并面向企业开始邀请测试,在阿里云峰会上,包括张勇在内的阿里云高管频频强调大模型能为各行业企业带来的价值。据阿里云智能CTO周靖人介绍,未来企业在阿里云上既可以调用通义千问的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型。
早些时候发布“文心一言”的百度,也是将B端“生态圈”作为宣传和业务重点。华为云盘古大模型提出了“AI for Industries”理念。推出大模型“日日新”体系的商汤,更是只面向政企客户开放API。
大环境对于生成式人工智能服务相对谨慎的态度、企业各自的资源和能力禀赋、以及在C端体验上和ChatGPT的差距,都可能是造成差异的原因。上述案例的共性是,大模型对于各家企业并非一个“另起炉灶”式的新业务,而是对已有业务方向的延伸和突破,对大模型的理解依然要放在公司已有的业务发展框架里来看。
依然以阿里云为例,云计算公司容易陷入“低毛利集成商”困境,难以在标准化和定制化之间找到平衡。预训练大模型带来了新的可能——在阿里云方面的设想中,企业只需将数据放在专属数据空间,用于大模型自动学习,然后就能生成企业专属的大模型。相比原本“什么都要从头做”的业务模式,大模型提供了效率更高的选择。
扬长避短,各秀肌肉
目前,国内的大模型厂商并不讳言和OpenAI、ChatGPT的差距,只是各家对于“差距有多大”有一些不同的判断。
相比OpenAI,国内互联网大厂有成熟的业务矩阵,多元的能力架构,以及在多年实战中锻炼出来的差异化能力,因此大公司们愿意强调的能力和方向也有所不同。
例如张勇在云峰会上表示,阿里巴巴所有产品未来都将接入“通义千问”大模型。此举意在利用大模型升级甚至改造现有业务体系,阿里云方面将这种融合视为未来发展的关键,称“阿里巴巴和所有企业都在同一起跑线上”。
除了拿自家业务当试炼场,阿里云还在峰会上提及其他优势,比如指出大模型的研发不是简单的“堆叠算力”问题,强调阿里云在低碳低能耗方面的能力积累。这也是阿里云提出为企业打造专属大模型的重要原因。
百度的优势来自其在中文搜索引擎的领导地位,因此公司在发布文心一言时,着重强调了其“更懂中文”的特性。商汤则更多强调其在参数和算力上的优势。“日日新”体系包含自然语言处理模型“商量”(SenseChat)、文生图模型“秒画”和数字人视频生成平台“如影”(SenseAvatar),其中“商量”参数约1800亿。商汤方面还强调,SenseCore大装置已完成2.7万块GPU的部署,并实现了5.0 exaFLOPS的算力输出能力,最高可支持万亿参数超大模型的训练。
除了应用,在和大模型相关的芯片和框架方面,国内大公司也有现成的积累。百度有昆仑芯、深度学习框架飞桨,华为有昇腾310和910芯片,ModelArts平台。这些同样是大厂在发展大模型时着重利用的对象。
大模型不稀缺,
高质量数据才稀缺
大模型“混战”还反映了一个信息:至少从表面上看,大模型不再稀缺。
民生证券在研报中指出,因为有开源基础以及大公司自本身的算力储备和资金实力,“单纯发布一个大模型的门槛没有市场想象中的那么高”。
“有大模型”不难,难的是“有一个能持续迭代,性能不断提升的优质大模型”。一些观点也提到,决定大模型发展的关键要素是高质量数据,尤其是在大模型“百花齐放”的背景下,数据是“胜负手”。
数据、算法、算力是AI能力三要素。
高质量的数据是助力AI训练与调优的关键,在和数据相关的流程中,数据采集、数据标注和数据质检又是较为重要的三个环节。但相比大模型的热闹,目前国内的数据相关产业链还有不小的提升空间。
据“自象限”的观察,目前数据质量在国内尚未受到足够重视,缺乏专门做数据质量的企业,这类企业更多是以大公司附庸品的形态出现。
而在海外,数据质量形成了垂直赛道,其中的公司会帮助AI企业最大限度地减少劣质数据带来的影响,这类公司产品通常包括数据可观察性平台、数据整理和偏见检测工具,以及数据标签错误的识别工具等等。
到底需不需要这么多大模型
最后是一个灵魂之问:行业需不需要这么多大模型?或者说,在大厂相继发布大模型的背景下,新玩家还有没有加入混战的必要?
大佬们对此有不同的看法。早些时候李彦宏在接受采访时表示,现在国内大厂都看好AI大模型,创业公司重新做没有多大意义。相较而言,“基于大语言模型开发应用机会很大,没有必要再重新发明一遍轮子”。
并不是所有人都认同这一观点。根据“品玩”的采访,王小川认为“大模型就是需要时间长一点,认真一点,而钱也不是唯一重要的”,“有些公司虽然有大模型这个底子,但没碰好就练歪了,上战场更难受。”
由于大模型的门槛和不确定性,留给中小厂商以及创业公司的难题还有很多——规模跟不上大公司的节奏,中模型或小模型难以找到竞争点,也难以获得“涌现”机会。如果选择垂直场景切入,又有可能遭遇来自通用大模型的“碾压”,一如ChatGPT对Jasper.AI的冲击。
大部分关于这类问题的讨论,比如要不要做大模型,要做什么样的大模型,要选择什么样的场景来落地等等,目前都还处于“混沌”状态。不少人在表达观点时还会特意强调“就目前的情况看”,并表示自己未来可能会在观点上有摇摆。但行业普遍认为,大模型代表着大机会,最后只有少数玩家能留下。