ChatGPT“狂飙”，一个大模型的时代正在来临

2023年无疑是人工智能的“爆发年”，各种基于AI的新技术如雨后春笋般拔地而出，其中AI大模型成为了全球科技公司的“角逐场”。

3月16日，百度推出文心一言，标志着中国企业正式踏入这一AI新赛道，而这无疑只是一个开始。4月7日，阿里巴巴旗下的大语言模型——“通义千问”开启企业邀测。

随着ChatGPT“狂飙”，一个大模型的时代正在来临，加速千亿甚至万亿参数的大模型陆续出现。

(相关资料图)

NO.1

NLP五级进阶，大模型应运而生

从基于规则到基于人的意识，大型语言模型是技术进步的必然产物。NLP（Natural LanguageProcessing，自然语言处理)发展到大型语言模型的历程可分为五个阶段：规则、统计机器学习、深度学习、预训练、大型语言模型。

考虑到机器翻译是NLP中难度最高、综合性最强的任务，可借助该功能来论述不同技术阶段的典型特点。

从1956年到1992年，基于规则的机器翻译系统在内部把各种功能的模块串到一起，由人先从数据中获取知识，归纳出规则后教给机器，然后由机器执行这套规则，该阶段为规则阶段；

从1993年到2012年是统计机器学习阶段，在此期间，机器翻译系统可拆成语言模型和翻译模型，该阶段相比上一阶段突变性较高，由人转述知识变成机器自动从数据中学习知识，当时人工标注数据量在百万级左右；

从2013到2018年，进入深度学习阶段，其相比于上一阶段突变性较低，从离散匹配发展到 embedding 连续匹配，模型变得更大，标注数据量提升到千万级；

预训练阶段存在于2018年到2022年，跟之前比较，最大变化是加入了NLP领域杰出的自监督学习，将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段，将预训练数据量扩大3到5倍，典型技术栈包括 Encoder-Decoder、Transformer、Attention 等。

大模型阶段在数据标注、算法、人机关系三方面的性能均有跨越式提升。从2023年起开始进入大模型阶段，该阶段的突变性很高，已经从专用任务转向通用任务或是以自然语言人机接口的方式呈现，旨在让机器遵循人的主观意志。

在数据标注方面，大模型已经从原来需要大量标注数据进化到运用海量非标注数据，越来越多数据被利用起来，人的介入越来越少，未来会有更多文本数据、更多其它形态的数据被模型运用。在算法方面，大模型的表达能力越来越强、规模越来越大，自主学习能力越来越强，从专用向通用趋势显著。

NO.2

大模型有多“大”

ChatGPT是在GPT基础上进一步开发的自然语言处理模型。GPT模型是一种自然语言处理模型，使用多层变换器（Transformer）来预测下一个单词的概率分布，通过训练在大型文本语料库上学习到语言模式来生成自然语言文本。从GPT-1到GPT-4智能化程度不断提升。

第一代GPT-1诞生于2018年6月，训练参数量达1.17亿个，数据库规模为5GB；

第二代GPT-2诞生于2019年2月，训练参数量为15亿个，数据库规模为40GB；

第三代GPT-3诞生于2020年5月，训练参数量飞跃至1750亿个，数据库规模达到45TB；

第四代GPT-4诞生于2023年3月，GPT-4比以往任何时候都更具创造性和协作性，可以更准确地解决难题，可为ChatGPT和新Bing等应用程序提供支持。

从技术的角度来看，大模型发端于自然语言处理领域，以谷歌的BERT、OpenAI的GPT和百度文心大模型为代表，参数规模逐步提升至千亿、万亿，同时用于训练的数据量级也显著提升，带来了模型能力的提高。此外，继语言模态之后，如视觉大模型等其他模态的大模型研究，也开始逐步受到重视。进一步地，单模态的大模型被统一整合起来，模拟人脑多模态感知的大模型出现，推动了AI从感知到认知的发展。

NO.3

大模型通用化之路

Gartner最新报告指出，通用和可信是AI的未来两大趋势。

AI大模型兼具“大规模”和“预训练”两种属性，面向实际任务建模前需要在海量通用数据上进行预先训练，这样才能大幅提升AI的通用性和泛化性。

从产业价值的角度来看，预训练大模型带来了一系列可能性，让产学研各界看到了由弱人工智能走向强人工智能，走向工业化、集成化智能化的路径。在这样的驱动背景下，大模型有一些可预见的趋势与发展。

此外，随着人工智能赋能实体经济进入深水区，企业通常面临数据资源有限、算力投资难度大、高水平人才稀缺的发展瓶颈。大模型作为解决上述问题的最优路径之一，可极大降低企业的技术门槛和开发成本。

展望未来，随着AI大模型在千行百业的深入应用，人工智能将在垂直领域有更多的落地机会。我国也将在“数字中国”战略框架下，通过政策扶持助力AI技术创新和应用探索，推动整个AI产业加速驶入“快车道”。

来源：人民中科，仅供学习交流使用，如有侵权，请联系删除。