2023年无疑是人工智能的“爆发年”,各种基于AI的新技术如雨后春笋般拔地而出,其中AI大模型成为了全球科技公司的“角逐场”。
3月16日,百度推出文心一言,标志着中国企业正式踏入这一AI新赛道,而这无疑只是一个开始。4月7日,阿里巴巴旗下的大语言模型——“通义千问”开启企业邀测。
随着ChatGPT“狂飙”,一个大模型的时代正在来临,加速千亿甚至万亿参数的大模型陆续出现。
(相关资料图)
NO.1
NLP五级进阶,大模型应运而生
从基于规则到基于人的意识,大型语言模型是技术进步的必然产物。NLP(Natural LanguageProcessing,自然语言处理)发展到大型语言模型的历程可分为五个阶段: 规则、统计机器学习、深度学习、预训练、大型语言模型。
考虑到机器翻译是NLP中难度最高、综合性最强的任务,可借助该功能来论述不同技术阶段的典型特点。
从1956年到1992年,基于规则的机器翻译系统在内部把各种功能的模块串到一起,由人先从数据中获取知识,归纳出规则后教给机器,然后由机器执行这套规则,该阶段为 规则阶段;
从1993年到2012年是 统计机器学习阶段, 在此期间,机器翻译系统可拆成语言模型和翻译模型,该阶段相比上一阶段突变性较高,由人转述知识变成机器自动从数据中学习知识,当时人工标注数据量在百万级左右;
从2013到2018年,进入 深度学习阶段, 其相比于上一阶段突变性较低,从离散匹配发展到 embedding 连续匹配,模型变得更大,标注数据量提升到千万级;
预训练阶段 存在于2018年到2022年,跟之前比较,最大变化是加入了NLP领域杰出的自监督学习,将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为 预训练 和 微调 两个阶段,将预训练数据量扩大3到5倍,典型技术栈包括 Encoder-Decoder、Transformer、Attention 等。
大模型阶段 在数据标注、算法、人机关系三方面的性能均有跨越式提升。从2023年起开始进入大模型阶段,该阶段的突变性很高,已经从专用任务转向通用任务或是以自然语言人机接口的方式呈现,旨在让机器遵循人的主观意志。
在数据标注方面, 大模型已经从原来需要大量标注数据进化到运用海量非标注数据,越来越多数据被利用起来,人的介入越来越少, 未来会有更多文本数据、更多其它形态的数据被模型运用。在算法方面,大模型的表达能力越来越强、规模越来越大,自主学习能力越来越强,从专用向通用趋势显著。
NO.2
大模型有多“大”
ChatGPT是在GPT基础上进一步开发的自然语言处理模型。GPT模型是一种自然语言处理模型,使用多层变换器(Transformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到语言模式来生成自然语言文本。 从GPT-1到GPT-4智能化程度不断提升。
第一代GPT-1诞生于2018年6月,训练参数量达1.17亿个,数据库规模为5GB;
第二代GPT-2诞生于2019年2月,训练参数量为15亿个,数据库规模为40GB;
第三代GPT-3诞生于2020年5月,训练参数量飞跃至1750亿个,数据库规模达到45TB;
第四代GPT-4诞生于2023年3月,GPT-4比以往任何时候都更具创造性和协作性,可以更准确地解决难题,可为ChatGPT和新Bing等应用程序提供支持。
从技术的角度来看,大模型发端于自然语言处理领域,以谷歌的BERT、OpenAI的GPT和百度文心大模型为代表,参数规模逐步提升至千亿、万亿,同时用于训练的数据量级也显著提升,带来了模型能力的提高。此外,继语言模态之后,如视觉大模型等其他模态的大模型研究,也开始逐步受到重视。进一步地, 单模态的大模型被统一整合起来,模拟人脑多模态感知的大模型出现,推动了AI从感知到认知的发展。
NO.3
大模型通用化之路
Gartner最新报告指出, 通用和可信是AI的未来两大趋势。
AI大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需要在 海量通用数据上进行预先训练,这样才能大幅提升AI的通用性和泛化性。
从产业价值的角度来看,预训练大模型带来了一系列可能性,让产学研各界看到了由弱人工智能走向强人工智能,走向工业化、集成化智能化的路径。在这样的驱动背景下,大模型有一些可预见的趋势与发展。
此外,随着人工智能赋能实体经济进入深水区,企业通常面临数据资源有限、算力投资难度大、高水平人才稀缺的发展瓶颈。 大模型作为解决上述问题的最优路径之一,可极大降低企业的技术门槛和开发成本。
展望未来,随着AI大模型在千行百业的深入应用,人工智能将在垂直领域有更多的落地机会。我国也将在“数字中国”战略框架下,通过政策扶持助力AI技术创新和应用探索,推动整个AI产业加速驶入“快车道”。
来源:人民中科,仅供学习交流使用,如有侵权,请联系删除。