新金融琅琊榜按:本文出自某国有大行研发中心,发表于2023年1月18日,是我国银行业内最早对ChatGPT进行深度分析的文章之一。
来源: 我们的开心
作者:耿晓阳 张诚
(相关资料图)
原标题:ChatGPT解析与应用展望
01
引言
AI内容生成(AIGC)是Science杂志评选的2022年十大科学突破之一,无论是技术上还是应用上都极具潜力。但是以往的AIGC只在某一领域现象级爆火后又慢慢归于沉寂(如Stable Diffusion绘画生成),其落地应用及产生价值一直是产业界和投资界探寻的方向。
直到ChatGPT的出现,AIGC才强化了内容与生产力的连接,从此AIGC不仅仅停留在表达和含义抽象的艺术类产品,也能有对内容的明确反馈和更类似于人类表达习惯的描述,从而把AIGC从玩具进化为产品,迈出了AIGC大规模推广应用的重要一步。
那么,ChatGPT是什么,ChatGPT有哪些应用,又有哪些局限性呢?
02
ChatGPT是什么
ChatGPT是OpenAI公司发布的一款AI对话机器人,一经发布就爆火网络,短短五天内已积累用户一百万,迅速冲上流量高峰。
ChatGPT相较以往的对话机器人,能够更好的应对如个性化搜索任务、逻辑解析、写作内容以及辅助编程等自然语言(Nature Language Process,NLP)任务,并能够实现相对准确、完整的多轮次对话。
当然,对于一些开放式问题,如复杂逻辑推理、预测趋势等,ChatGPT往往给出“逻辑正确的空话”,不能完全解决问题。但是瑕不掩瑜,ChatGPT的成功仍然是AI技术的一次重大突破,这意味着AIGC具备实用价值、能够提升生产力,也意味着AI与现实世界的距离又近了一步。
关于ChatGPT的能力,下面两张图也许能够让你看到冰山一角。
图1:ChatGPT写工作周报
图2:ChatGPT写代码片段
那么OpenAI是如何实现这个历史级别的AI产品的呢?
03
ChatGPT的科技与狠活
ChatGPT与它的兄弟模型InstructGPT一样,都是基于GPT3.5大规模预研模型的基础上进化而来。GPT,是一种生成式的预训练模型,由OpenAI团队最早发布于2018年,比近些年NLP领域大热的Bert发布还要早上几个月。在经历了数年的时间,GPT系列模型也有了突飞猛进的发展,历代GPT模型的简要情况见下表:
这其中,GPT-1使用无监督预训练与有监督微调相结合的方式,GPT-2与GPT-3则都是纯无监督预训练的方式,GPT-3相比GPT-2的进化主要是数据量、参数量的数量级提升。
图3:GPT模型应用于不同任务的网络结构
那么,有了GPT-3这样的模型为基础,是如何在其上衍生出ChatGPT的呢?OpenAI并未公布ChatGPT实现的技术细节,从网络公开信息和论文来看,ChatGPT应用带有人工标注反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),使用GPT3.5大规模语言模型作为初始网络结构,使用收集数据增强的InstructGPT进行模型训练,训练过程可以大致分为三个步骤:
1、监督调优预训练模型 :在少量标注数据上对预训练模型进行调优,输出SFT(Supervised Fine Tuning,即有监督策略微调)模型。
图4:ChatGPT模型训练步骤1-监督调优预训练模型
该步骤可细分为三步: (1)收集数据形成pr ompt dataset(提示数据集),内含大量的提示文本用于介绍任务内容,即提问题; (2)有标注员对提示列表进行标注,即回答问题; (3)使用这个标注过的prompt dataset微调预训练模型。
关于预训练模型的选择,ChatGPT选择了 GPT-3.5 系列中的预训练模型(text-davinci-003),而不是对原始 GPT-3 模型进行调优。
2、训练奖励模型 : 标注者们对相对大量的 SFT 模型输出进行投票,这就创建了一个由比较数据组成的新数据集。 在此数据集上训练的新模型,被称为RM(Reward Model,即奖励模型)模型。
图5:ChatGPT模型训练步骤1-训练奖励模型
该步骤也可细分为三步: (1)使用SFT模型预测prompt dataset中的任务,每个prompt任务生成4到9个结果; (2)标注员对每个prompt的预测结果,按从好到坏顺序进行标注; (3)用标注结果训练一个RM模型。
3、使用强化学习方法持续优化模型:应用强化学习中的PPO(Proximal Policy Optimization,即近端策略优化)技术,进一步优化奖励模型以实现调优SFT模型。
图6:ChatGPT模型训练步骤1-使用强化学习方法持续优化模型
该步骤可细分为五步: (1)收集数据形成新的prompt dataset; ( 2)将PPO策略应用于有监督数据微调过的的预训练模型; (3)通过模型预测新的prompt dataset,得到数个输出; (4)使用奖励模型对数个输出进行打分,计算reward(即奖励分值); (5)使用reward对基于PPO策略的模型进行迭代更新。
以上三个步骤中,步骤一只进行一次,步骤二和步骤三持续重复进行,直至最终形成一个成熟稳定的模型。
ChatGPT模型构建过程值得借鉴的有两点:
一是在强化学习中使用奖励模型,训练过程更稳定且更快收敛,在传统NLP任务中,在对话模型的设计一直是个难点。引入了强化学习后,虽然可以解决对话问题,但如何建模奖励机制又成为了设计难题。ChatGPT采用训练奖励模型并不断迭代的方案,训练以一个提示词和多个响应值作为输入,并输出奖励模型,实现了训练的收敛。
二是使用SFT策略微调模型,有效利用大模型能力,同时避免过拟合,GPT-3用对应的SFT数据集训练16次完整数据集,每一次都是一个输入对应一个输出,对比奖励模型,给与奖励或者惩罚;但是这样训练的过拟合程度较高,甚至在第一次完整数据集训练后已经存在过拟合现象。ChatGPT在GPT-3基础上进行了优化,每个输入对应多个输出,人工进行输出结果排序,这样就能够让训练过程更接近人类思维模式,也有效避免了过拟合。
04
ChatGPT的局限性分析
当然,就像前文提到的,ChatGPT也并非完美,其仍有一定的优化空间,从技术角度尝试进行初步分析:
1、不可信性
对于AI对话生成模型而言,可解释性很重要,尤其是在推理、反馈等场合更需要严谨可追溯的解答,但是ChatGPT并没有针对问题来源做解释说明,这会导致其答案在部分场景中不可信,在部分领域的应用中受限。
2、诱导立场
可能是由于提示学习的原因,ChatGPT 在对话中对提问词的内容比较敏感,容易被提示词诱导,若初始提示或问题存在歧义或者伦理、道德层面的瑕疵,则模型会按照当前理解给出答案而不是反馈和纠正问题,这可能会导致ChatGPT强大的能力被用于一些非法、违规的场景,带来不必要的损失。
3、信息误判
ChatGPT的热启动虽然在大部分内容生成中能够给出大体上完整的答案,但是一部分回答会存在事实性错误,同时为了使得答案看起来更完整,ChatGPT会根据提示词生成冗余的内容用以修饰。在辅助决策的场景中,这种错误回答被淹没在大量冗余修饰之中,更不容易被察觉,这导致的信息误判也限制了ChatGPT应用于类似场景。
4、迭代成本
ChatGPT虽然具备内容生成能力,但是由于其本身基于大模型+人工标注训练的模式,对于新的信息采纳需要对大模型进行重新训练,这导致模型迭代训练成本过高,也间接导致ChatGPT对于新知识的学习更新存在一定时间区间的断档,这尤其限制了其在实时搜索领域的进一步发展。
05
ChatGPT带来的启示
ChatGPT引起的轰动是由于人们惊讶于它远超出前辈的泛用性和大幅度提升的回答问题能力,但这背后的影响其实远远不止这些:
1.有可能带来NLP研究范式的变革
ChatGPT迅速走红的背后,可以说是GPT类的自回归类语言模型的一次翻身仗。NLP领域近些年来另一热门的模型当属Bert。Bert与GPT都是基于Transformer思想产生的大型预训练模型,但二者之间存在不少差异,简单的说,Bert是双向语言模型,其更多应用于自然语言理解任务,而GPT则是自回归语言模型(即从左到右单向语言模型),其更多应用于自然语言生成任务。
ChatGPT所表现出的强大能力有理由让人相信,自回归语言模型一样能达到甚至赶超双向语言模型的路线,甚至在未来统一理解、生成两类任务的技术路线也未可知。
2.LLM(Large Language Model,大型语言模型)交互接口的革新
如果归纳下ChatGPT最突出特点的话,可以概括为:“能力强大,善解人意”。“能力强大”归功于其依托的GPT3.5,巨量语料、算力的结晶使模型蕴含的知识几乎覆盖了各个领域。而“善解人意”则有可能要归功于其训练过程中加入的人工标注数据。这些人工标注数据向GPT3.5注入了“人类偏好”知识,从而能够理解人的命令,这是它“善解人意”的关键。
ChatGPT的最大贡献在于:几乎实现了理想的LLM交互接口,让LLM适配人的习惯命令表达方式,而不是反过来让人去适配LLM,这大大提升了LLM的易用性和用户体验。而这必将启发后续的LLM模型,继续在易用人机接口方面做进一步的工作,让LLM更听话。
3.LLM技术体系将囊括NLP外更多领域
理想的LLM模型所能完成的任务,不应局限于NLP领域,而应该是领域无关的通用人工智能模型,它现在在某一两个领域做得好,不代表只能做这些任务。ChatGPT的出现,证明了AGI(Artificial General Intelligence,通用人工智能)是有可行性的。
ChatGPT除了展示出以流畅的对话形式解决各种NLP任务外,也具备强大的代码能力,可以预见,之后越来越多其它的研究领域,也会被逐步纳入LLM体系中,成为通用人工智能的一部分。这个方向方兴未艾,未来可期。
06
ChatGPT的应用展望
ChatGPT使用了当下先进的AI框架,相较于其他产品具备较高的成熟度,是AI技术发展浪潮中产生的优秀产品。但是正如前文分析,ChatGPT也有其自身的局限性。农业银行基于大数据体系、AI平台所提供的数据+AI能力,结合ChatGPT的相关技术,同时设法规避ChatGPT的固有问题,逐步赋能场景,有着巨大的想象空间。
营销自动化 ,综合使用AIGC技术,结合现有的个性化推荐、实时计算能力以及AutoML等技术,可以解决线上线下协同营销过程中的自动化断点问题,实现营销策略自动生成和迭代、自动AB实验、渠道自动分流,并实现自动生成营销话术、广告头图等运营内容,从而实现完整的自动化营销闭环。
风险识别 ,基于ChatGPT背后的GPT等LLM模型技术,可实现对关键要素提取、资料自动化审核、风险点提示等风控领域的业务流程,提升风控相关业务的自动化水平。
个性化搜索引擎 ,以GPT生成式问答为主体,结合现有的NLP、搜索引擎、知识图谱和个性化推荐等AI能力,综合考虑用户的提示词标注、知识结构、用户习惯等进行应对用户对应问题的内容生成和展示,并可以给出索引URL,这样既能解决现有检索引擎的准确性、个性化难题,又能弥补GPT的可信、更新问题,在技术上形成互补,在用户使用过程中实现完整的、一致的搜索体验。
增强知识图谱 ,使用GPT生成技术,结合知识图谱技术,可从当前实体关系图中生成扩展图,在知识图谱引擎原有的隐性集团识别、深度链扩散、子图筛选等能力基础上,扩展出更高维度、更大范围的隐性关系识别,能够提升风险识别、反欺诈的识别范围和准确程度。
内容创作 ,ChatGPT技术,结合行内语料进行适应性训练,可面向资讯、产品、广告提供便捷且高质量的内容生成能力,既能提升内容运营的效率,又能帮助用户更快地获取、理解和分析复杂的信息,从而进一步提升用户运营转化率。
辅助编程 ,相对于Copilot珠玉在前,ChatGPT类似技术的迭代反馈能力更为强大,能够通过提示、辅助、补充等方式生成部分代码,能够在简单逻辑代码实施中有效减少重复劳动,在复杂架构设计中铺垫微创新的基础。如应用得当,应会提升开发效率和交付质量。
智能客服 ,AI生成的对话可以快速应用于问题解答、营销话术等,能够提升问题解答的准确程度、给出相对靠谱的回答,并能结合个性化推荐系统的应用给出用户的营销线索,实现更标准、更贴心的用户服务。
ChatGPT乘风而来,农业银行在探索AI新技术、追逐AI新应用的脚步也从未停歇。就在近期,农行正在探索基于生成式大模型,结合金融领域相关文本语料,通过AI平台-NLP智能服务引擎提供特定业务场景下的文本生成、文本理解服务,近期该服务的alpha版本也即将在AI平台的AI商店上线,面向种子用户开放试用。
下一步,NLP智能服务引擎计划收集更多的银行业内相关的语料数据,基于大模型不断迭代优化出更具专业特色、更符合场景需求的自然语言理解与自然语言生成模型,让更多人乘上这辆急速前进、不断进化的AI快车。
07
结语
随着AI技术的深入发展和应用,定会不断诞生类似于ChatGPT的爆款产品,这类产品成功的逻辑是伴随人工智能技术的发展和创新,绑定具体场景应用,以满足用户的认知和期待。农业银行遵循这一规律,在AI技术创新、AI应用创新方面不断探索,以用带建,螺旋上升,在数字化转型的浪潮中,以数据为基础要素,以AI为重要抓手,逐步赋能总分行场景应用,让大家了解AI,用上AI,用好AI,充分挖掘数据和AI的价值,让数据和AI在银行业务经营管理活动中起到更加基础和重要的作用