NPC有灵魂了吗？大语言模型与智能体设计的新进展

游戏带来的独特体验在于让人沉浸在一个引人入胜的世界与故事中,并让人经历一段与众不同的旅途。其中的情节与世界观又往往通过玩家与NPC的互动一点一点展开。然而,无论NPC有多生动,程序设置的本质终会提醒我们:你面前的并非某个角色,而是游戏制作者。

因此,许多玩家渴望一个开放世界,到处是与人类无异的智能NPC,如《西部世界》或《刀剑神域》中那般。在AI技术跳跃式发展的2023年，我们似乎能看到一些雏形与尝试。

《瑞克和莫蒂》中的电池宇宙

(相关资料图)

斯坦福和Google的研究团队近期设计了一个实验并发表了论文,目的是验证AI是否已经达到可以模拟人类复杂社交互动的程度。

自由聊天?不,是虚拟生活

在实验中,研究人员创建了25个AI虚拟角色,每个角色都设定了独特的个人信息,包括姓名、职业、人生目标等,这些AI角色被置入一个小镇中。基于大语言模型技术,这个虚拟小镇上的AI能够进行日常生活对话,对环境进行交互。虽然并不完美,但已为其在更真实场景下模拟人类丰富社交提供了基础。

它们能自发产生话题,传播信息,就公共事务形成不同观点。在实验的虚拟小镇环境下,AI角色Sam宣布要竞选市长,这一信息很快在其他AI角色之间传播开来。其中,Tom表示支持Sam的决定,因为Sam一直致力于小区工作,可以为小区发展作出新贡献。Tom后来与John讨论Sam的选举胜算,两人都预期Sam会成功当选。

Sam要竞选市长的消息成为虚拟小镇的热门话题,一些AI角色表示支持,一些则持观望态度。尽管AI角色的对话并不总是自然流畅,但能在一定程度上模拟人类社会关系的复杂性,实现信息的有效传播和讨论,形成不同的立场和态度。

在虚拟小镇实验中,AI角色Isabella的初始设定是需要在情人节举行一个派对。Isabella在咖啡馆工作,她逢人便邀请其他AI角色参加她的派对。Isabella的女儿Maria也邀请她暗恋的对象Klaus来参加。除Isabella举办派对和Maria暗恋Klaus的初始设定外,其他行为如传播派对信息、布置派对场地、邀请其他人等完全由AI自主完成。

在NPC的八卦下，最终有12个AI角色知晓这个派对信息,但只有5个角色实际出席,包括这对相互暗恋的角色Maria和Klaus。其他7个AI角色没有出席,研究人员后来分析了他们的理由,有4个原本表示有兴趣但没来,另外3个找了其他的理由。这里AI展现出一定的观察力和反思能力,可以在一定程度上解释角色放鸽子的理由。

NPC是如何有灵魂的？

那么研究团队具体是如何让这些NPC看起来更“人性化”的呢？他们制定了一种智能体架构来检索记忆,动态地更新他们过去的经验,并将其与智能体的上下文和计划结合,这些经验、上下文和计划可能相互加强或相互矛盾。整个架构有三个主要的组件：记忆、计划和反思。每个组件负责执行特定的功能。

在记忆与检索的方法中,记忆流将智能体当前的经历和观察提供给语言模型，语言模型据此可以输出更加符合人类行为的指令与内容。检索功能则会根据不同的情况进行选择，如最近访问的事件以及事件的重要性与相关性。这些方法有助于语言模型选择与当前情况相关且重要的记忆,让智能体的反应更加连贯和具体。

计划描述了智能体未来的行动序列,并帮助智能体的行为随时间保持一致。一个计划包括位置、开始时间和持续时间。例如,快到截止日期时,Klaus可能选择把一天时间花在桌前起草研究论文。

反思则是一种更高级别的记忆,可以回顾记忆和做出更高层次的推理。当智能体对事件的感知达到一定阈值时就会进行反思，根据智能体近期经历提出的问题,然后,语言模型进行回答并引用相关记忆作为证据。问Klaus最想与谁在一起,他选择Maria而不是与他互动最频繁的人,因为Klaus热衷学术研究，而Maria也总是在做学术研究。

最后,研究者还让25名人类参与者来评估不同类型的智能体在人性方面的可信度。结果显示,生成式智能体虽然在语言产生方面达到较高水平,但在理解和生成非语言信息方面,如个性、情感和社交性等方面,其水平还不及人类。自然语言模型在非语言的理解与生成方面存在局限,而如何解决与克服这一局限也是未来研究的方向。

大语言模型会颠覆传统AI吗？

在以往的游戏中，虚拟世界中的角色时有真实之感,这归因于游戏创作者在游戏性与故事性之间的完美平衡,以及玩家在游戏中同人物与环境互动的沉浸感。

我们也能实际体验到游戏中NPC的智能化。《荒野大镖客2》里NPC会记得玩家曾经帮他吸出过蛇毒，再次相遇时会给予感恩和回报。《巫师3》开场支线任务里的NPC会欺骗并利用并玩家的善良来达到自己的目的。但这些游戏一般采用编写AI行为的方法来与玩家展开互动性叙事,如有限状态机和行为树等。

当人们说AI会取代人类时网友就会掏出这张图

虽然它们可以处理基本的社交互动,但不可能完全涵盖开放世界中所有可能的互动行为范围。考虑到制作人员的工作量和效率，这些方法通常简化了环境或行为的维度，尚未解决在开放世界中可信智能体的问题。

较为开放的沙盒游戏如《矮人要塞》和《环世界》是叙事过程生成技术的典范。里面每个NPC都在编写自己的个人历史，细看却发现某些事件之间还是缺乏关联性和逻辑性。

使用机器算法训练的AI往往出现在那些易于定义奖励的对抗游戏中,这些奖励可以被学习算法优化。这种方式设计出的AI非常智能，在某些方面甚至超越人类,如星际争霸战中的Alpha Star和Dota 2中的Rerun能击败职业选手。

可以看出，传统的基于状态机、行为树的而设计的AI和较近的基于深度学习设计的AI在游戏中都有各自典型的运用。斯坦福大学的这个研究项目巧妙地向我们展示了如何将GPT-3.5这种基于深度学习的大语言模型融入游戏之中。现在，让游戏中的AI与玩家直接对话也不是什么新鲜事了。

一款使用大语言模型的游戏《Origins》就曾有玩家上传了游戏实机体验视频。就目前的演示来看，玩家可以直接与游戏内NPC对话，去询问证人找出事件真相。玩家分别与清洁机器人和人类进行了对话，与机器人的对话较为流畅，但人类这边的语调和表情就“机械感”十足，相当违和。

《辐射4》近期也出现了一款可以为游戏自动生成对话和全程配音的Mod。目前该Mod为游戏添加300多条全新对话，在一定程度上解决《辐射4》“对话轮系统”的限制, “对话轮系统”只提供了四种选项,限制了玩家的自由度。AI生成的声音已经与原声非常相近,但目前听起来还是略微“缺乏感情”。

SE免费新作《SE AI技术预览：港口镇连续杀人事件》一经推出就“特别差评”，好评率不足10％。据介绍，这款游戏运用多种AI技术，自然语言处理（NLP）、自然语言理解（NLU）、语音转文字（STT）等。实际体验下来所谓的自由对话就是纯噱头，只有在提到某些触发词或关键词时，NPC才会生成实质性的、有价值的对话。

连自己内裤的颜色都不知道？

当然运用这项技术的游戏远不止这些，在实际体验中也能够明显地感受到这项技术中瑕疵的、机械化的一面。

即使是当今最强大的语言模型GPT-4，其本质更多的是一个统计学原理的概率模型，它的出发点并不是逻辑和语义。“奈何本人没文化，一句卧槽行天下。”在日常生活中，语言与行为活动密不可分，只言片语就能表达丰富的涵义。哲学家维特根斯坦的“语言游戏”就说明了这点，深究语言的本质只会走入死胡同，语言的使用比语法更重要，我们需要考虑实际的应用场景。

而到了算力有限，系统交互同样复杂的游戏中，目前的AI在游戏上还是有点捉襟见肘了，它们无法理解语言符号和非语言符号的关联。就目前来看，利用AI技术缩减游戏开发中的重复性工作和流程,游戏开发商投入更多成本和资源到游戏内容和体验本身的开发上，这可能是一条更加符合实际需求和发展趋势的道路。至于未来，我们不妨大胆展望，西部世界在有生之年或许能够实现。毕竟世界上第一架飞机只飞行了36.6米，而短短六十年，人们就可以在云端俯瞰生灵，宣告头顶并没有什么上帝。