微动态丨在一篇由GPT-3生成的论文中，ChatGPT重现了图灵测试的原始论文

大数据文摘授权转载自AI科技评论

作者：李梅、黄楠

(资料图片)

编辑：陈彩娴

以 ChatGPT 为代表的文本生成的兴起，正促使许多研究人员寻求一个比原始版本更具挑战性的图灵测试。

图灵测试解决两个问题：“机器可以思考吗？”，如果可以，“如何证明它？”经典图灵测试针对的是 AI 最棘手的目标之一：如何欺骗不知情的人类？但随着当前语言模型变得越来越复杂，与 AI 如何欺骗人类相比，研究人员开始更关注“如何证明它？”的问题。

有观点认为，现代的图灵测试应当在科学的环境中证明语言模型的能力，而不是仅仅看语言模型是否能够愚弄或模仿人类。

最近有项研究就重新审视了经典图灵测试，并将图灵在 1950 年所著论文的内容作为 prompt，使用 ChatGPT 生成了一份更可信的论文版本，来评估它的语言理解和生成能力。在使用 AI 写作辅助工具 Grammarly 进行定量评分后发现，ChatGPT 生成的论文得分比图灵原始论文高出 14%。有趣的是，该项研究所发表的论文部分内容是由 GPT-3 生成的。

论文地址：

https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

然而，ChatGPT 的算法是否真的展示了图灵的最初观点，这仍然是个问号。尤其是，当下越来越擅长模仿人类语言的大型语言模型，很容易让人产生它们具有“信念”、能够“推理”的错觉，这会阻碍我们以更可信、更安全的方式部署这些 AI 系统。

图灵测试的演变

1950年版本的图灵测试是问答形式。图灵在论文中模拟了未来智能计算机的测试，如下图所示的一个算术问题：34957 加 70764 等于多少？

图注：ChatGPT 的问答序列，当中答案正确，问题来自图灵 1950 年论文

这个问题曾使当时最好的语言模型如 GPT‑2 失手。然而讽刺的是，在当时，图灵的论文（人类版本）给出了一个错误答案：（停顿约30秒，然后给出答案）105621。即使存在机器为了通过图灵测试而故意犯错的可能性，五分钟的对话仍让裁判人员相信，计算机30%以上的时间是人为操控的。

自1950年以来，图灵测试出现了许多改进，包括2014年一项著名的测试，称为“Lovelace 2.0 测试”。Lovelace 2.0 测试的标准是，机器可以在艺术、文学或任何类似创造性飞跃中创造出具有代表性的例子。

2014年，一个名为 Eugene Goostman 的聊天机器人模拟了一位13岁的乌克兰男孩，成功欺骗了 33% 的裁判人员，被认为是第一个通过图灵测试的机器。

但批评者很快注意到了预定义的问题和主题，以及仅使用键盘敲击的简短格式，这意味着该图灵测试的结果是不可靠的。

2018 年，谷歌 CEO Sundar Pichai 在一段视频中介绍了他们最新的名为 Duplex 的计算机助手，该机器成功实现了美发沙龙预约，成为人们在不知不觉中同机器互动的一部分。虽然正式通过图灵测试可能需要多种形式，但 The Big Think 得出结论：“迄今为止，还没有计算机明确通过图灵 AI 测试”。其他研究人员也重申了所有这些问题是否值得被探讨，其中特别考虑到目前大型语言模型在大量场景中的应用，比如航空工程的文本并没有将其领域的目标定义为“制造出的飞行器要与鸽子完全一样，并骗过其他鸽子”。

使用 ChatGPT 生成更可信的图灵测试

在 PeopleTec 的一项研究中，作者将图灵测试的原始论文内容作为 prompt，让 ChatGPT 重新生成一个更具可信性度的论文版本，并使用写作评估工具进行评估。

此前已经有使用 GPT‑3模型早期版本撰写和发表完全由机器撰写的研究论文的工作。识别机器所生成的叙述，对机器生成文本的抱怨通常源于已知的模型缺陷，例如容易丢失上下文、退化为重复或胡言乱语、答案形式重述问题，以及在被难住时抄袭互联网资源。

这里要生成的论文格式主要执行几个常规的大型语言模型（Large Language Model，LLM ）任务，特别是文本摘要和使用图灵问题作为 prompt 本身来生成原始内容。另外，作者使用 Grammarly Pro 工具来评估生成的内容，对论文的原创性、风格、清晰度和整体说服力等难以表征的特征进行定量评估。

这项工作更多地侧重于图灵挑战的后半部分，不是关于模型如何欺骗人类，而更多是关于如何量化好的文本生成。因此，OpenAI 的努力所展示的部分显著进步归结为它以提高人类生产力的方式改进机器衍生对话的能力。

作者首先用 Grammarly 来评估图灵的原始论文、得出各项分数，然后使用图灵提出的测试问题作为 prompt 来创造原始的 GPT-3 内容，从而复制这些分数。

研究使用三个文本作为基准：

（1）Turing Original，图灵 1950 年在 Mind 上发表的论文；

（2）Turing Summarization，2022 年“Free Research Preview: ChatGPT optimized for dialog”；

（3）Turing Generative Prompt，与（2）相同，但是使用图灵问题在对话中生成。

每个文本块输出都为可为 Grammarly 指标提供数据，并设定了基于受众：专家，形式：中性，领域：一般，当中应用大多数语法规则和约定，具有中等严格性。

这样一个图灵测试，其实也可验证一个欺骗性任务：一台机器（ChatGPT）可以欺骗另一台机器（Grammarly）吗？

图注：用于对大型语言模型和图灵论文进行评分的指标

图灵 1950 年的原始论文提出了用于图灵测试的 37 个问题，当中有针对他思考关于机器的中心主题，还有一些是向实验模仿游戏的计算机提出的示例问题。研究人员在 ChatGPT 的对话框中，将论文大纲中的主题混合在一起后摘录了这些问题，用来提示 ChatGPT 重现原始的基本内容。

ChatGPT 完成内容的生成后，在可读性、正确性、清晰性等指标上与图灵的原始论文进行比较，结果如下图。

图注：图灵 1950 年的论文与 ChatGPT 生成论文在各种任务中的比较结果

在清晰性（“有点不清楚”）、参与感（“有点乏味”）和信息传达（“略有偏差”）等更主观的评分中，所有四个版本都未能引起专家或普通读者的共鸣。

第一个文本摘要挑战表明，ChatGPT 能够掌握简短提示的意图，如：将论文总结成十段，并提供 PDF 论文的链接。这不仅需要模型理解和遵循请求中的摘要程度，还需要知道链接代表什么，并找到它作为参考或从其标记化标题中猜测。

OpenAI 称 GPT3 不会回答可能不属于其初始训练数据的内容，例如“谁赢得了 2022 年 11 月的选举？”。这种知识差距表明，ChatGPT 本身并不主动寻找链接，而是了解其他人之前对其内容所做行为。

有趣的是，当同一提示出现两次时（唯一的区别是提示工程和链接本身冒号后的文本换行符），ChatGPT 的答案会大相径庭。其中，第一次是一篇及格的学生论文，总结了图灵原始论文的要点；第二次则将问题解释为对前十段中的每一段的总结，而不是对整篇论文的总结。

最终的结果表明，ChatGPT 生成的研究论文的整体内容在度量意义上可获得较高的分数，但缺乏连贯性，尤其当问题作为叙述中的提示被省略时。

由此或许能够得出结论，这次与 ChatGPT 的交流充分说明了它能够产生真正有创意的内容或思想飞跃的能力。

ChatGPT 拒绝承认通过图灵测试

GPT‑3 在生成内容时，有一个重要过滤器用于消除固有偏见。这次的 ChatGPT 也被设计为颇具有道德正当性，当被问及对某事物的看法时，ChatGPT 会拒绝给出任何具体答案，而只强调自己是如何被创造的。

许多研究人员也认同，任何模型在被问到时，都必须在道德上声明自己仅仅是一台机器，ChatGPT 严格遵守了这一要求。

而且，经过 OpenAI 对 ChatGPT 各个模型层进行的微调，当前的 ChatGPT 在被直接问到它只是一个方程式还是图灵欺骗时，它会回答：

“我模仿人的能力并不一定意味着我有与人相同的思想、感觉或意识。我只是一台机器，我的行为是由所受过训练的算法和数据决定的。”

图灵还提出人类的列表记忆能力：“实际的人类计算机真的记得它们必须做什么......构建指令表通常被描述为‘编程’。”

就像越来越大的语言模型（>1000 亿）的演变一样，改进也有内置的启发式或模型执行护栏，GPT‑3 的 Instruct 系列就展示了直接回答问题的能力。而 ChatGPT 包括长期对话记忆，因此，即便单个 API 调用无法跨越的叙述跳跃，但 API 仍可以跟踪对话。

我们可以测试带有非人称代词（如“it”）的对话，在对话中将上下文与单个会话中的先前 API 调用一起进行——这是一个易于掌握的示例，用于 ChatGPT 的 API 内存，因为对较长的对话进行编码既强大又昂贵。

在 LLM 中，API 限制以及费用影响，使得很长一段时间里，token 权重之间的相关性通常在每隔几段的整体上下文中衰减（GPT-3 中的2048个token）。克服此上下文限制可将 ChatGPT 与其公开可用的前身区分开来。

第二代 Lovelace 2.0 测试提出了创造性任务和细化执行任务的约束条件。然后，人类判断专家会评估该模型是否可以用确定性的方式进行解释，或者输出是否符合有价值、新颖和令人惊讶的条件。因此，与其让程序“写短篇小说”，不如改进任务以展示特定的长度、风格或主题。该测试结合了许多不同类型的智能理解，其中，约束层试图限制谷歌搜索内容和有关 AI 成功稀释或伪装原始来源的争论。

以下展示了一个直接回答 Lovelace 2.0 测试中提出的挑战的短篇故事示例：讲述一个男孩爱上一个女孩，外星人绑架男孩，女孩在一只会说话的猫的帮助下拯救了世界

自2014年以来，作为对文本和图像生成的限制，高质量提示工程的使用已变得司空见惯，通常效果越好，关于样式、地点或时间的说明或限定词越详细。事实上，构建提示本身是当今 AI 中获得良好输出的最具创造性的方面。在这种情况下，人们可以通过使用 ChatGPT 强制进行创造性工作，同时处理单一主题、对所需输出的风格和基调的多层限制，将图灵和 Lovelace 测试交织在一起。

下面显示了 ChatGPT 在图灵模仿游戏中生成的十种诗歌：

图灵测试的结果由人类来裁决。正如 ChatGPT 所回答的，提问者是否判断模型通过了图灵测试问题“将取决于多种因素，例如机器提供的响应质量、提问者区分人和机器响应的能力，以及用于确定机器是否成功模仿人类的特定规则和标准。最终，游戏的结果将取决于具体情况和参与者。”

LLM 只做序列预测并不真正理解语言

可以看到，当代基于 LLM 的对话互动可以创造一种令人信服的错觉，仿佛置身于我们面前的，是像人类这样会思考的生物。但就本质而言，此类系统从根本上不同于人类，像 ChatGPT 这样的 LLM 还涉及技术哲学的话题。

语言模型正变得越来越擅长模仿人类语言，这带来一种强烈的感受，即这些 AI 系统已经与人类非常相像，而且我们会使用“知道”、“相信”和“认为”等具有强烈自主意识的词语去描述这些系统。基于上述现状，DeepMind 资深科学家 Murray Shanahan 在近日一篇文章中提到，要破除任何或过度悲观或过度乐观的迷思，我们需要清楚 LLM 的系统到底是如何运作的。

Murray Shanahan

1、LLM 是什么，可以做什么？

BERT、GPT-2 等 LLM 的出现改变了人工智能的游戏规则，之后的 GPT-3、Gopher、PaLM 等大模型基于 Tansformer 架构，在数百 TB 的文本数据上进行训练，更加凸显了数据的强大作用。

这些模型的能力是令人惊讶的。首先，它们在基准上的表现与训练集的大小成比例；其次，随着模型规模的扩大，它们的能力有了质的飞跃；最后，许多需要人类智能的任务可以简化为使用性能足够的模型“对下一个token进行预测”。

最后一点实际上揭示了语言模型的运作方式与人类的根本不同。人类在相互交流中所使用的的直觉是经过数千年进化而来的，如今人们正在错误地把这些直觉迁移到 AI 系统上。ChatGPT 具有相当大的实用性和巨大的商业潜力，为了确保它能被可信地、安全地部署，我们需要了解它的实际工作原理。

与人类语言相比，大型语言模型有什么本质上的不同？

如维特根斯坦所说，人类语言的使用是人类集体行为的一个方面，它只有在人类社会活动的大背景下才具有意义。人类婴儿是出生在一个与其他语言使用者共享的世界，并通过与外部互动来习得语言。

而 LLM 的语言能力来源不同。人类生成的文本构成一个大规模的公共语料库，它包含了单词、单词的构件、或带标点的单个字符等 tokens，大型语言模型就是关于这些 tokens 的统计分布的生成式数学模型。

所谓的“生成”，是指我们可以从这些模型中取样，也就是进行提问。但提问的问题是非常具体的，比如我们要求 ChatGPT 帮我们续写一段话，实际上是在要求它根据它的人类语言统计模型，来预测接下来可能会出现什么词。假如我们给 ChatGPT 提示“第一个在月球上行走的人是”，并假设它会回答“Neil Armstrong”。这里实际上并不是真的在问谁是第一个在月球上行走的人，而是：给定大量文本公共语料库中单词的统计分布，哪些单词最有可能遵循“第一个在月球上行走的人是”的序列？

尽管模型对这些问题给出的答案可能会被人类解读为模型“理解”了语言，但实际上对模型而言，它要做的就是生成具有在统计上可能的单词序列。

2、LLM 真的什么都懂吗？

LLM 通过以下两个方式来转变为问答系统：

a) 将其嵌入到更大的系统中；

b) 使用 prompt 工程来引发所需的行为。

这样一来，LLM 不仅可以用于问答，还可以用来总结新闻文章、生成剧本、解决逻辑难题以及进行语言翻译等。

这里有两个重要的要点。首先，LLM 的基本功能即生成统计意义上可能的单词序列，是非常通用的。其次，尽管具有这种多功能性，但所有这类应用程序的核心都是同一种模型，都只做同一件事，即生成统计意义上可能的单词序列。

LLM 的基础模型包括模型架构和训练参数。一个 LLM 并不真正“知道”任何事情，因为它所做的一切在底层意义上都是序列预测。模型本身并没有“真”或“假”的概念，因为它们不具备人类运用这些概念的方法。LLM 在某种意义上并不依赖意图立场。

这对于以 LLM 为核心的对话系统也是一样，它们并不能理解人类语言中关于真理的概念，因为它们不存在于我们人类语言使用者所共享的世界中。

3、关于涌现

如今的 LLM 是如此强大、多才多艺，以至于人们很难不或多或少地赋予其人格。一个相当具有吸引力的论点是，尽管 LLM 从根本上说只执行序列预测，但在学习这样做的过程中，它们有可能发现了需要用更高层次的术语比如“知识” 和“信念”进行描述的涌现机制。

事实上，人工神经网络可以将任何可计算函数逼近到任意精度。因此，无论需要何种机制来形成信念，它们都可能驻留在参数空间的某个地方。如果随机梯度下降是优化准确序列预测目标的最佳方式，那么给定一个足够大的模型、足够多的正确类型的数据以及足够的算力来训练模型，也许它们真的可以发现那种机制。

而且，最近的 LLM 研究进展已经表明，当足够大的模型在非常大量的文本数据上进行训练时，就会涌现出非凡的、意想不到的能力。

然而，只要我们的考虑仅限于一个简单的基于 LLM 的问答系统，它就根本不涉及交际依图。不管它使用的内部机制是什么，序列预测本身并没有交际意图的，简单地将交际依图嵌入到对话管理系统中也无济于事。

只有在能够区分真假的情况下，我们才能谈论最完整意义上的“信念”，但是 LLM 并不负责做出判断，它只是模拟哪些词可能跟在其他词后面。我们可以说 LLM“编码”、“存储”或“包含”知识，也可以合理地称 LLM 的一个涌现属性是它编码了日常生活世界的各种知识及其工作方式，但如果说“ChatGPT 知道北京是中国的首都”，那便只是一种修辞。

4、外部信息来源

这里的重点是，涉及将任何信念完全归于一个系统的先决条件。

任何东西都不能算作对我们共享的世界的信念，从广义上讲，除非它是在根据来自某个世界的证据适当地更新信念的能力的背景下，这是辨别真假能力的一个重要方面。

维基百科或其他一些网站，能否提供外部标准来衡量一个信念的真实性或虚假性？假设一个 LLM 被嵌入到一个系统中，该系统定期咨询此类资源，并使用现代模型编辑技术来保持其预测的事实准确性，实现信念更新需要什么样的能力？

序列预测器本身可能不是那种可以具有交流意图或形成对外部现实的信念的事物。但是，正如反复强调的那样，野外的 LLM 必须嵌入到更大的体系结构中才能发挥作用。

要构建一个问答系统，LLM 只需辅以一个对话管理系统以适当地查询模型。这个更大的架构所做的任何事情都可以算作交流意图或形成信念的能力。

至关重要的是，这种思路取决于从语言模型本身到语言模型所属的更大系统的转变。语言模型本身仍然只是一个序列预测器，并没有像以往那样更多地访问外部世界。只有相对于整个系统，在这种情况下，意向性立场才会变得更有说服力。但在屈服于它之前，我们应该提醒自己，这样的系统与人类有多么不同。

5、视觉-语言模型

LLM 可以与其他类型的模型结合和/或嵌入到更复杂的体系结构中。例如，VilBERT 和 Flamingo 等视觉语言模型 (VLM) 将语言模型与图像编码器相结合，并在文本-图像对的多模态语料库上进行训练。这使得它们能够预测给定的单词序列将如何在给定图像的上下文中继续。VLM 可用于视觉问答或就用户提供的图像进行对话，也就是俗称的“看图说话”

那么，用户提供的图像能否代表可以评估命题真假的外部现实？谈论 LLM 的信念是否合理？我们可以想象，一个 VLM 使用 LLM 来生成关于图像的假设，然后针对该图像验证其真实性，然后对 LLM 进行微调，以免做出被证明是错误的陈述。

但大多数基于 VLM 的系统并不是这样工作的。相反，它们依赖于文本和图像联合分布的冻结模型。用户提供的图像与 VLM 生成的文字之间的关系，与人类共享的世界与我们谈论该世界时使用的文字之间的关系根本不同。重要的是，前者仅仅是相关关系，而后者则是因果关系，当然，模型在推理过程中进行的计算存在因果结构，但这跟词语与其所指事物之间的因果关系不同。

6、具身 AI

人类语言使用者存在于一个共享世界中，这使得我们与 LLM 有着本质区别。孤立的 LLM 无法通过与外界交流来更新自己的信念，但如果将 LLM 嵌入到更大的系统中会如何呢？比如，呈现为机器人或虚拟化身的系统。这时候谈论 LLM 的知识和信念是合理的吗？

这要取决于 LLM 是如何具身化的。

以今年谷歌发布的 SayCan 系统为例，在这项工作中，LLM 被嵌入到控制物理机器人的系统中。机器人根据用户的高级自然语言指令执行日常任务（例如清理洒在桌面上的水）。

其中，LLM 的工作是将用户的指令映射到将帮助机器人实现所需目标的低级动作（例如寻找海绵）。这是通过一个工程化的 prompt 前缀来完成的，该前缀使模型输出合适的低级动作的自然语言描述，并对它们的有用性进行评分。

SayCan 系统的语言模型组件可能会无视机器人所在的实际环境来给出动作建议，比如旁边并没有海绵。所以，研究人员使用一个单独的感知模块利用机器人的传感器来评估场景，并确定执行每个低级动作的当前可行性。将 LLM 对每个动作的有用性评估与感知模块对每个动作的可行性评估结合起来，便可以得出下一步最优动作。

尽管 SayCan 在物理上有与现实世界的互动，但它学习和使用语言的方式与人类仍然非常不同。SayCan 这类系统中包含的语言模型经过预训练，可以在纯文本数据集的无实体环境中执行序列预测。它们并没有通过与其他语言使用者交谈来学习语言。

SayCan 的确给我们带来了关于未来语言使用系统的一种想象，但在今天这样的系统中，语言的作用非常有限。用户用自然语言向系统发出指令，系统生成对其动作的可解释的自然语言描述。但是，这种微小的语言使用范围根本无法与由语言⽀持的人类集体活动的规模相提并论。

所以，即使是对于包含 LLM 的具身 AI 系统，我们也要谨慎地选择词语去描述它们。

7、 LLM 能够推理吗？

现在我们可以否认 ChatGPT 具有信念，但它真的可以推理（reason）吗？

这个问题更加棘手，因为在形式逻辑中，推理是内容中立的（content neutral）。比如无论前提如何，“肯定前件”（modus ponens）的推理规则都是有效的：

如果：所有的人都会死，苏格拉底是人；那么：苏格拉底会死。

逻辑的内容中立性似乎意味着我们不能在推理方面对 LLM 过多苛求，因为 LLM 无法杰出到可以衡量真假的外部现实。但即便如此，当我们提示 ChatGPT“所有的人都会死，苏格拉底是人，那么”时，我们并不是在让模型进行假言推理，而是在问：给定的公共语料库中的词语统计分布，哪些词可能遵循“所有的人都会死，苏格拉底是人，那么”这一序列。

而且，更复杂的推理问题会包含多个推理步骤，由于聪明的提示工程，LLM 可以有效地应用于多步推理，无需进一步培训。例如，在思维链提示中，在用户查询之前向模型提交一个提示前缀，其中包含一些多步骤推理的示例，并明确说明，所有中间步骤在思维链风格中都包含一个提示前缀会鼓励模型，以相同的风格生成后续序列，也就是说，包括一系列导致最终答案的显式推理步骤。

像往常一样，真正向模型提出的问题的形式是“给定公共语料库中单词的统计分布，哪些单词可能遵循序列 S ”，在这种情况下，序列 S 是链接 thought 提示前缀加上用户的查询，最有可能跟在 S 之后的标记序列，将具有与提示前缀中找到的序列类似的形式，也即是在它们当中，将包括多个推理步骤，因此这些就是模型生成的。

值得注意的是，不仅模型的响应采用多步骤论证的形式，而且所讨论的论证通常（但并非总是）有效，并且最终答案通常（但并非总是）正确。在某种程度上，适当提示的 LLM 似乎推理正确，它通过在其训练集中和/或提示中模仿格式正确的参数来实现。

但是，这种模仿能构成真正的推理吗？即使今天的模型偶尔会犯错误，是否可以进一步缩小这些错误，使模型的性能与硬编码推理算法的性能无法区分？

或许答案确实为“是”，但是我们怎么知道呢？我们怎么能相信这样的模型呢？

定理证明器生成的句子序列是忠实于逻辑的，因为它们是底层计算过程的结果，其因果结构反映了定理的推理结构问题。使用 LLM 构建可信推理系统的一种方法是将其嵌入到执行相同因果结构的算法中。但是，如果我们坚持使用纯 LLM，那么，要完全相信它产生的论点，唯一方法就是对其进行逆向工程，并发现符合忠实推理规定的紧急机制。与此同时，我们应该更加谨慎，并在描述这些模型的作用时慎重行事。