OpenAI首席科学家揭密GPT探索过程中不为人知的技术细节

Ilya Sutskever是OpenAI首席科学家，从事神经网络研究几乎整整20年，参与OpenAI 的创立、见证了 GPT-1、2、3 及风靡全球的 ChatGPT的探索和发展历程。早在2002 - 2003年，因为抱着AI 将会产生巨大影响力的直觉，以及对究竟什么是意识和什么是人类体验充满了好奇，认为如果能在智能学习或者机器学习方面做出一些成果，将很有可能成为 AI 领域最大的进步，于是跟随 Jeff Hinton （AI 教父，时任多伦多教授）探索神经网络。

今年GTC大会上英伟达CEO黄仁勋与Ilya Sutskever展开了对话，当被问到最新的GPT-4哪方面表现出来的能力让你惊讶？他说了两点：

(资料图片仅供参考)
1. 它的可靠性水平让人感到惊讶。在此之前的神经网络，如果你问它一个问题，它可能会以一种近乎愚蠢的方式误解问题。但在 GPT-4 上这种情况已经不再发生。它解决数学问题的能力大大提高了，你可以认为它真的进行了推导，很长的、复杂的推导，并且还转换了单位等等，这真的很酷。
2.它还是那个神经网络，只是变得更大，在更大的数据集上，以不同的方式训练，但训练的基础算法都是一样的，这是最令我惊讶的。

下面来看Ilya为我们解开的GPT探索过程中的更多技术细节。

早期探索

2000年初，并行计算机还很小，人们只有对神经网络的特性在于能够学习，能够自动为并行计算机编程的基本认知。虽然知道它与大脑的工作原理是相似的，但还不太清楚如何让它起作用。首次开始使用深度学习和神经网络时，人们训练的神经网络只有50个或者100个，几百个神经元已经是一个很大的神经网络了。100万的参数会被认为是很庞大的。没有人意识到规模的重要性。我们一般在没有优化过的CPU 上跑我们的模型。我们使用优化过的 Matlab。我们会做一些实验，诸如用什么样的问题来提问比较好。我们试着去发现有趣的现象，有趣的观察结果。试试这个，试试那个，都是小的尝试。

Jeff Hinton 当时对训练神经网络用于小数字感到很兴奋，还有分类任务。同时，他对于如何生成那些数字也很感兴趣。所以生成模型的源头，就从那里开始。但是问题在于，你做的那些很酷的东西都很零散，什么才能真正将它们串联起来？当时并不是很清晰。这就是关键问题。

大概是2010年，我意识到有监督学习是解决问题的关键。我可以准确地解释为什么是有监督学习。这不仅仅是一种直觉，我能够明确说出一个无可辩驳的论点。如果你的神经网络有足够的深度，并且足够大，那就可以用它去解决一项有难度的任务。关键词是“深（Deep）”和“大（Large）”。

那个时候人们还没有去关注大型神经网络，人们可能正在研究神经网络的一点点深度。但是，大部分机器学习的领域根本没有去研究神经网络。他们正在研究各种贝叶斯模型（Bayesian Model）和核方法（Kernel Methods）。这些方法虽然有优雅的理论基础，但并不意味着就是一个好的解决方案。

但是大型深度神经网络却能在面对问题求解时，给出一个好的答案。为了找到一个好的解决方案，你需要一个合适的大数据集，以及大量的计算来完成这项工作。很明显，优化是一个瓶颈。Jeff Hinton 实验室的另一位研究生 James Martens 取得了突破，他提出了一种与我们所做的不同的优化方法，他使用了一些二阶法（Second-order Method）。这件事的关键在于，它证明我们可以训练这些神经元。因为我们之前不知道是否可以训练它们。如果你能训练神经网络，你就把它变大一些，然后去找一些数据，这样你就能成功。

所以接下来的问题是，去找什么样的数据？答案就是 ImageNet 数据集。但在当时看来，ImageNet 是一个难度极高的数据集，它是超出正常范围的。Jeff建议我们试试GPU，同时幸运的是Alex Krizhevsky，真的很喜欢 GPU 编程。他可以给GPU编写程序，而且为卷积核（Convolution Kernels）编写程序的速度非常快。然后在 ImageNet数据集上，去训练神经网络，结果证明卷积神经网络非常适合 GPU 的模型，它让训练变得非常快并得到了结果。这一结果震惊了世界，它大幅打破了计算机视觉的纪录，这是非常明显的非常规地突破性进展。因此就能做规模远超以前的训练。

发现并让神经网络准确预测下一个词

AI 大爆炸之后和一些朋友来到了硅谷一起创办了 OpenAI，任首席科学家，在刚开始的时候，我们显然不是100%清楚如何去推动它。2016年初，当我们开始创业时，整个事情看起来很疯狂。当时可能只有100个人，他们中的大多数人在 Google / DeepMind 工作。然后有些人开始学习这些技能，但仍然非常稀缺。在 OpenAI 刚开始的时候，有两个持久的一直伴随着我们的想法：

第一个想法是通过压缩上下文进行无监督学习（Unsupervised Learning）

在2016年，无监督学习是机器学习中一个尚未解决的问题，没有人知道该怎么做。但是从数学意义上讲，训练这些自回归生成模型（Auto-Regressive Generative Models），会压缩数据。你可以直观地看到它们为什么会起作用。如果你将数据压缩得非常好，你就能够提取其中存在的所有隐藏信息，这就是关键。

正是这一想法导致了 OpenAI中关于情感神经元（Sentiment Neuron）的一些工作，当你训练一个神经网络时，它不是 Transformer，而是在 Transformer 之前的模型。那是小型循环神经网络（Recurrent Neural Networks），就是LSTM（Long Short-Term Memory）。这项工作在机器学习领域之外可能并不为人所知，但它非常有影响力，尤其是在我们的思想中。

当我们用相同的 LSTM 稍微调整一下，来预测 Amazon 评论的下一个字符。我们发现如果你预测下一个字符足够好，就会有一个神经元在 LSTM 内对应于它的情绪。这真的很酷，因为它展示了无监督学习的一些效果，并验证了能够预测下一个字符，预测下一个想法。压缩具有发现数据中秘密的特性，就是我们在训练这些 GPT 模型中看到的统计相关性。

从这一点来说，它直接打开了从哪里获得无监督学习数据的整个世界。但是在无监督学习中，困难点不在于从哪里获取数据，尽管现在也有这个问题。更多的是关于为什么要这样做？困难点是意识到训练这些神经网络以预测下一个token 是一个值得追求的目标。但实际上它并不那么明显，对吧？所以人们没有这样做。

但是情感神经元起作用了，它是 GPT-1 的前身，它对我们的思维有很大的影响。然后，Transformer 出来了。于是，我们训练了 GPT-1。

当 Transformer 出现时，它给了我们在合理时间内训练大模型的机会。但对于模型规模变化规律，以及模型大小和数据集关系的直觉，让我有一种强烈的信念认为：模型规模越大越好。在 OpenAI，我们的一个目标是找出增加模型规模的正确途径。OpenAI 一开始就对增加模型规模抱有很强的信念，问题是如何准确地使用它。

第二个想法是强化学习（Reinforcement Learning）

我们在 OpenAI 中完成了一个叫做DOTA2的竞争联赛游戏，它需要你聪明，更快，快速反应，有团队合作。因此，我们训练了一个强化学习 AI 代理来与自己对抗。目标是达到一定水平，以便可以与世界上最好的玩家竞争。这也是一个重大项目，它是一个非常不同的工作方向，就是强化学习。也就是在GPT之前，OpenAI 已经做了大量的工作，在GPT 产生基础的地方，已经有了真正的融合。从基于DOTA 的强化学习，变成了基于人类反馈的强化学习。这种组合带给了我们ChatGPT。

当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个词时，我们正在做的是，我们正在学习一个世界模型。看起来我们是在学习，表面上看起来我们只是在学习文本中的统计相关性。但实际上，只是去学习文本中的统计相关性，就可以把这些知识压缩得非常好。

神经网络所学习的是生成文本过程中的一些表述。这个文本实际上是这个世界的一个映射，世界在这些文字上映射出来。因此，神经网络正在学习从越来越多的角度去看待这个世界，看待人类和社会，看人们的希望、梦想和动机，以及相互之间的影响和所处的情境。神经网络学习一种压缩的、抽象的、可用的表示形式。这是从准确预测下一个词中学到的东西。

此外，你对下一个词的预测越准确，还原度越高，在这个过程中你得到的世界的清晰度就越高。这就是预训练阶段的作用。但是，这并不能让神经网络表现出，我们希望它能够表现出的行为。

你看一个语言模型，它真正要做的是回答以下问题。如果我在互联网上有一些随机的文本，它以一些前缀、一些提示开始，它将补全什么内容呢？可能只是随机地用互联网上的一些文本来补全它，这和我想拥有一个助手是不同的。一个真实的、有用的，遵循某些规则的助手，是需要额外训练的。这就是微调（Fine-tuning）和基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback），以及其他形式的 AI 辅助可以发挥作用的地方。

不仅仅是基于人类反馈的强化学习，也是基于人类和 AI合作的强化学习。人类老师与 AI 一起合作，去教导我们的 AI 模型。但不是教它新的知识，而是与它交流，向它传达我们希望它成为什么样子。

而这个过程，第二阶段，也是极其重要的。在这一阶段中，你可以对它进行微调，你可以指示它执行特定任务，那么你可不可以指示它别做一些事情？你给它设置一些安全护栏，去避免某一类型的行为。也就是说给它一些边界，这样它就不会偏离这个边界，去执行那些不安全的事情。第二阶段做得越好，这个神经网络就越有用，越可靠。它不同于第一阶段，它尽可能多地从世界的映射中学习这个世界的知识，也就是文字。第二阶段的训练我们做得越好，我们传达的这个边界的精确度就越高。因此，我们通过不断的研究和创新来提高这种精确度。我们确实能够提高这种精确度，从而使它在遵循预期指令的方式上变得越来越可靠和精确。

GPT-4 相比 ChatGPT，在许多维度上做了相当大的改进。GPT 是 ChatGPT 和 GPT- 4 之间的第一个区别，这也许是最重要的区别。在 GPT-4 的基础上预测下一个词，具有更高的准确度，这是非常重要的。因为神经网络越能预测文本中的下一个词，它就越能理解它。为了说明为什么对下一个词更准确的预测会导致更多的理解，真正的理解。我想绕个小弯，举个例子：

假设你读了一本侦探小说，它有复杂的故事情节，不同的人物，以及许多事件和神秘的线索。在书的最后一页，侦探收集了所有的线索，召集了所有的人，然后说“好吧，我要透露犯罪者的身份，那个人的名字是（……）”。

我们需要预测这个词。当然，有许多不同的词，但是通过预测这些词可以让模型实现更好的理解。随着对文本的理解不断增加，GPT-4 预测下一个词的能力也会变得越来越好。深度学习为了预测下一个词，从所有可选的角色里面，从他们的优势或弱点，或者他们的意图和上下文中，找出谁是凶手，这似乎需要一定的推理，但是在这里，推理并不是一个很好定义的概念。但无论如何，我们可以尝试去定义它。它就是当你可能更进一步的时候，如果你能够以某种方式思考一下，并且因为你的推理而得到一个更好的答案。我们的神经网络也许有某种限制，比如要求神经网络通过思考来解决问题。事实证明，这对推理非常有效。但我认为，基本的神经网络能走多远，还有待观察。我认为我们还没有充分挖掘它的潜力。在某种意义上，推理肯定还没有达到那个水平，神经网络还具备其它的一些能力。我们希望神经网络要有很高的推理能力。

提升GPT可用性

chatGPT在回答问题前，首先会告诉我，它知道些什么，然后才去回答这个问题。通常回答一个问题前，如果你告知我，你具备哪些基础知识或做了哪些假设，这会让我更相信你的回答。这在某种程度上，似乎也是在展现推理能力。在某种程度上，我们可以这样看待现在所发生的事情，这些神经网络具备很多能力，只是不太可靠。实际上，可以说可靠性是目前这些神经网络能够真正具备实用价值的最大障碍，尽管有时它们仍然具备实用价值。这些神经网络有时会产生一些幻想，或者犯一些出人意料的错误，这是人不会犯的错误。

正是这种不可靠性，使得它们的实用价值大幅降低了。但是我认为，或许通过更多的研究，结合当前的想法和一些更远大的研究计划，我们一定能实现更高的可靠性，这样模型才会真的具备实用价值。这将使我们能够拥有非常精确的保护措施，并且在不确定时要求澄清，或者说它不知道某些事情，当它不知道时能够非常可靠地表现出来。所以我认为，这是当前模型的一些瓶颈。因此，问题并不在于它是否具备某些特定的能力，更多的是程度的问题。

多模态 GPT-4 具备从文本和图像中学习，并对文本和图像输入做出响应的能力。首先，多模态学习的基础是Transformer，它使得我们可以从多个模态中学习，例如把文本和图像 token 化。在此基础上，它还帮助我们理解多模态是如何增强对世界的认知。两个原因可以解释多模态学习的重要性。第一个原因是对于神经网络来说看到多种形式的数据是有帮助的，特别是视觉数据。因为世界是非常视觉化的，人类是非常视觉化的动物。人类大脑皮层的三分之一都用于视觉，因此如果没有视觉，尽管我们的神经网络的效用仍然相当可观，但效用可能不如想象的那么大。这是一个非常简单的效用性的论点。很显然，GPT-4 可以“看”得很好。第二个原因是，除了从文本学习之外，我们还可以从图像中学习这个世界的知识。这也是一个有力的论点，尽管它像看上去不是那么明确。作为人类，我们在整个生命中只能听到大约10亿个词。你知道，因为10亿秒等于30年。所以你可以看到，我们每秒钟只能看到几个词，并且我们有一半的时间都在睡觉。我们在一生中只能获得几十亿个词。因此，对我们来说，获得尽可能多的信息来源变得非常重要，我们从视觉中学到的东西要多得多。

对我们的神经网络来说，同样的论点也是适用的。神经网络可以从相当多的词中学习，原本很难从几十亿词的文本中认知世界，可能会从数万亿词中变得更容易。举个例子，比如颜色，人们需要看到颜色才能理解颜色。但是神经网络在“一生中”从没有“看”过一张照片，如果你问它们哪些颜色彼此更相似，它知道红色比蓝色更接近橙色，它也知道蓝色比黄色更接近紫色。

这是怎么实现的？一个答案是这个世界的信息，甚至是视觉的信息会慢慢通过文本传播出去。但是它非常缓慢，不是很快速。所以当你有很多文本时，你仍然可以学习到很多东西。当然，当你加入视觉信息，并从视觉中学习知识，你就会学到额外的知识，这些知识是无法通过文本获得的。

GPT-4 仅使用文本时的准确率可能只有2%到20%，但是当加入视觉时，它的成功率跃升至40%。因此，视觉确实做了很多工作。视觉非常出色，我认为能够进行视觉推理和视觉交流，我们也将变得非常强大，非常棒。

从我们对世界中仅仅几个事物的了解，发展到你可以了解整个世界，然后你可以把这个世界做视觉化的推理，视觉化的沟通。现在是在哪里，未来又在哪里？也许在某个未来版本中，如果你问神经网络“嘿，给我解释一下这个”，它将不仅仅产生四个段落，而是像一个小图表一样，清楚地传达给你需要知道的信息。

音频也一样，它很有用，它是一个额外的信息来源，可能不如视频图片那样重要。但是，这种情况下还是有必要的。例如，如果有人说“great”的意思，“great”可以是“great（太好了）”，“great”也可以是“great（还好）”。你知道，一个是兴奋的，一个是讽刺的。像这样的词还有很多，比如“That"s sick”，指的是“I’m sick（我生病了）”，或者“I’m sick（我恶心了）”。根据人们的语气不同，含义也不同。音频的实用性，无论是在识别方面还是在生成方面。

AI的可靠性是由它是否可以被信任决定的，未来它肯定会达到能被完全信任的地步。如果它不能完全理解，它也会通过提问来弄清楚。它会告诉你自己不知道，但同时它会说需要更多的信息。

我认为 AI 可用性影响最大的领域，未来会有最大的进步。因为现在，我们就面临着一个挑战，你想让一个神经网络去总结长文档，获取摘要。挑战是，你能确定重要的细节没被忽略吗？这仍然是一个有用的摘要，但当你知道所有重要的点都被涵盖时，就会产生不同的结果。在某个时刻，尤其是当存在歧义时，这也是可以接受的。但如果某个点明显很重要，以至于任何其他看到该点的人都会说这真的很重要，当神经网络也能可靠地识别到这一点时，你就会知道它可信度提高了。这同样适用于防护栏。它是否清楚的遵循用户的意图，也会成为衡量可靠性的标准。未来两年，我们会看到很多这样的技术。

目前的GPT-4展示了很多很酷的东西，非常惊人。我会提到两点，简单来说，它的可靠性水平让人感到惊讶。在此之前的神经网络，如果你问它一个问题，它可能会以一种近乎愚蠢的方式误解问题。但在 GPT-4 上这种情况已经不再发生。它解决数学问题的能力大大提高了，你可以认为它真的进行了推导，很长的、复杂的推导，并且还转换了单位等等，这真的很酷。

但总的来说，我已经从事这项工作很长时间了，实际上几乎整整20年了。最让我感到惊讶的是，它真的运行起来了。它似乎一直以来对人们来说都是个小事，但它现在不再渺小，变得更重要、更强烈。它还是那个神经网络，只是变得更大，在更大的数据集上，以不同的方式训练，但训练的基础算法都是一样的，这是最令我惊讶的。每当我回顾时，我就会想，这些概念性想法怎么可能呢？大脑有神经元，也许人工神经元也一样好，我们可能只需要用某种学习算法对它们进行训练。那些论点竟然如此正确，这本身就是最大的惊喜。

免责声明：本号所载内容为本号原创或作者授权或公开资料整理，版权归原作者或原出处所有，仅代表作者个人观点，与本号立场无关。文章仅供读者学习参考，禁止用于商业。因部分内容无法找到真正来源，如有标错来源或文章所使用的图片文字链接等涉及侵权，请尽快与我们联系处理，谢谢！