大数据文摘授权转载自数据派THU

作者:Oren Etzioni

翻译:顾伟嵩


(相关资料图)

校对:zrx

“人工智能(AI)”一词实际上有两种含义,既指将人类智能构建到计算机中的基本科学探索,也指对大量数据进行建模的工作。无论是在野心上,还是在近年来取得的进展上,这两项行为都是非常不同的。

科学AI是对构建和理解人类智能水平的探索,是所有科学中最深刻的挑战之一,它可以追溯到20世纪50年代,并可能持续几十年。

另一方面,以数据为中心的AI始于20世纪70年代,当时发明了自动构建“决策树”的方法,过去十年中,随着神经网络(现称为“深度学习”)的巨大成功而迅速流行。以数据为中心的人工智能也被称为“狭义AI”或“弱AI”,但过去十年左右的快速发展已经证明了其威力。

深度学习方法,再加上大量的训练数据集和前所未有的计算能力,已经在从语音识别到游戏等广泛的任务上取得了成功。人工智能方法建立了预测模型,通过计算密集型迭代过程,预测模型变得越来越精确。在过去的几年中,AI模型的训练需要人工标记的数据,这一直是取得成功路上的主要瓶颈。但最近,研究和开发重点已经转移到如何根据数据内部结构自动创建必要的标签的方式上。

Open AI于2020年发布的GPT-3语言模型展示了这种方法的潜力和挑战。

GPT-3进行了数十亿个句子的训练。它会自动生成高度可信的文本,甚至可以理智地回答广泛主题的问题,模仿一个人可能使用的相同语言。

但GPT-3正面临着研究人员正在努力解决的几个问题。首先是不一致性——你可以对同一个问题得到矛盾的答案。其次,GPT-3容易产生“幻觉”:当被问及1492年美国总统是谁时,它会很高兴地想出一个答案。第三,GPT-3是一种昂贵的训练和运行的模型。第四,GPT-3是不透明的,很难理解它为什么得出一个特定的结论。最后,由于GPT-3模仿从网络上获取的训练数据的内容,因此它经常抛出有害内容,包括性别歧视、种族主义、仇外心理等。从本质上讲,GPT-3是不可信的。

尽管存在这些挑战,研究人员仍在研究GPT-3的多模态版本(如DALL-E2),它可以根据自然语言请求创建逼真的图像。AI开发人员也在考虑如何在与物理世界交互的机器人中使用这些见解。AI正越来越多地应用于生物学、化学和其他科学学科,并从这些领域的海量数据和复杂性中收集见解。

今天的快速进步主要来自于以数据为中心的AI,今年35名35岁以下创新者获奖的工作也不例外。虽然以数据为中心的AI功能强大,但它也有关键的局限性:系统仍然是由人类设计和构建的。几年前,我为《麻省理工学院技术评论》(MIT Technology Review)写了一篇文章,题为“如何知道人工智能是否将摧毁文明”。我认为,成功地解决问题仍然是人类的一种独特能力。巴勃罗·毕加索有句名言:“电脑没用。它们只给你答案。”

我们继续期待着遥远的一天,AI系统能够提出好的问题,并进一步揭示理解和构建人类水平智能的基本科学挑战。

奥伦·埃齐奥尼是AI Allen研究所的首席执行官,也是今年35位创新者大赛的评委。

推荐内容