全球即时：一文看懂AI数学发展现状，清华校友朱松纯学生一作，还整理了份必备阅读清单

任务模型数据集一步到位

(资料图)

编者按：本文来自微信公众号量子位（ID：QbitAI），创业邦经授权发布。

AI学数学，确实有点火。

且不论这两大领域的大拿纷纷为其站台，就是每次相关进展一出炉，就受到众多关注，比如AI求解偏微分方程。

△

既然如此，AI学数学到底学得怎么样了。

现在有团队专门梳理了十年发展历程，回顾了关键任务、数据集、以及数学推理与深度学习交叉领域的方法，评估现有的基准和方法，并讨论该领域未来的研究方向。

值得一提的是，他们还很贴心的整理了相关资源，在Github上放上了阅读清单以供食用。

接下来，就带你一文看尽。

一文看懂AI数学发展现状

在这篇调查报告中，作者回顾了深度学习在数学推理方面的进展，主要包括了几个方面。

任务和数据集；神经网络和预训练语言模型；大型语言模型的语境学习；现有基准和未来方向。

首先，作者梳理了目前可用于深度学习数学推理的各种任务和数据集，大体任务主要分为这几个大类。

1、数学应用题MWP

几十年来，开发自动解决数学应用题的算法，一直是NLP研究方向所在。一个涉及人物、实体和数量的简短表述，可用一组方程来模拟，方程的解法揭示了问题的最终答案。

MWPs对NLP系统的挑战在于对语言理解、语义解析和多种数学推理能力的需求。

大多数MWP数据集都提供了注释方程来解决。为了提高求解器的性能和可解释性，MathQA用精确的操作程序进行注释；MathQA-Python则提供具体的Python程序；还有数据集采用多步骤的自然语言，来对问题进行注释，这样更适合人类的阅读。Lila用Python程序的原理注释了许多前面提到的MWP数据集。

2、定理证明TP

即问题是通过一连串的逻辑论证来证明一个数学主张的真理。最近，人们对于交互式定理证明器（ITP）中使用语言模型来进行定理证明的关注越来愈多。

为了在ITP中证明一个定理，首先需用编程语言来陈述，然后通过生成 “证明步骤 “来简化，直到它被简化为已知事实。其结果是一个步骤序列，构成一个验证的证明。

其数据源包括与ITP对接的交互式学习环境，从ITP库证明中得到的数据集，比如CoqGym、Isabelle、Lean、Lean-Gym、miniF2F等。

3、几何问题解决GPS

与数学单词问题不同，几何问题解决（GPS）是由自然语言和几何图组成。多模态输入包括了几何元素的实体、属性和关系，而目标是找到未知变量的数学解。

基于这样的特性，用深度学习来解决GPS问题就颇具挑战，因为它涉及解析多模态信息、符号抽象、使用定理知识和进行定量推理的能力。

早期数据集相对较小或不公开，也就限制了深度学习方法的发展。为应对这一限制，有包括Geometry3K（由3002个几何问题组成，并对多模态输入进行了统一的逻辑形式注释）、以及新出炉的GeoQA、GeoQA+、UniGeo的引入。

4、数学问答MathQA

数字推理是人类智力中的一种核心能力，在许多NLP任务中发挥着重要作用。除了定理证明、数学应用题之外，还有一系列围绕数学推理的QA基准。

近段时间相关数据集大量诞生，比如QuaRel、McTaco、Fermi等，但最新研究表明，最先进的数学推理系统可能存在推理的脆性，即模型依靠虚假信号来达到看上去令人满意的性能。

为了解决这一问题，在各个方面诞生了新基准，比如MATH，由具有挑战性的竞赛数学组成，以衡量模型在复杂情况下的问题解决能力。