【环球速看料】报道 | AI能证明数学数据库中82%的问题了，新SOTA已达成，还是基于Transformer_中国智能在线

明敏发自凹非寺量子位 | 公众号 QbitAI

不得不说，科学家们最近都在痴迷给AI补数学课了。

这不，脸书团队也来凑热闹，提出了一种新模型，能完全自动化论证定理，并显著优于SOTA。

【资料图】

要知道，随着数学定理愈加复杂，之后再仅凭人力来论证定理只会变得更加困难。

因此，用计算机论证数学定理已经成为一个研究焦点。

此前OpenAI也提出过专攻这一方向的模型GPT-f，它能论证Metamath中56%的问题。

而这次提出的最新方法，能将这一数字提升到 82.6% 。

与此同时，研究人员表示该方法使用的时间还更短，与GPT-f相比可以将计算消耗缩减到原本的十分之一。

难道说这一次AI大战数学，是要成功了？

还是Transformer

本文提出的方法为一种基于Transformer的在线训练程序。

大致可以分为三步：

第一、在数学证明库中预训练；

第二、在有监督数据集上微调策略模型；

第三、在线训练策略模型和判断模型。

具体来看是利用一种搜索算法，让模型在已有的数学证明库中学习，然后去推广证明更多的问题。

其中数学证明库包括3种，分别是Metamath、Lean和自研的一种证明环境。

这些证明库简单来说，就是把普通数学语言转换成近似于编程语言的形式。

Metamath的主库是set.mm，包含基于ZFC集合论的约38000个证明。

Lean更为人熟知的，是微软那个可以参加IMO赛事的AI算法。Lean库就是为了教会同名算法所有的本科数学知识，并让它学会证明这些定理。

这项研究的主要目标，是为了构建一个证明器，让它可以自动生成一系列合适的策略去论证问题。

为此，研究人员提出了一个基于MCTS的非平衡超图证明搜索算法。

MCTS译为蒙特卡洛树搜索，常用于解决博弈树问题，它因为AlphaGo所被人熟知。

它的运行过程，就是通过在搜索空间中随机抽样来找寻有希望的动作，然后根据这个动作来扩展搜索树。

本项研究采用的思路类似于此。

搜索证明过程从目标g开始，向下搜索方法，逐步发展成一个超图（Hypergraph）。

当出现一个分支下出现空集时，就意味着找到了一个最优证明。

最后，在反向传播过程中，记下超树的节点值和总操作次数。

在这个环节中，研究人员假设了一个策略模型和一个判断模型。

策略模型允许判断模型进行抽样，判断模型可以评估当前策略找到证明方法的能力。

整个搜索算法，就以如上两个模型作为参照。

而这两个模型都是Transformer模型，且权值共享。

接下来，就到了在线训练的阶段。

这个过程中，控制器会将语句发送给异步HTPS验证，并收集训练和证明数据。

然后验证器会将训练样本发送给分布式训练器，并定期同步其模型副本。

实验结果

在测试环节，研究人员将HTPS与GPT-f进行了比较。

后者是OpenAI此前提出的数学定理推理模型，同样基于Transformer。

结果表明，在线训练后的模型可以证明Metamath中82%的问题，远超GPT-f此前56.5%的记录。

在Lean库中，这一模型可以证明其中43%的定理，比SOTA提高了38%，以下是该模型证明出的IMO试题。

不过目前它还不是十全十美。

比如在如下这道题中，它解题用了比原题简便的办法，但这是不对的，研究人员表示这是因为注释中出现了错误。

One More Thing

用计算机论证数学问题，四色定理的证明便是最为人熟知的例子之一。

四色定理是近代数学三大难题之一，它提出“任何一张地图只用四种颜色就能使具有共同边界的国家，着上不同的颜色”。

由于这一定理的论证需要大量计算，在它被提出后100年内，都没有人能完全论证。

直到1976年，在美国伊利诺斯大学两台计算机上，经过1200小时、100亿次判断后，终于可以论证任何一张地图都只需要4种颜色来标记，由此也轰动了整个数学界。

加之随着数学问题愈加复杂，用人力来检验定理是否正确也变得更加困难。

近来，AI界也把目光逐步聚焦在数学问题上。

2020年，OpenAI推出数学定理推理模型GPT-f，可用于自动定理证明。

这一方法可完成测试集中56.5%的证明，超过当时SOTA模型MetaGen-IL30%以上。

同年，微软也发布了可以做出IMO试题的Lean，这意味着AI能做出没见过的题目了。

去年，OpenAI给GPT-3加上验证器后，做数学题效果明显好于此前微调的办法，可以达到小学生90%的水平。

今年1月，来自MIT+哈佛+哥伦比亚大学+滑铁卢大学的一项联合研究表明，他们提出的模型可以做高数了。

总之，科学家们正在努力让AI这个偏科生变得文理双全。

文章须知

责任编辑：疑疑

微信编辑：疑疑

文章由『运筹OR帷幄』转载发布

如需转载请在公众号后台获取转载须知

推荐内容

【环球速看料】报道 | AI能证明数学数据库中82%的问题了，新SOTA已达成，还是基于Transformer

2023-02-16
轻松骗你800元，宽带骗局为何如此猖狂？

2023-02-16
每日观察!ChatGPT is fun, but not an author ChatGPT利与弊分析

2023-02-16
天天百事通！Cocos 将接入百度文心一言，拥抱 AIGC，拓展 3D 实时创作领域的想象空间

2023-02-16
世界速读：ChatGPT革命，让知乎意外地找到了未来

2023-02-16
事关广电5G号卡配送与互联网渠道运营！中广电移动发布2023年度最新招标与比选公告

2023-02-15
环球今头条！AI新晋“顶流”ChatGPT将对财务数字化带来哪些影响？

2023-02-15
环球今日讯！错了！王慧文要做的是OpenAl，不只是ChatGPT

2023-02-15
会员喜讯｜热烈祝贺AR协会成员单位亿道信息成功登陆深交所主板

2023-02-15
每日精选：行业放大镜：元宇宙赋能文旅与娱乐 XR技术的春节玩法

2023-02-15
今日热门!搅动世界的男人，微软暴涨、Google紧张，ChatGPT之父“奥特曼”

2023-02-15
北京市算力指数全国第三，AI算力发展排名全国第一

2023-02-15
环球观焦点：又虐单身狗？微信情人节限时状态上线，还能发520元大红包

2023-02-15
因为 ChatGPT，未来十年中国会新增五亿程序员

2023-02-15
ChatGPT生态影响解读电话会纪要

2023-02-15
科技巨头集体焦虑，ChatGPT或成百度解药

2023-02-15
当前要闻：VC新闻热点 43：OpenAI 从非盈利实验室到附有上限的营利企业

2023-02-15
当前通讯！奥特曼：ChatGPT之父的彪悍人生

2023-02-15
快讯：住建部副部长姜万荣调研新城建展览展示中心，商汤展示应用成果

2023-02-15
ChatGPT如何影响银行

2023-02-15
热门：区块链在食品供应链中的应用

2023-02-15
世界百事通！“物联”超“人联” 移动物联网正加速赋能千行百业

2023-02-15
什么是真正的数字化？互联网企业的新机会在哪里？谢祖墀博士解惑

2023-02-15
全球热消息：支付宝给过万补贴招募达人，是“蹭流量”还是“新机会”？

2023-02-15
环球要闻：大数据已死！从业10年老哥爆文抨击：这套唬不住客户了

2023-02-15
给ChatGPT搞双眼睛，《流浪地球2》MOSS有影儿了

2023-02-15
当前关注：ChatGPT爆火，需要思考的问题很多

2023-02-15
【热闻】IDC：2026 年供需联动将推动中国物联网连接规模超百亿

2023-02-15
动态焦点:集度官宣融合文心一言，类ChatGPT人工智能技术全球首发上车

2023-02-15
教育行业争相入局ChatGPT，智能学习的春天来了？

2023-02-15
每日关注!谷歌和百度几乎同时成立，发展相差却那么大？

2023-02-15
月报 | ChatGPT引爆全网，1月人工智能资本市场情况如何？

2023-02-14
新动态：现在最火的AIGC到底是什么？

2023-02-14
每日动态!超级平台的春天来了，告别内卷，不再微创新

2023-02-14
ChatGPT背后的投资设计，是一场股权制度和所有权分配的革命

2023-02-14
魔椅宇宙携手途美，助力拉丁美洲及加勒比地区元宇宙国家馆建设

2023-02-14
即时焦点：雀巢、百事、达能和联合利华...食品500强“悄悄”用人工智能做什么

2023-02-14
世链财经|海外社媒推广应该怎么做？有哪些方法和途径

2023-02-14
焦点消息！世链财经|全球海外推广有哪些常见渠道，怎么扩大传播

2023-02-14
喜报|兆物信链入选《2022中国区块链技术创新典型企业名录

2023-02-14
财务要丢饭碗？ChatGPT能多大程度上取代现有财会工作？

2023-02-14
热点聚焦：热搜炸了！微信头像竟会褪色？回应来了

2023-02-14
世界热讯:技术前沿 | 看ChatGPT如何回应团餐（二）

2023-02-14
美团创始人王慧文带资5千万美元打造中国版ChatGPT

2023-02-14
今日关注：让ChatGPT长“手”！Meta爆火新论文，让语言模型学会自主使用工具

2023-02-14
环球微资讯！焦点|多地支持与规范措施并举激发平台发展潜力助经济提质换挡

2023-02-14
世界消息！HTC VIVE举办策略沟通暨新品体验会：XR轻体验+HTC产业、商业新思考

2023-02-14
超聚变“聚力”湾区：增长曲线上的价值“延长线”

2023-02-14
【环球热闻】斯坦福大学团队提出AI生成文本检测器DetectGPT，通过文本对数概率的曲率进行可解释判断

2023-02-14
每日速递：美团联合创始人王慧文宣布复出进军AI领域，望打造中国OpenAI

2023-02-13

win7各个文件夹的作用？win7更新文件夹在哪里？

2023-02-16
【环球速看料】报道 | AI能证明数学数据库中82%的问题了，新SOTA已达成，还是基于Transformer

2023-02-16
win7各个文件夹的作用？win7更新文件夹在哪里？

2023-02-16
轻松骗你800元，宽带骗局为何如此猖狂？

2023-02-16
每日观察!ChatGPT is fun, but not an author ChatGPT利与弊分析

2023-02-16
最新快讯!今日r11st怎么样_r11st

2023-02-16
世界速读：ChatGPT革命，让知乎意外地找到了未来

2023-02-16
天天百事通！Cocos 将接入百度文心一言，拥抱 AIGC，拓展 3D 实时创作领域的想象空间

2023-02-16
天天信息:微信也要下场做外卖？腾讯回应；马斯克发推称宠物狗是“推特新CEO”；顺丰回应7万元爱马仕运输中烧毁丨邦早报

2023-02-16
两轮电动车的下一站，是增长还是泡沫？

2023-02-16
精子在体内存活多少天_精子在体内可以存活多久

2023-02-16
世界速看：9.56亿收购「踩雷」，南极人难极了？

2023-02-16
观速讯丨马斯克向中国电商“妥协”简史

2023-02-16
谁还记得元宇宙？

2023-02-16
【环球热闻】钉钉、企微、飞书三强争霸：谁会率先盈利？

2023-02-16
环球报道:抢滩她经济与情人节，“电商鲜花”未来可期？

2023-02-16
当前关注：如何学好cad制图_怎么学习cad

2023-02-16
【世界聚看点】姓名配对缘分

2023-02-16
每日视讯：安康新型冠状病毒肺炎疫情:2月16日安康疫情最新消息今天数据统计情况通报

2023-02-16
世界播报:车牌号测吉凶

2023-02-16
迎着开发区振兴的朝阳，云南磨憨磨丁经济合作区发展蒸蒸日上

2023-02-15
环球快看：绝境病毒是什么_绝境病毒

2023-02-15
事关广电5G号卡配送与互联网渠道运营！中广电移动发布2023年度最新招标与比选公告

2023-02-15
每日看点！汽车疑问解答：qp是什么车的标志

2023-02-15
碳中和ETF南方: 南方基金管理股份有限公司关于旗下基金投资关联方承销可转换公司债券的关联交易公告

2023-02-15
没花1分钱，宁德时代开出美国第一个“加盟店”

2023-02-15
全球资讯：融资丨「天兵科技」完成Pre-C轮和B+轮融资，君度投资、鸿富资产和范式基金投资

2023-02-15
全球视点！ChatGPT大火，这7家独角兽值得关注，其中3家来自中国

2023-02-15
环球今头条！AI新晋“顶流”ChatGPT将对财务数字化带来哪些影响？

2023-02-15
环球今头条！叮咚买菜上岸了：前置仓也可以盈利

2023-02-15
消息！融资丨「普渡科技」完成过亿元C3轮融资，普华资本独家投资

2023-02-15
融资丨「西点精工」完成数千万元融资，丰年资本领投

2023-02-15
焦点精选！融资丨「博志研新」完成1亿元新一轮股权融资

2023-02-15
当前速讯：万朗磁塑: 万朗磁塑关于回购股份事项前十大股东及前十大无限售条件股东持股情况的公告

2023-02-15
环球今日讯！错了！王慧文要做的是OpenAl，不只是ChatGPT

2023-02-15
世界热消息：潞安环能：1月商品煤销量405万吨，同比增长15.71%

2023-02-15
今日热门!搅动世界的男人，微软暴涨、Google紧张，ChatGPT之父“奥特曼”

2023-02-15
北京市算力指数全国第三，AI算力发展排名全国第一

2023-02-15
每日精选：行业放大镜：元宇宙赋能文旅与娱乐 XR技术的春节玩法

2023-02-15
会员喜讯｜热烈祝贺AR协会成员单位亿道信息成功登陆深交所主板

2023-02-15
因为 ChatGPT，未来十年中国会新增五亿程序员

2023-02-15
世界今亮点！不畏浮云遮望眼全诗诗句不畏浮云遮望眼全诗

2023-02-15
环球观焦点：又虐单身狗？微信情人节限时状态上线，还能发520元大红包

2023-02-15
科技巨头集体焦虑，ChatGPT或成百度解药

2023-02-15
当前资讯!23广州资管SCP002票面利率为2.4100%

2023-02-15
ChatGPT生态影响解读电话会纪要

2023-02-15
融资丨「蓝晶微生物」完成逾4亿元B4轮融资，中平资本领投

2023-02-15
当前通讯！奥特曼：ChatGPT之父的彪悍人生

2023-02-15
当前要闻：VC新闻热点 43：OpenAI 从非盈利实验室到附有上限的营利企业

2023-02-15
信息：国家文物局发布2023年“考古中国”重大项目重要进展

2023-02-15
热门：区块链在食品供应链中的应用

2023-02-15
ChatGPT如何影响银行

2023-02-15
快讯：住建部副部长姜万荣调研新城建展览展示中心，商汤展示应用成果

2023-02-15
中国一级市场5年完成1039个投融资事件；红杉中国、启明创投、高瓴创投在2022年最为活跃-创业邦发布《2022年合成生物学产业投资报告》

2023-02-15
融资丨「Blue Protein」完成千万元天使+轮融资，熊猫资本独立投资

2023-02-15
世界百事通！“物联”超“人联” 移动物联网正加速赋能千行百业

2023-02-15
世界即时：融资丨「马蜂窝」完成新一轮融资，贵州省创新赋能大数据投资基金、贵阳创投、贵阳观山湖现代服务业投资基金等投资

2023-02-15
和远气体：目前两大产业园正按计划抓紧建设中，规划的一批产品预计在2023年逐步分批投产

2023-02-15
速讯：融资丨「卓道医疗」完成过亿元B轮融资，丹麓资本、恒旭资本联合领投

2023-02-15
超级漂亮的美女图片qq头像

2023-02-15
什么是真正的数字化？互联网企业的新机会在哪里？谢祖墀博士解惑

2023-02-15
用qq戳一戳对方会有什么提醒？qq如何设置戳一戳内容？

2023-02-15
当前关注：ChatGPT爆火，需要思考的问题很多

2023-02-15
环球要闻：大数据已死！从业10年老哥爆文抨击：这套唬不住客户了

2023-02-15
怎么关闭打开的所有网页？手机网页安全警告如何关闭？

2023-02-15
百度已缓存视频怎么保存本地？百度下载的文件怎么保存到手机？

2023-02-15
qq头像不显示什么原因？qq显示更换头像失败是为什么？

2023-02-15
给ChatGPT搞双眼睛，《流浪地球2》MOSS有影儿了

2023-02-15
手机看视频总卡屏怎么办？浏览器看视频为什么特别卡？

2023-02-15
抖音私密账号怎么查看作品？抖音开启私密账号谁可以查看作品？

2023-02-15
全球热消息：支付宝给过万补贴招募达人，是“蹭流量”还是“新机会”？

2023-02-15
微信气泡怎么设置？如何提高微信账户安全等级？

2023-02-15
携程旅行怎么订旅馆？携程预订旅店如何入住？

2023-02-15
如何查看谷歌地图街景？高德怎么进入街景？

2023-02-15
picsart如何导入图片？picsart怎么在图片上添加图片？

2023-02-15
环球短讯！一个更可怕的王健林

2023-02-15
全球时讯：融资丨「奢啡CEPHEI」完成新一轮数千万元融资，金沙江创投投资

2023-02-15
【热闻】IDC：2026 年供需联动将推动中国物联网连接规模超百亿

2023-02-15
每日关注!谷歌和百度几乎同时成立，发展相差却那么大？

2023-02-15
动态焦点:集度官宣融合文心一言，类ChatGPT人工智能技术全球首发上车

2023-02-15
当前信息：如何制作工艺品彩砂

2023-02-15
教育行业争相入局ChatGPT，智能学习的春天来了？

2023-02-15
快鲤鱼首发丨「海杰亚医疗」完成数亿元D轮融资，约印医疗基金领投

2023-02-15
焦点速递！平价蜜雪冰城，狂卷海外CBD

2023-02-15
叮咚买菜全面盈利，对行业来说意味着什么？

2023-02-15
每日消息!ChatGPT持续“高烧”，再走一遍元宇宙的老路？

2023-02-15
硕世生物：融资净偿还164.95万元，融资余额1.95亿元（02-14）

2023-02-15
世界即时：日本男士化妆品排行

2023-02-15
时讯：《子夜》出版90周年与史诗性创作

2023-02-15
报道：荷兰牛栏真假辨别技巧

2023-02-15
全球微头条丨如何制作字母气球拱门

2023-02-14
2019年建国70周年国庆大阅兵观后感600字范文5篇合集

2023-02-14
广州长隆欢乐世界多高的小孩要买票？

2023-02-14
周黑鸭业绩大降超90%！对外投资的多家公司已注销网友吐槽：价格提高、味道变差

2023-02-14
钻石市场冰与火，真爱卖不动了

2023-02-14
速递！简单搞笑的英语小故事

2023-02-14
环球头条：2023最热投资趋势：生命科学与医疗健康赛道的机会与挑战

2023-02-14
月报 | ChatGPT引爆全网，1月人工智能资本市场情况如何？

2023-02-14
世界最资讯丨高级动物有哪些种类_高级动物

2023-02-14
天天微头条丨融资丨「帕特」完成B轮融资，L Catterton独家投资

2023-02-14