快播：AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士_中国智能在线

梦晨丰色发自凹非寺量子位 | 公众号 QbitAI

高数考不好，不知道是多少人的噩梦。

(相关资料图)

如果说你高数考得还不如AI好，是不是就更难以接受了？

没错，来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到 81.1% ，妥妥的 MIT本科生水平。

课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

这件事最近还登上了微博热搜。

△ “仅”得81分，对AI的期待也太高了吧

现在，谷歌那边又传来了最新大消息：

不止数学，我们的AI甚至在整个理工科上，都已经拿到最高分啦！

看来在培养“AI做题家”这件事上，科技巨头们已经卷出了新高度。

谷歌这个最新AI做题家，参加了四门考试。

数学竞赛考试MATH ，以往只有三届IMO金牌得主才拿过90分，普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们，以前最好成绩只有6.9分……

但这一次，谷歌新AI却刷到了50分，比计算机博士还高。

综合考试MMLU-STEM ，内含数理化生、电子工程和计算机科学，题目难度达到高中甚至大学水平。

这一次，谷歌AI“满血版”，也都拿到了做题家中的最高分，直接将分数拉高了 20分左右。

小学数学题 GSM8k，直接将成绩拉升到78分，相比之下GPT-3还没及格（仅55分）。

就连 MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程，谷歌新AI也能在200多道题中，答出将近三分之一。

最重要的是，与OpenAI凭借“编程技巧”取得数学高分的方法不同，谷歌AI这一次，走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题，却掌握了更好的理工科解题技巧。

值得一提的是，论文一作Lewkowycz还分享了一个论文中没写到的亮点：

我们的模型参加了今年的波兰数学高考，成绩比全国平均分还要高。

看到这里，有的家长已经坐不住了。

如果告诉我女儿这件事，我怕她用AI做作业。但如果不告诉她，就没有让她对未来做好准备！

在业内人士看来，只靠语言模型，不对算数、逻辑和代数做硬编码达到这种水平，是这项研究最惊艳的地方。

那么，这是怎么做到的？

AI狂读arXiv上200万篇论文

新模型Minerva，基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题，再靠写代码来解决。

而Minerva则是狂读论文，硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练，新增的数据集有三部分：

主要有arXiv上收集的200万篇学术论文，60GB带LaTeX公式的网页，以及一小部分在PaLM训练阶段就用到过的文本。

通常的NLP数据清洗过程会把符号都删掉只保留纯文字，导致公式不完整，比如爱因斯坦著名的质能方程只剩下了Emc2。

但谷歌这次把公式都保留，和纯文本一样走一遍Transformer的训练程序，让AI像理解语言一样去理解符号。

与之前的语言模型相比，这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比，Minerva的训练中没有显式的底层数学结构，这带来一个缺点和一个优点。

缺点，是可能出现AI用错误的步骤得到正确答案的情况。

优点，是可以适应不同学科，即使有些问题无法用正规的数学语言表达出来，也可以结合自然语言理解能力解出来。

到了AI的推理阶段，Minerva还结合了多个最近谷歌开发的新技术。

先是 Chain of Thought 思维链路提示，今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程，正确回答本来会答错的题目。

再有是谷歌和 MIT合作开发的 Scrathpad 草稿纸方法，让AI把分步计算的中间结果临时存储起来。

最后还有 Majority Voting 多数表决方法，也是今年3月才发表的。

让AI多次回答同一个题目，选择答案中出现频率最高的。

所有这些技巧全用上以后，5400亿参数的Minerva在各种测试集中达到SOTA。

甚至 80亿参数版的Minerva，在竞赛级数学题和MIT公开课问题中，也能达到GPT-3最新更新的davinci-002版本水平。

说了这么多，Minerva具体都能做出哪些题目？

对此谷歌也开放出了样例集，一起来看一下。

数理化生全能，连机器学习都会

数学上，Minerva可以像人类一样按步骤计算数值，而不是直接暴力求解。

对于应用题，可以自己列出方程式并做简化。

甚至还可以推导证明。

物理上，Minerva可以求中性氮基态（Z = 7）电子的总自旋量子数这样的大学水平题目。

生物和化学上，Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响？

以下哪种是放射性元素？

以及天文学：为什么地球拥有很强的磁场？

在机器学习方面，它通过解释“分布外样本检测”的具体含义，从而正确了给出这个名词的另一种说法。

……

不过，Minerva有时也会犯一些低级错误，比如把等式两边的√给消了。

除此之外，Minerva会出现的推理过程错误但结果对的“假阳性”情况，比如下面这种，有8%的可能性。

经过分析之后，团队发现主要的错误形式来自计算错误和推理错误，只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决，但其他种类的错误因为神经网络规模太大就不太好调整了。

总的来看，Minerva的表现让很多人感到惊艳，纷纷在评论区求API（可惜谷歌目前并没有公开计划）。

有的网友想到，加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法，它的准确率或许还可以再提高？

不过作者的回应是，哄一哄方法属于零样本学习，再强恐怕也比不上带4个例子的少样本学习。

还有网友提出，既然它可以做题，那么能不能反过来出题？

事实上用AI给大学生出题这件事，MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起，找学生来做问卷调查，大家也很难分清一道题是不是AI出的。

总之现在的情况，除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

老师们也盼着有一天能用AI出卷子。

论文地址：

https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址：

https://minerva-demo.github.io/

相关论文：

Chain of Thought https://arxiv.org/abs/2201.11903 Scrathpads https://arxiv.org/abs/2112.00114 Majority Voting https://arxiv.org/abs/2203.11171

参考链接：

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html https://twitter.com/bneyshabur/status/1542563148334596098 https://twitter.com/alewkowycz/status/1542559176483823622

— 完 —

推荐内容

快播：AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士

2022-07-02
天天时讯：公众号信息流再改版，我们发现了微信的秘密

2022-07-02
世界热讯:突然崩盘！巨头商汤暴跌超2000亿，一场资本泡沫破灭

2022-07-02
全球今热点：阿里打出「瓴羊DaaS」这手好牌

2022-07-02
焦点简讯:商汤科技解禁日跌幅46.77%，管理层承诺短期不出售股份

2022-07-01
全球热头条丨飞书是一款好产品吗？2分钟说清楚

2022-07-01
环球看热讯：打破140字限制，微博在下什么棋？

2022-07-01
世界焦点！字节跳动的“棋子”和“弃子”

2022-07-01
天天速讯：腾讯在云游戏领域放了个大招？

2022-07-01
全球速看：国内数字藏品行业再推自律发展倡议蚂蚁、腾讯、百度、京东等联合发起

2022-07-01
天天新消息丨华新水泥与阿里云合作全球最大环保协同处置水泥窑线全年再减碳6万吨

2022-07-01
世界速递！《中国社区元宇宙发展研究报告》正式发布|含报告全文获取方式

2022-07-01
【热闻】科普 | 比特币是“庞氏骗局”吗？

2022-07-01
天天动态:让人们“用嘴画画”的AI，真的会取代人类画师吗？

2022-07-01
天天新动态：育碧新作《燃烧的巴黎圣母院》正式登陆国内市场

2022-07-01
世界短讯！腾讯还养了多少个扶不起的阿斗？

2022-07-01
全球热议:中国广电号段“靓号”及转网服务！

2022-07-01
米家App崩溃背后智能家居是否可靠

2022-06-30
天天看点：数据中台咋就从“小甜甜”变成了“牛夫人”？

2022-06-30
每日消息!Dfinity上的天胡开局！

2022-06-30
焦点短讯！中国广电才进场，好戏在后头，唱衰没必要！

2022-06-30
环球视讯！四大运营商正式凑齐，通信市场的新竞争会怎么“争”

2022-06-30
世界快报:QQ这个离谱BUG，比被盗号发H图羞耻10倍！

2022-06-30
天天热点评！中广电移动常年法律顾问选聘项目候选人公示

2022-06-30
天天观点：虚拟主播B站直播2小时收入超百万内容“小狗叫”成榜一

2022-06-30
今日快看!拥有“超能力”的宽带，你用过吗？

2022-06-30
当前关注：全国首批！广电5G开网放号试运营省份合集

2022-06-30
天天热消息：时尚 | Meta为何要在元宇宙开设虚拟时装店？

2022-06-30
今日视点：「数字化」转型之风刮向文旅：焕新景区营销，实现业态创新

2022-06-30
热点！观点：我为什么支持 dYdX 离开以太坊自建公链

2022-06-30
每日速看!嘉银金科发布“仓颉”“鲲鹏”两大实时数据平台

2022-06-30
世界微资讯！虎牙“涉黄”被罚2万元背后，陌陌以香艳、露骨的表演“割韭菜”

2022-06-30
天天快看点丨总统亲自带头炒比特币，国库亏损近2亿美元

2022-06-30
最新快讯!收藏欢乐与回忆的中文梗博物馆，会是“元宇宙”基石？

2022-06-29
全球微头条丨专注用户体验优化，是微信的中年危机解药？

2022-06-29
世界要闻：国内基础通信水平“碾压”其他国家，为什么还遭骂？

2022-06-29
全球今头条！初探元宇宙存储，数据存储市场下一个爆点？

2022-06-29
天天热议:SaaS的渠道也要转型

2022-06-29
天天播报:阿里巴巴北京总部明年底交付，在京1.9万员工将全部搬入

2022-06-29
今头条！搜索数据浅谈

2022-06-29
世界速读：工信部：1-5月软件业务收入36184亿元同比增长10.6%

2022-06-29
每日简讯：首批放号！广电5G（上海）开启试商用模式

2022-06-29
全球热点评！芒果“杀入”元宇宙！

2022-06-29
每日速讯：恒远科技完成5000万元融资，将用于加大核心技术自研深度等

2022-06-29
焦点报道:iOS微信更新 | 超多新变化，微信隔空推送来了？

2022-06-29
当前消息！好好的明星滤镜，怎么到小红书就关了？

2022-06-29
全球观热点：不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

2022-06-29
天天看热讯：图灵测试，还能是人工智能的标准吗？

2022-06-29
天天消息！“云游数藏”联合梅兰芳纪念馆推出数字收藏品曼妙天女散花之影

2022-06-29
世界热议:192号段放号，员工内部优惠资费定档广电5G到底会不会“香”

2022-06-28

全球今热点：阿里打出「瓴羊DaaS」这手好牌

2022-07-02
天天时讯：公众号信息流再改版，我们发现了微信的秘密

2022-07-02
世界热讯:突然崩盘！巨头商汤暴跌超2000亿，一场资本泡沫破灭

2022-07-02
快播：AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士

2022-07-02
当前讯息：”秃“如其来的“头顶经济”，大麦植发赴港上市信心满满？

2022-07-02
全球热资讯！老年旺旺凭啥恢复增长？

2022-07-02
天天即时：马云、马化腾、王兴、雷军……他们的高考志愿怎么填的？

2022-07-02
当前报道:返乡置业的年轻人，赚了还是亏了？

2022-07-02
新消息丨我选的热门专业，四年后成了“天坑”

2022-07-02
世界焦点！字节跳动的“棋子”和“弃子”

2022-07-01
全球热头条丨飞书是一款好产品吗？2分钟说清楚

2022-07-01
天天速讯：腾讯在云游戏领域放了个大招？

2022-07-01
环球看热讯：打破140字限制，微博在下什么棋？

2022-07-01
焦点简讯:商汤科技解禁日跌幅46.77%，管理层承诺短期不出售股份

2022-07-01
环球热点！融资丨「恩凯赛药」获逾亿元A轮融资，华盖资本领投

2022-07-01
天天新消息丨华新水泥与阿里云合作全球最大环保协同处置水泥窑线全年再减碳6万吨

2022-07-01
世界速递！《中国社区元宇宙发展研究报告》正式发布|含报告全文获取方式

2022-07-01
全球速看：国内数字藏品行业再推自律发展倡议蚂蚁、腾讯、百度、京东等联合发起

2022-07-01
热推荐：我花上万学带货：3天赚3元，成交靠刷单

2022-07-01
环球热讯:跨界艺术，将普洱茶玩出新花样，ONCHA如何占领90后工位？

2022-07-01
天天观天下！一千元的虚拟主播，小企业的直播希望？

2022-07-01
速看：天价索赔、恶意抢注，出海“版权坑”有多深？

2022-07-01
天天动态:让人们“用嘴画画”的AI，真的会取代人类画师吗？

2022-07-01
【热闻】科普 | 比特币是“庞氏骗局”吗？

2022-07-01
天天新动态：育碧新作《燃烧的巴黎圣母院》正式登陆国内市场

2022-07-01
全球热议:中国广电号段“靓号”及转网服务！

2022-07-01
世界短讯！腾讯还养了多少个扶不起的阿斗？

2022-07-01
当前要闻：做空蔚来的灰熊，以“碰瓷”中概股为生？

2022-07-01
世界快报:一根辣条一年吸金48亿，卫龙上市如何打开资本“味蕾”

2022-07-01
环球即时看！深扒数据，我们找到了中国大学生最满意的专业

2022-07-01
焦点日报：快播创始人，再创业跌了一跤

2022-07-01
全球百事通！融资丨「Magical Mushroom Company」种子轮融资300万英镑，Ecovative Design LLC领投

2022-07-01
工业互联网发展要打好政策“组合拳”

2022-06-30
米家App崩溃背后智能家居是否可靠

2022-06-30
2022大数据十大关键词发布：数据资源化、数据开发应用上榜

2022-06-30
7个好用的大数据分析模型带你养成数据分析思维

2022-06-30
大数据改变医疗保健提高效率开发新疗法

2022-06-30
万物皆可“数藏” 下一个互联网风口来了？

2022-06-30
“618”全平台销量同比增长超160% 小家电产业寻找新战法

2022-06-30
央地促消费政策落地见效下半年消费将迎来回暖

2022-06-30
未按约定发货却让消费者找厂家退款？消保委：不知情

2022-06-30
世界快报:QQ这个离谱BUG，比被盗号发H图羞耻10倍！

2022-06-30
环球视讯！四大运营商正式凑齐，通信市场的新竞争会怎么“争”

2022-06-30
每日消息!Dfinity上的天胡开局！

2022-06-30
焦点短讯！中国广电才进场，好戏在后头，唱衰没必要！

2022-06-30
广浩捷创业板IPO撤单背后：净利润降超四成

2022-06-30
天天看点：数据中台咋就从“小甜甜”变成了“牛夫人”？

2022-06-30
今日快看!拥有“超能力”的宽带，你用过吗？

2022-06-30
天天观点：虚拟主播B站直播2小时收入超百万内容“小狗叫”成榜一

2022-06-30
天天热消息：时尚 | Meta为何要在元宇宙开设虚拟时装店？

2022-06-30
当前关注：全国首批！广电5G开网放号试运营省份合集

2022-06-30
天天热点评！中广电移动常年法律顾问选聘项目候选人公示

2022-06-30
环球热讯:新茶饮“死去活来”，供应商却“盆满钵满”？

2022-06-30
今日报丨爆红半年后开始直播带货，张同学选对时机了吗？

2022-06-30
焦点观察：天然呆被起诉，“店长”关晓彤急撇清，幕后“推手”浮出水面

2022-06-30
每日速看!嘉银金科发布“仓颉”“鲲鹏”两大实时数据平台

2022-06-30
今日视点：「数字化」转型之风刮向文旅：焕新景区营销，实现业态创新

2022-06-30
热点！观点：我为什么支持 dYdX 离开以太坊自建公链

2022-06-30
天天快看点丨总统亲自带头炒比特币，国库亏损近2亿美元

2022-06-30
世界微资讯！虎牙“涉黄”被罚2万元背后，陌陌以香艳、露骨的表演“割韭菜”

2022-06-30
环球观速讯丨融资丨「华益泰康」完成近亿元B+轮融资，海翔药业领投

2022-06-30
全球热门:融资丨「Kaiko」完成5300万美元B轮融资，Eight Roads领投

2022-06-30
天天看热讯：融资丨「Nomad Health」获1.05亿美元融资，Adams Street Partners和Icon Ventures 共同领投

2022-06-30
环球报道:融资丨「BIMFILM」获近千万元天使轮融资，青炬创投投资

2022-06-30
环球热消息：融资丨「Vibrant Planet」种子轮融资1700万美元，以SaaS方式助力森林恢复

2022-06-30
从“快捷通转让”到“去金融” 海尔金控经历了什么？

2022-06-29
从无名之辈到“1076万+”分之一他是如何做到的？

2022-06-29
御供俊元先生出任索尼中国董事长 7月1日起接任董事长

2022-06-29
天天热议:SaaS的渠道也要转型

2022-06-29
全球今头条！初探元宇宙存储，数据存储市场下一个爆点？

2022-06-29
全球微头条丨专注用户体验优化，是微信的中年危机解药？

2022-06-29
世界要闻：国内基础通信水平“碾压”其他国家，为什么还遭骂？

2022-06-29
最新快讯!收藏欢乐与回忆的中文梗博物馆，会是“元宇宙”基石？

2022-06-29
焦点快报!动力电池，是这样被“瓜分”的

2022-06-29
每日快看：新咖啡上岸，“卷”疯了的新茶饮差在哪？

2022-06-29
天天播报:阿里巴巴北京总部明年底交付，在京1.9万员工将全部搬入

2022-06-29
全球热点评！芒果“杀入”元宇宙！

2022-06-29
每日简讯：首批放号！广电5G（上海）开启试商用模式

2022-06-29
世界速读：工信部：1-5月软件业务收入36184亿元同比增长10.6%

2022-06-29
今头条！搜索数据浅谈

2022-06-29
全球快消息！币圈大地震：去年赚100万，今年亏500万

2022-06-29
每日快看：首发丨「通用生物」完成亿元Pre-IPO轮融资，华睿投资领投

2022-06-29
世界速读：六小时开发的工具，竟然值13亿美元？全球网红都爱

2022-06-29
世界关注：米哈游、莉莉丝起诉了一家理财产品暴雷的信托公司

2022-06-29
每日热闻!汽水音乐公测十余天，靠什么闯进在线音乐市场

2022-06-29
环球焦点！谁在抖音文玩里趁乱打劫？

2022-06-29
世界滚动:出海，是雅迪的解药吗？

2022-06-29
每日速讯：恒远科技完成5000万元融资，将用于加大核心技术自研深度等

2022-06-29
天天消息！“云游数藏”联合梅兰芳纪念馆推出数字收藏品曼妙天女散花之影

2022-06-29
焦点报道:iOS微信更新 | 超多新变化，微信隔空推送来了？

2022-06-29
全球观热点：不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

2022-06-29
天天看热讯：图灵测试，还能是人工智能的标准吗？

2022-06-29
当前消息！好好的明星滤镜，怎么到小红书就关了？

2022-06-29
环球讯息：80后麻省理工博士做出了钢铁侠“同款”AI助手，拿下了苹果、特斯拉供应商

2022-06-29
天天微头条丨融资丨「UniUni」完成5千万元A轮融资，纵腾、燕文、凯尔特亚洲、西图资本等联合投资

2022-06-29
当前报道:TikTok全球短视频霸主地位或被YouTube反超

2022-06-29
今日观点!融资丨「智谷天厨」获数千万元天使轮融资，羲融善道独家投资

2022-06-29
全球焦点！毛利率高达90%的轻医美行业，为何没有全国连锁的龙头品牌？

2022-06-29
筑5G生态促共创共利 2022世界5G大会启幕在即

2022-06-28
世界热议:192号段放号，员工内部优惠资费定档广电5G到底会不会“香”

2022-06-28