GPT-4数学再提30分，代码解析器任督二脉被打开，网友：像大脑的工作方式_中国智能在线

GPT-4数学能力还能更强！

新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。

(相关资料图)

为此，研究人员提出新方法对症下药，直接将其数学能力拔至新SOTA：

在MATH数据集上，做题准确率从53.9%增加到了84.3%。

你没听错，就是前段时间被称为ChatGPT推出后最强模式的那个代码解析器（Code Interpreter）。

研究人员窥探了其代码生成和执行机制，使用自我验证、验证引导加权多数投票的方法，直接打开其做数学题的任督二脉。

好奇网友随即而来：

还想看他们做高数????。

还有网友认为：

这也就是大脑的工作方式，人类在解决数学问题时也会自我验证。

一起来康康这项研究的细节～

两步提升数学能力

GPT-4代码解析器的代码生成和执行机制究竟是怎样的？

来自港中文MMLab、南京大学、中科大、清华、城大、长沙理工等多个机构的学者为解开这一问题，使用特定代码约束提示进行了一项试验。

他们设计了3种不同的提示方法，限制GPT-4代码解析器使用代码的频率：

Prompt 1：完全不允许使用代码，输出完全依赖自然语言推理，禁止将代码合并到解决方案中。

Prompt 2：只允许使用1次代码，也就是在生成解决方案时，只能在单个代码块内使用代码。

Basic Prompt：没有限制，GPT-4代码解析器可以进行一系列推理步骤，每个步骤都可由文字+Python代码组成。

△（a）不同提示回答准确率比较（b）代码使用频率与五个难度级别准确率都成比例，这种现象在数学问题相对复杂时尤为明显。

结果发现，允许GPT-4代码解析器多次生成和执行代码，其解题正确度明显高于仅用自然语言推理或只用1次代码的情况。

经分析，研究人员认为代码的多次生成和执行可以让GPT-4代码解析器逐步完善解决方案，当代码执行产生错误时，GPT-4代码解析器可以自我调试修改方案。

继而引入“代码使用频率”概念，量化不同提示方法下代码的使用次数。

基于前面的分析结果，研究人员希望能加强GPT-4代码解析器生成准确代码、评估代码执行结果以及自动调整解决方案的能力。

所以提出了CSV（自我验证）提示的方法，也就是为解决方案C引入了一个额外的验证阶段，称为V。

加入自我验证提示效果对应上图绿色Verification Prompt。

如此一来，GPT-4代码解析器需额外生成代码来验证答案，如果结果是False则重新推理得到正确答案。

CSV提示不仅对验证到逻辑推理每一步都进行了扩展，而且可以自动更正错误，无需外部模型或人工参与。

△MATH数据集中第712个中级代数问题。CSV prompt：To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.

通过上图这个例子可看出，在没有自我验证的情况下，模型生成了一个错误的答案。通过自我验证，模型纠正了错误并生成了正确的答案。

此外，鉴于CSV可以有效地验证问题的答案，研究人员又提出了验证引导加权多数投票（VW-voting）的方法，将自我验证结果集成到多数表决中，给予不同验证状态不同权重，使表决更可靠。

在实际操作中，一旦一个答案被确认为错误，那就不会进行额外的验证，从而得到一个错误的验证状态。研究人员分配相应的权重给这些状态：真实（wT）、不确定（wU）和错误（wF）。

最后从候选答案中择取得分最高的那一个：

比此前最高水平提高30%

用上了上述方法，GPT-4代码解析器做数学题的能力up up。

在MATH数据集上，原始GPT-4代码解析器的准确率为69.69%，使用CSV提示后提高到73.54%，再结合加权多数表决后进一步提高到84.32%，相比之前SOTA提高了30%以上。

△在MATH数据集上的准确率（%）

在MATH数据集的各个子任务中，提出方法均取得显著提高，尤其是在高难度级别的题目中效果更明显。

例如在中级代数（Intermediate Algebra）题目中，原来的GPT-4代码解析器准确率为50.1%，使用新方法后提高到74.4%。

除此之外，研究人员还在GSM8K、MMLU-Math、MMLU-STEM等数据集上进行了验证。

△在GSM8K数据集上的表现

上表可以看出，使用验证引导加权多数投票的方法还可以显著减少需要采样的解路径数量（Sampled paths），在GSM8K数据集上只需要5个路径就达到97%的准确率。

△在MMLU数据集上的表现

针对不同难度的题目（下图a）以及不同类型题目（下图b）的测试中，使用新方法后准确率都有了提升。

△每条曲线上的四个点分别对应于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的结果。

研究人员还发现GPT-4代码解析器的代码使用频率提高与准确率提高正相关。随着题目难度的增加，代码使用频率稳步上升。这说明在较难的数学问题上，更频繁地使用代码很重要。

此外，值得注意的是，尽管添加基于代码的自我验证可以提高每个单独题目类型的性能，但改进的程度也因题目类型而异，从7.6%到仅0.6%不等。

研究人员指出：

特别是几何问题的准确性仅提高了0.6%，原本GPT-4代码解析器的准确性也只有54.0%，在各个题目类型中属于较低的。这种差异可能是因为解决几何问题通常需要多模态，超出了本文研究范围。

推荐内容

GPT-4数学再提30分，代码解析器任督二脉被打开，网友：像大脑的工作方式

2023-08-18
“风投之王”中国移动再投教育，成其第三大股东

2023-08-18
2023爱分析·数据智能优秀厂商评选结果揭晓，25家厂商入选

2023-08-18
深兰科学院提出全新多模态谣言检测模型，论文入选国际顶级学术期刊

2023-08-18
净利润增速第一，6600亿中国联通的未来“待定”？

2023-08-18
企业进行AIGC应用测评的维度和方法

2023-08-18
站在算力视角看宁夏，算力中国行呈现别样的“塞上江南”

2023-08-18
魔珐科技AIGC消费级产品矩阵发布，创始人柴金祥：3D虚拟人将赋能千行百业

2023-08-17
谷歌在尼日利亚培训2万名妇女和青年掌握数字技能

2023-08-17
深化专业，覆盖多元，7月《知乎答主商业影响力榜》发布！

2023-08-17
美团首次进入500强榜单，互联网巨头位置稳了？

2023-08-17
【新闻资讯】智慧互联网，为传统产业注入新的活力和竞争力

2023-08-17
重庆@全世界！2023智博会，等你来！

2023-08-17
“残差网络ResNet” 获得2023未来科学大奖！何恺明、张祥雨、任少卿、孙剑共享百万美元奖金

2023-08-17
美媒：哪些国家会赢得人工智能革命

2023-08-17
永洪入选！2023 商业智能应用案例TOP10

2023-08-17
2023Stata夏季训练营面板数据与因果推断“圆满结束！

2023-08-17
苹果M3芯片细节曝光；机构用AI预测独角兽公司；天大团队成功研发5G芯片套片｜AIoT情报

2023-08-17
科大讯飞星火大模型：今年超越ChatGPT，明年对标GPT-4

2023-08-17
免费安装、应用丰富，国产操作系统真香！

2023-08-17
中国移动新旧动能转换稳步推进，数字化转型收入占比不断提升

2023-08-17
这么安排，它是题库！再遇到不太擅长的题目到这里找

2023-08-17
澳Optus使用爱立信RedCap软件完成无线数据通话

2023-08-17
当代显眼包打工人三宝，钱多事少工具好

2023-08-17
大模型故事，科大讯飞还没讲透

2023-08-17
爱奇艺，终究没能奇遇

2023-08-17
5G广播实验室|中国广电科研项目候选人公示

2023-08-16
国产AI大模型全满贯，实测文心一言到底如何惊艳

2023-08-16
成长性仍是行业“锚” BAT云计算估值在修复

2023-08-16
谷歌称在人工智能领域取得突破，可减少飞机对全球变暖的影响

2023-08-16
从“智能涌现”到“价值涌现”，讯飞星火又一次“登月”

2023-08-16
曾索赔1元！“大模型数据被盗第一案”和解

2023-08-16
央媒发话：中国宽带费全球第二低，手机流量费远低于全球平均！

2023-08-16
滴普科技 x 国贸地产再牵手，数字化驱动地产行业破局增长

2023-08-16
张勇重塑阿里云，估值将达8000亿

2023-08-16
电信改口不拆，联通则已获得批复要拆分上市......

2023-08-16
金智维快讯 | 金智维受邀出席第三届78CIO峰会，分享数字化转型最佳实践

2023-08-16
【研判：人工智能在供应链管理中的应用及未来趋势】

2023-08-16
固定宽带费用全球第二低，宽带成“白菜价”了？

2023-08-16
羊驼进化成鲸鱼，Meta把对齐「自动化」，Humpback击败现有全部LLaMa模型

2023-08-16
前哨丨特斯拉要新建“同类首个”数据中心

2023-08-16
科大讯飞的“极差”中报与“体面”减持

2023-08-16
妙鸭背后，AIGC的C端漂流丨祛魅AI

2023-08-15
大模型之争，华为暂时领先苹果

2023-08-15
遭腾讯“清仓式”减持，掌趣科技能用AI重获资本青睐吗？

2023-08-15
贵阳贵安软件和信息技术服务业（上海）招商推介会在上海举办

2023-08-15
中国LoRa产业链企业已超3000家，我们对未来保持乐观｜专访Semtech

2023-08-15
3109亿元！华为公布上半年成绩

2023-08-15
雷军2023年度演讲：人因梦想而伟大，不断追寻梦想，并不断成长

2023-08-15
猛！拿下2万多单，近700亿

2023-08-15

GPT-4数学再提30分，代码解析器任督二脉被打开，网友：像大脑的工作方式

2023-08-18
天风证券、浪潮信息等6股获融资净买入超亿元

2023-08-18
广州加力发展新型储能产业

2023-08-18
2023爱分析·数据智能优秀厂商评选结果揭晓，25家厂商入选

2023-08-18
深兰科学院提出全新多模态谣言检测模型，论文入选国际顶级学术期刊

2023-08-18
美国男篮的下一张王牌！乔丹科比之后，就是他了？

2023-08-18
“风投之王”中国移动再投教育，成其第三大股东

2023-08-18
净利润增速第一，6600亿中国联通的未来“待定”？

2023-08-18
企业进行AIGC应用测评的维度和方法

2023-08-18
远洋集团：下一阶段将把高质量交付各项工作放在更加突出位置前7月已完成28个项目交付

2023-08-18
海容冷链：8月17日召开业绩说明会，投资者参与

2023-08-18
站在算力视角看宁夏，算力中国行呈现别样的“塞上江南”

2023-08-18
iphone5什么时候上市的（iphone5使用教程）

2023-08-18
河南景区云台山推出山水精品国风演艺

2023-08-18
科技巨舰落子江城优质名企区域补位下半年武汉商业市场持续火热上新

2023-08-18
游戏评测：被诅咒的海盗 9分！

2023-08-18
中使馆：乌克兰延长战时状态，请国内人员暂勿来乌

2023-08-18
华钰矿业：连续3日融资净偿还累计1399.37万元（08-17）

2023-08-18
微软向美陆军交付首批20台集成视觉增强系统1.2型号原型机

2023-08-18
德阳新地标！天府数谷崛起：抢抓数字经济新赛道 “数智”之城来了

2023-08-18
第四届中国城市少儿足球联赛总决赛落幕，青岛足协U12队全胜夺冠

2023-08-18
中超：河南队周六客场挑战大连人

2023-08-18
长荣股份: 关于前期会计差错更正及追溯调整的公告

2023-08-17
魔珐科技AIGC消费级产品矩阵发布，创始人柴金祥：3D虚拟人将赋能千行百业

2023-08-17
主站商城论坛自运营登录注册因为大喷菇NTR本子，发售十四年的《植物大战僵尸》...">
因为大喷菇NTR本子，发售十四年的《植物大战僵尸》又火了"/> 主站商城论坛自运营登录注册因为大喷菇NTR本子，发售十四年的《植物大战僵尸》...

2023-08-17
主站商城论坛自运营登录注册因为大喷菇NTR本子，发售十四年的《植物大战僵尸》...">
谷歌在尼日利亚培训2万名妇女和青年掌握数字技能

2023-08-17
联通京九、沪昆、京港……今天，昌景黄高铁接入国家“八纵八横”高铁网，年内开通运营

2023-08-17
杨浦这里的“五间房”，打开社区自治新思路

2023-08-17
白色房间攻略

2023-08-17
乌鲁木齐一战国至汉代高等级古墓遭盗掘，6名“摸金校尉”隐匿7年后落网！

2023-08-17
河南省拟发行715.15亿元地方债，募投项目清单公布

2023-08-17
近3000人角逐第六届全国青少年人工智能创新挑战赛决赛

2023-08-17
旧金山联储：美国家庭过剩储蓄还剩不到1900亿美元，将于本季度耗尽

2023-08-17
浙江金华：山地光伏投运助力乡村发展

2023-08-17
我和老婆吵架，老婆要求离婚但还没有离岳母从西安回来把老婆和孩子带走，岳

2023-08-17
深化专业，覆盖多元，7月《知乎答主商业影响力榜》发布！

2023-08-17
保护我方恒牙，纳美宝贝儿童牙膏出动！

2023-08-17
23重庆债33票面利率为2.7100%

2023-08-17
美团首次进入500强榜单，互联网巨头位置稳了？

2023-08-17
俄前国防部副部长因“长期患病”离世，曾因俄军在哈尔科夫行动失败被解除指挥官职务

2023-08-17
康拓医疗：取得医疗器械注册证

2023-08-17
赤峰80后小伙环游中国著20万字游记

2023-08-17
大理药业（603963）8月17日主力资金净买入338.41万元

2023-08-17
【新闻资讯】智慧互联网，为传统产业注入新的活力和竞争力

2023-08-17
国内特色旅游火爆人流如织有力拉动暑期消费

2023-08-17
8月17日 14:19分长江电力（600900）股价快速拉升

2023-08-17
艾伏尼布新适应症上市申请获FDA优先审评，基石药业-B（02616）拥有中国权益

2023-08-17
我三天前交的离职被驳回了，要是干不了现在想走就不发七天试岗工资

2023-08-17
对话在广东海滩救人的湖南桑植小伙：当时唯一的想法就是救人

2023-08-17
众鑫股份、龙旗科技IPO:公司基本信息速览

2023-08-17
美媒：哪些国家会赢得人工智能革命

2023-08-17
“残差网络ResNet” 获得2023未来科学大奖！何恺明、张祥雨、任少卿、孙剑共享百万美元奖金

2023-08-17
重庆@全世界！2023智博会，等你来！

2023-08-17
合肥市包河区九连塘社区开展无人机科普进社区活动

2023-08-17
苹果M3芯片细节曝光；机构用AI预测独角兽公司；天大团队成功研发5G芯片套片｜AIoT情报

2023-08-17
科大讯飞星火大模型：今年超越ChatGPT，明年对标GPT-4

2023-08-17
免费安装、应用丰富，国产操作系统真香！

2023-08-17
永洪入选！2023 商业智能应用案例TOP10

2023-08-17
欧联杯资格赛前瞻：亨克状态欠佳奥林匹亚科斯有望双杀晋级

2023-08-17
2023Stata夏季训练营面板数据与因果推断“圆满结束！

2023-08-17
国家发展改革委等六部门：支持光伏设备制造企业通过自主回收等模式建立分布式光伏回收体系

2023-08-17
这么安排，它是题库！再遇到不太擅长的题目到这里找

2023-08-17
中国移动新旧动能转换稳步推进，数字化转型收入占比不断提升

2023-08-17
预告：上海市政府将举行新闻发布会介绍上海推进国际邮轮经济高质量发展的有关情况

2023-08-17
舒服的近义词是什么（舒服的近义词）

2023-08-17
市场监管总局印发意见加强知识产权执法

2023-08-17
大模型故事，科大讯飞还没讲透

2023-08-17
爱奇艺，终究没能奇遇

2023-08-17
新松“机器人+”亮相世界机器人大会

2023-08-17
当代显眼包打工人三宝，钱多事少工具好

2023-08-17
澳Optus使用爱立信RedCap软件完成无线数据通话

2023-08-17
手机相关知识：华为mate30pro有多重

2023-08-17
兰州新区出台志愿者激励嘉许政策

2023-08-17
慕思股份将“华东健康寝具生产线建设项目”延期至2024年12月31日

2023-08-17
恒玄科技：8月16日融券卖出金额73.11万元，占当日流出金额的1.56%

2023-08-17
中原高速：连续3日融资净买入累计424.15万元（08-16）

2023-08-17
宁德时代发布首款磷酸铁锂超充电池

2023-08-17
信达证券：给予海德股份买入评级

2023-08-17
市场猜错了？锰铁锂缺席宁德时代4C新品挑大梁仍是磷酸铁锂

2023-08-17
记者：法兰克福为瓦希正式报价超1500万欧，球员本人愿加盟

2023-08-17
南昌市西湖区检查冷饮市场保障群众饮食安全

2023-08-17
淮安里运河夜游点燃小城烟火气

2023-08-16
张艺兴，王俊凯，张颂文，Lisa，王传君

2023-08-16
我在宁波养棘螈！这群大学生接力扎根山林繁育濒危物种

2023-08-16
EXO成员金钟大宣布10月举行婚礼，与妻子迈向新生活

2023-08-16
【县市区热线】瓯海：乡贤搭建“孵化基地” 富民有方

2023-08-16
广东医科大学实践团：青春助力苗乡振兴

2023-08-16
【16日资金路线图】两市主力资金净流出220亿元房地产等行业实现净流入

2023-08-16
沪股通现身3只个股龙虎榜

2023-08-16
业绩大增带不动股价？行业“军备竞赛”下光伏板块还能讲好故事吗

2023-08-16
5G广播实验室|中国广电科研项目候选人公示

2023-08-16
热身赛-基迪20分10板4助澳大利亚男篮86比90惜败巴西男篮

2023-08-16
京东七鲜会员日来袭！盐池滩羊羊肉卷、澳洲谷饲牛肉价格直降近30元

2023-08-16
保存完好！400 多年前戚继光督建长城的石碑被找到

2023-08-16
原神玛丽安的故事任务流程-原神玛丽安的故事任务怎么做

2023-08-16
国产AI大模型全满贯，实测文心一言到底如何惊艳

2023-08-16
重医二院·医路温情｜跨越千里求医路洁白哈达见证藏渝情

2023-08-16
追光·暖新闻｜为爱续杯广安市江苏商会加入“爱心冰柜”行列

2023-08-16
韩媒：韩国监查院称将启动对“世界童军大露营”举办过程全面调查

2023-08-16
网民呼吁“还新东方公道” 官方回应暑期孩子无人看管家长也很无奈具体是啥状况呢

2023-08-16