全球头条：超越99%的人类，GPT-4多模态模型有哪些技术上的突破？

全文重点摘要

简短版：GPT-4是一个多模态的模型，可以接受文字和图片输入，并且输出文字。现在只开放了文字输入的功能，图片输入功能还在加紧开发中。

OpenAI发布了GPT-4，这是一个大型多模态模型，能够接受图像和文本输入，并输出文本。

虽然在某些情况下它不如人类，但在各种专业和学术考试中表现出了与人类水平相当的性能（human-level performance）。

(资料图片)

GPT-4的训练稳定性是史无前例的（unprecedentedly stable），这得益于对抗性测试计划（dversarial testing program）和来自于ChatGPT的经验教训。

在过去的两年里，OpenAI重建了整个深度学习堆栈，并与Azure共同设计了一台超级计算机以便于应付他们的工作负载。

OpenAI首先发布了GPT-4的文本输入功能，图像输入功能敬请期待。

OpenAI还开源了OpenAI Evals，这是他们的自动化评估AI模型性能的框架，任何人都可以提交他们模型的缺陷以帮助改进。

如何使用GPT-4？

第一，也是最快的，那就是买个ChatGPT Plus，20美元一个月，可以有限度的使用，4个小时内不超过100条信息。

第二，点击加入waitlist，这个是用来获取API的访问权

GPT-4 API waitlist openai.com/waitlist/gpt-4-api

第三，参与Evals，提供高质量贡献的会给予GPT-4的访问权。

https://github.com/openai/evals github.com/openai/evals

Logo的变化

图片的变化，前者是GPT-4，后者是ChatGPT的模型GPT-3.5可以看到，后者更整齐，更格式化；但新出的GPT-4给人的感觉反而显得杂乱。

其实背后的原因我觉得是GPT-4是个多模态（）的模型，不同于GPT-3.5只能接受文字作为输入，GPT-4还可以接受一张图片作为输入，比如一份高考数学卷子，然后你可以根据这份卷子问一些问题，这就一定程度上解决了图片的变化。

性能的变化

简短版：比GPT-3.5，GPT-4更加可靠、有创造力，并能够处理更加微妙的指令。

详细版：跟GPT-3.5，也就是chatgpt在随意的交谈中，他们的区别可能不是很大。但是一旦任务的复杂性达到足够高的时候，差异就会显示出来。

为了了解这两种模型之间的区别，OpenAI在各种基准测试中进行了测试，比如这两种Olympiads and AP free response questions。并且值得注意的是，他们并没有针对性的拿着两种考试进行训练，意思是他们这个模型并没有针对特定的问题进行微调。

可以可以看到，GPT-4（绿色）大体上要比GPT3.5好，并且展现出类似于人类的水平。其中值得注意的是，GPT-4在这项律师考试（Uniform Bar Examination）中获得了前10%的高分。

下面是具体的得分，在很多项都是很靠前的得分。

在benchmark基准数据集上的表现优异

GPT-4在下面的这几个经常用来比较模型性能的数据集上做了测试，展现出了很高的性能，比如第一个MMLU数据集，GPT-4达到了86.4%的准确度，而SOTA也就是最高性能的才75.2%。OpenAI提到了，这些模型都是针对于特定任务经过精心调整的，然而，GPT-4可以说是爆杀了。

在其中语言上的比较

大多数的测试数据都是英文，为了测试GPT-4在其他语言上的性能，他们用Azure的翻译功能，将MMLU这个数据集翻译成了26种语言。在其中的24种语言上，GPT-4比GPT-3.5和其他的大语言模型，这里他们比较了Chinchilla, PaLM。

其中随机猜测的准确率是25%，符合多选题的概率。

Chinchilla- 67%，PaLM-69.3%和GPT-3.5 – 70.1%，

从图中可以看到，最差的两个是Marathi和Telugu，经过查证，这是俩印度的官方语言，大概率是使用人数虽然多，但是在互联网上以文字存在的分量并不多。

可以看到中文的性能也很好，只比英文差一点。

视觉输入性能

简短版：还在研究阶段，不公开。

详细版：GPT-4可以接受文本和图像输入，并且这两个是可以掺杂着用，它允许你用跟之前文本一样的使用方式。

一共有7个例子，总结起来，它可以识别搞笑图片，可以做复杂的物理化学之类的题目，可以做看图题，可以读论文，可以识别meme图片，总之，非常的强，可惜还不能开放使用。

第一个图

可以看到，它非常准确的认出了每幅图，并能理解为什么这幅图的搞笑之处。

第二幅图

这是一个对于普通人非常简单的看图题，但是对于之前的机器学习，这是很难做到的，GPT-4不仅可以读懂问题，还能非常完整的回答对。

第三幅图

这已经是一道有点儿复杂的像是物理的问题了，回答的准确无误。

第四幅图：

还是找异常点，准确。

第五幅图

读论文并总结，好像ChatPDF要完蛋了。

https:// github.com/openai/evals 我也是想了几秒钟后才察觉这是一个由鸡块构成的地球，GPT-4的回答非常精准。

第七幅图

解释了统计机器学习和深度学习的异同点，前者取消降低过拟合，后者需要增大网络层数，其实是一个比较专业性的搞笑图片。

但是结论是完全没问题的。

视觉数据集上的表现

还是没有经过微调，部分超过SOTA，部分跟SOTA持平，总之，很强。

操纵性（Steerability）

可以更好的规定你想要的回答风格，比如说你想要一位苏格拉底式的导师。特点是从不直接给学生答案，但会用启发式的形式教导学生，让学生学会独立思考。

莎士比亚风格的海盗（英译中很差，不如直接上英文）

让GPT-4保持Json的回答形式

局限性

跟之前的ChatGPT一样，它还是有可能会输出不可靠的内容，但是经过几个月的调整，性能提升很大。

比如在对抗性的问题TruthfulQA上，GPT-4性能提升具有统计意义的显著性。

至于数据问题的时间问题，还是一样，2021年之后的数据就不知道了，并且还是会随机的生成一些错误的内容，但是经过校准之后，这样的错误大大的减少了。

风险和应对措施

OpenAI一直在对GPT-4进行迭代，以使其更加安全。

GPT-4与以前的模型一样具有风险，但由于其额外的能力，从而会导致新的风险。

邀请了50多名专家对模型进行对抗测试，以提高模型的安全性能。

GPT-4在RLHF训练过程中加入了额外的安全奖励信号，以减少有害输出。

为了防止模型拒绝有效请求，收集了多样化的数据集，并在允许和不允许的类别上应用安全奖励信号。

缓解措施显著提高了GPT-4的安全性能，例如将模型对于不允许内容请求的响应率降低了82%。

分别对于两个问题的回应

可以预测的扩展

OpenAI的GPT-4项目致力于构建一个可预测扩展的深度学习堆栈，以便在非常大的训练运行中不需要进行广泛的模型特定调整。他们开发了基础设施和优化，使得在多个规模上具有可预测的行为。现在，OpenAI能够准确预测训练期间他们优化的度量（损失），并开始开发预测更可解释的度量的方法。

他们认为，准确预测未来的机器学习能力是安全的一个重要部分，但是相对于其潜在影响，它并没有得到足够的关注。

API的介绍以及获取

通过注册waitlist，开发人员可以获得访问 GPT-4 API 的权限

AI研究员可以通过Researcher Access Program申请补贴访问

可以向 GPT-4 模型发出纯文本请求（图像输入仍处于有限的 alpha 阶段）

价格为每 1k 个提示tokens 0.03 美元和每 1k 个完成tokens 0.06 美元

默认速率限制为每分钟 40k 个tokens和每分钟 200 个tokens

GPT-4 的上下文长度为 8,192 个tokens

有限访问 GPT-4-32k（32,768-上下文版本）的价格为每 1k 提示令牌 0.06 美元和每 1k 完成令牌 0.12 美元

处理对 8K 和 32K 引擎的请求的速率可能会不同，因此可能会在不同时间获得对它们的访问权限

全文重点摘要

如何使用GPT-4？

Logo的变化

性能的变化

在benchmark基准数据集上的表现优异

在其中语言上的比较

视觉输入性能

视觉数据集上的表现

操纵性（Steerability）

局限性

风险和应对措施

可以预测的扩展

API的介绍以及获取

推荐内容

全球头条：超越99%的人类，GPT-4多模态模型有哪些技术上的突破？

环球速看：知乎、小红书和keep，网络经济“三小强”谁会先走出“商业化泥潭”？

视点！千兆光网或成运营商新赛点 价格战竞争是否会再现江湖

天天消息！工信部金壮龙：加快5G、工业互联网等新型信息基础设施建设和应用，壮大数字经济核心产业

全球播报:GPT-4来了，它趴在谷歌和脸书们耳边说：毁灭你，与你何干

震撼！GPT-4发布，打工人都要失业了吗？

天天最资讯丨ChatGPT之后 标贝科技关于如何为预训练大语言模型提供终身学习语料的探索

世界热资讯！诈捐？镜湖吴幽：因比特币爆仓无法履约 有大佬曾因爆仓自杀

环球短讯！商汤开源多模态多任务通用大模型“书生2.5”，迈向AGI

【焦点热闻】900亿没白花 微软确认必应已用上GPT-4：搜索优于谷歌

消息称网易内部多部门试水AI提效，利用ChatGPT进行业务测试

OpenAI升级GPT-4，必应聊天机器人已升级使用GPT4技术

天天快消息！Meta第二轮裁员10000名员工，冻结5000个职位招聘

当前时讯：OpenAI推出大型语言模型GPT-4 ，可以瞬间完成硕士论文

每日速递：GPT-4发布，ChatGPT将迎来最大升级

每日速讯：澜舟科技不到一年完成数亿元融资：打造语言大模型的生成式AI

全球焦点！自动续费，带来了什么

数字中国通信行业核心资产！电信运营商夯实数字经济底座，受益上市公司梳理

陀螺研究院XR行业应用案例集｜Leion Hey听语者增强现实眼镜在听力障碍群体中的应用

中国移动发布2022年及近期经营情况

环球热消息：OpenAI创始人回应马斯克批评：ChatGPT确实不应有偏向性

天天热讯:中国信通院数据安全“星熠”案例公布！StartDT奇点云入选“SDK产品优秀案例”

热消息：Web3时事速递：已成产业链的ETHDenver和余波不断的行业危机！

世界热议:政府工作报告已6次提及“数字经济” 领跑作用持续彰显

蓝标传媒将与微软开展基于OpenAI的技术产品合作，机器人写稿？

美国电信巨头AT&T遭数据泄露，殃及900万客户账户

全球观点：OpenAI公布GPT-4：可在考试中超过90%的人类

全球速递！三星手机在拍摄月亮方面存在“造假”情况

快报：知乎拥抱小说，问答平台的初心呢？

AIGC如何改变Web3的未来？

世界热消息：对话硅基智能何洋：腾讯追投两轮，数字人正站在风口上

滚动：电信运营商第五张网三个层面的基本关系分析

今日精选：探索下ChatGPT的可用场景

小红书正在删除照片？官方回应：只是在清理临时缓存

天天微资讯！【商界头条】汇丰以1英镑收购硅谷银行英国子公司；中国移动市值逼近贵州茅台；杭州加大对商业外摆的支持力度

多少年轻人在用互联网巫术许愿？

微资讯！山石发声｜风暴眼中的ChatGPT，看NLPer怎么说？

环球快资讯丨GAN的反击：朱俊彦CVPR新作GigaGAN，出图速度秒杀Stable Diffusion

技术专家控诉ChatGPT：到处宣扬我死了，还伪造了一份讣告

天天快看点丨金融时报：库克力排众议于今年推出新头显设备；Envisics获超过5000万美元C轮融资

当前要闻：定档3月21日，AR领域新技术、新产品即将亮相，2023易现春季发布会前瞻

【新要闻】候选人公示！涉中广电移动2023年度广电5G号卡配送项目

奇点云联合创始人刘莹入选“福布斯2023中国商界20位潜力女性”

天天观察：ChatPDF利用AI技术，任何PDF文件都可以进行智能交流

易点云更新招股书：提供一站式办公IT服务，源码、经纬、顺为持股超10%

世界即时看！阿里达摩院自动驾驶负责人陈俊波离职，进军户外清洁机器人！

观点：互联网泡沫爆发 | 历史上的今天

焦点|欢迎与中关村物联网产业联盟共享阿盟500亿美金采购合作

产学研融合 | 中大&探迹，共探ChatGPT的发展与应用

OpenAI发布通用人工智能路线图：AGI比想象中来得更快

全球头条：超越99%的人类，GPT-4多模态模型有哪些技术上的突破？

环球速看：知乎、小红书和keep，网络经济“三小强”谁会先走出“商业化泥潭”？

【世界独家】静组词和拼音（静组词）

融资丨「洞隐科技」完成超亿元A轮融资，构建全程供应链数字化版图

全球播报:GPT-4来了，它趴在谷歌和脸书们耳边说：毁灭你，与你何干

视点！千兆光网或成运营商新赛点 价格战竞争是否会再现江湖

天天消息！工信部金壮龙：加快5G、工业互联网等新型信息基础设施建设和应用，壮大数字经济核心产业

震撼！GPT-4发布，打工人都要失业了吗？

天天最资讯丨ChatGPT之后 标贝科技关于如何为预训练大语言模型提供终身学习语料的探索

字节跳动十万员工困在数据里

每日观察!下一个硅谷银行，可能在这张名单里

天天时讯：B站鬼畜难题：搞笑容易搞钱难

国货平替崛起，外资彩妆不香了？

焦点简讯:欧冠八强身价排行：曼城、切尔西超10亿欧 拜仁第三、皇马第四

今日有没有可以刷商城的QQ飞车WG？

【世界新视野】海格通信: 关于暂不召开股东大会审议公司向特定对象发行股票相关事项的公告

视点！千兆光网或成运营商新赛点价格战竞争是否会再现江湖

天天最资讯丨ChatGPT之后标贝科技关于如何为预训练大语言模型提供终身学习语料的探索

世界热资讯！诈捐？镜湖吴幽：因比特币爆仓无法履约有大佬曾因爆仓自杀

【焦点热闻】900亿没白花微软确认必应已用上GPT-4：搜索优于谷歌

视点！千兆光网或成运营商新赛点价格战竞争是否会再现江湖

天天最资讯丨ChatGPT之后标贝科技关于如何为预训练大语言模型提供终身学习语料的探索

焦点简讯:欧冠八强身价排行：曼城、切尔西超10亿欧拜仁第三、皇马第四

台洪生变　赵少康：早有警讯绿自己骗自己

世界热资讯！诈捐？镜湖吴幽：因比特币爆仓无法履约有大佬曾因爆仓自杀

【焦点热闻】900亿没白花微软确认必应已用上GPT-4：搜索优于谷歌

世界速递！明港吧百度贴吧_明港吧