事件:3 月15日,GPT-4作为一个大型多模态模型发布,能接受图像和文本输入,再输出正确的文本回复。ChatGPT Plus 订阅者也可以获得具有使用上限的 GPT-4 访问权限。定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。
(资料图)
此次GPT4落地或带来短期市场波动,但我们认为AI仍是中长期的科技主线,特别是多模态等方向已愈加明确, 短期波动反而提供更好买点。
1、关于GPT4本身:更强的自然语言处理能力、多模态、更加定制化。
(1)GPT-4 在各种专业测试、学术基准、多语言测试、数理能力和逻辑推理能力上的表现明显优于GPT3.5。
l GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。
l 在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:
当任务的复杂性达到足够的阈值时,差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令 。
GPT-4 文字输入限制也提升至 2.5 万字。GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。
(2)GPT4可以接受文本和图像形式的 prompt。 它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域(包括带有文本和照片的文档、图表或屏幕截图上)GPT-4 展示了与 纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。
示例:格鲁吉亚和西亚的人均每日肉类消费,算平均数:
示例:法语物理题解答
图像输入功能方面,为了获得更广泛的可用性,OpenAI 正在与其他公司展开合作。
OpenAI 内部正在使用 GPT-4,因此 OpenAI 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。
(3) 与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。
2、量变引起质变,持续迭代促进GPT4实现显著进步
(1)GPT-4 的训练在22年 8 月已完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。
(2)在过去的两年里,OpenAI 重建了整个深度学习堆栈,并与 Azure 一起为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI 在训练 GPT-3.5 时第一次尝试运行了该超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。这些改进的结果是 GPT-4 的训练运行获得了前所未有的稳定,以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能,它也是第一个实现这一点的大模型。OpenAI 表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全至关重要。
(3)OPENAI已 开源了OpenAI Evals,这是其用于自动评估 AI 模型性能的框架。OpenAI 表示此举是为了让所有人都可以指出其模型中的缺点,以帮助 OpenAI 进一步改进模型。
3、局限性仍在,但已显著改善。
GPT4仍然会产生幻觉、生成错误答案,并出现推理错误。但总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:在 TruthfulQA 等外部基准测试方面也取得了进展。
GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。
GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。
4、CHATGPT与GPT4
ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。
观点重申:我们认为生成式大模型在图片、视频等内容形态上的突破将各行各业产生更加深刻的影响,GPT4.0的发布有望进一步加速多模态领域加速,孵化更大的产业机会!
标的上,GPT4实现同时理解和处理文字与图片信息,建议关注在图片视频AI处理相关标的:万兴科技、美图、当虹科技、网达软件、海康威视、大华股份;智能助手相关的电商标的(光云科技、吉宏股份和值得买)、营销标的(蓝色光标、利欧股份、天娱数科、易点天下、顺网科技、三人行、浙文互联;海外建议关注Shopify)和教育标的(方直科技、科大讯飞、传智教育;海外建议关注Coursera);图片版权标的:视觉中国。
此外,与ChatGPT有合作或直接相关的企业、基于大模型开发的AIGC应用场景、具有相关大模型或算法能力等相关标的我们亦持续看好:
1)关注与海外成熟大模型有合作或直接相关的企业,有望率先实现场景落地:昆仑万维、汤姆猫、万兴科技、360等;
2)2B领域,游戏领域推荐三七互娱、恺英网络、吉比特、完美世界等;海外建议关注Unity、Roblox;
虚拟人和虚拟场景领域:天娱数科、立方数科、天下秀、芒果超媒、风语筑、捷成股份、奥飞娱乐、遥望科技等;海外建议关注微美全息
办公、创意领域:金山办公、福昕软件、美图、创梦天地等;
金融领域:同花顺
3)优质的结构化语义资料库有望获得价值重估,建议关注:视觉中国、中文在线等。
4)技术领域推荐百度、阿里巴巴;建议关注海天瑞声、科大讯飞、拓尔思、浪潮信息、中科曙光、鸿博股份等;美股推荐微软,英伟达。
风险提示:ChatGPT技术发展不完善、应用不及预期;AI基础设施不及预期;AI伦理风险等。