01


【资料图】

比 ChatGPT 更强大的 AI 应用来了?

最近,微软推出了全能型人工智能模型——Kosmos-1。与局限于文本内容( LLM)的ChatGPT相比,Kosmos-1属于多模式大型语言模型(MLLM),目前能同时理解文字与图像内容,未来会整合更多的输入模式,如音频、视频。

从 上图 Kosmos-1 的应用中我们可以很直观的看出, Kosmos-1 和 ChatGPT 一样具有多轮对话能力、逻辑推理能力等像人类一样的思维能力,并在此基础上增加了图片的输入模式。

02

除了视觉对话,Kosmos-1还能怎么用?我们来看一下微软研究员在《Language Is Not All You Need》这篇学术论文中所展示的Kosmos-1的应用示例。

图 1 ~ 2 展示了 Kosmos-1 的图像解释说明能力,有点像小时候我们做的看图说话类题目;图 3 ~ 6 展示了 Kosmos-1 的视觉应答能力,其中包含图像、网页、数学公式的识别及应答;图 7 ~ 8 展示了 Kosmos-1 的数字识别能力。

对了,Kosmos-1还是第一个能完成零样本瑞文智商测试的AI,只是准确率还不高,经过指令调教之后,准确率为26%。

和 ChatGPT 一样, AI 不懂的东西我们可以去教它。比如, Kosmos-1 无法从图片判断出是哪种啄木鸟,或者说,它并不知道三趾啄木鸟和绒毛啄木鸟的区别,这时候我们可以告诉它这两类啄木鸟的特征分别是什么,帮助它进行判断。

总的来说, Kosmos-1 目前既可以进行语言理解、语言对话等语言任务,也可以实现图像说明、视觉识别、视觉对话、视觉智商测试等视觉任务,相当全能。

03

前有与OpenAI合作的ChatGPT,后有更全能的Kosmos-1,微软在人工智能的赛道上可谓风骚绝代。

要知道,在移动互联网时代,这位老大哥是落后的。

微软成立于 1975 年,凭借着强大的 Windows 操作系统以及软件领域的实力,坐上了科技界的头把交椅。

1998年,谷歌诞生了。

随着移动互联网的崛起,谷歌的安卓系统成为了主流。在自己的强项——操作系统上输给了后起之秀,微软对自己错失良机懊悔不已。

后来微软推出了必应,想在谷歌擅长的搜索引擎领域分一杯羹,但结局大家也都知道——真的只是分了一小杯羹。

而自CEO纳德拉上任后,微软的愿景描述中加入了AI。微软将自身的发展战略从「移动为先、云为先」修改为「智能云和智能边缘计算」。

这次布局的成果我们也看到了,在以聊天机器人为代表的 AI 之战第一回合中,微软更胜一筹。接下来谷歌会如何反击,我们拭目以待。

04

微软的发展历程告诉我们,暂时的落后并不可怕,不要纠结已经失利的当下,而要关注充满机遇的未来。及早布局,才能弯道超车。

而我也很有幸见证这一切,一边感慨着科技巨头们的精彩过往,一边期待着下一个超越ChatGPT和Kosmos-1的人工智能。

我并不确定你会不会忽然地出现在街角的咖啡店,但通用人工智能会出现在下一个街角,是确定的。

文中 部分 图片来自论文《Language Is Not All You Need: Aligning Perception with Language M odels》

推荐内容