大模型火爆,针对大模型的评测报告也层出不穷。近日,天津大学和信创海河实验室刚刚发布《大模型评测报告》,显示国产大模型中最领先的文心一言已经在大部分中文任务中实现了对ChatGPT的超越,并逐步缩小与GPT-4的差距,中美大模型正在形成两强领跑的格局。
5月以来,超过10多家国内外多家调研机构、权威媒体和高校等发布大模型评测报告,从最核心的十大测评来看,百度文心一言扛起中国大语言模型大旗,遥遥领先其他大模型,十大权威评测拿下十项冠军,稳居国内第一。同时,报告显示,国内大模型能力从5月至今不断提升,正在逐渐赶上甚至在部分领域超越国外大模型。
早在今年5月,在新华社研究院中国企业发展研究中心、InfoQ等机构和媒体的评测报告中,中国的大语言模型跟ChatGPT 3.5还存在差距,到了7、8月,在IDC、人民数据、新华网、清华大学等报告中,国内大模型“一哥”文心一言已经实现了对GPT-3.5的超越,与GPT-4的差距也越来越小。百度文心大模型展现出的强大进化能力,可以称之为国内最有希望在短期内超越国际最高水准的大模型。
【资料图】
举几个例子来看看文心一言在这几个月里回答的变化,就能直观感受百度大模型技术上的升级了。
「疯狂星期四是什么?」「为什么很多人都在说 V 我 50?」如果问3月刚刚发布的文心一言,得到的回答可能是左边这样。而现在,文心大模型3.5 版本加持的文心一言不仅能够给出正确答案,还能进一步解释「疯狂星期四」的名词来源、活动背景等信息,甚至还能指导你参与活动。
代码能力也实现了大幅的提升,文心一言背后的逻辑推理能力进一步升级。
尤其是在中文领域,文心一言更是一骑绝尘。清华大学《大语言模型综合性能评估报告》等测评显示,文心一言具备更好的中文理解能力,更懂中国文化,能够更好处理与本土文化相关的主题和背景,如诗歌、方言等,具备更强的国内落地空间。
在《中国科学报》评测中,包含13948个多项选择题、涵盖52个不同的学科,设置了四个难度级别的全中评测集“C-Eval”评测中,“文心一言”3.5直接将ChatGPT和GPT-4斩落马下。这都源于其知识增强、检索增强和对话增强的技术创新。
随便举一个成语,就可以看出在诗词歌赋这类中国传统文化方面的表现,文心一言相当出色。不仅对答如流,而且还能分析出诗句的含义和妙处。甚至,还给难读的词语标上了拼音。
在中文领域文案的生成上,文心一言还可以根据不同平台的风格调性,创作贴合的文案。知乎体、小红书体都不在话下。
技术创新背后是百度在人才上的持续投入。在中国信息通信研究院发布的《中国人工智能产业创新人才竞争力报告(2023)》中,百度人才密度大幅领先,尤其在人工智能全部7项关键技术竞争力排名中均获得第一,在预训练大模型、深度学习、自然语音处理、知识图谱、计算机视觉等领域优势明显。
在关注大模型评测的同时,也要关注大模型的落地生态。目前大模型正在进入规模可复制的产业落地阶段,百度文心在大模型生态的构建上具备先发优势。全球领先的IT市场研究和咨询公司IDC最新发布的《AI大模型技术能力评估报告,2023》显示,百度文心大模型3.5拿下12项指标的7个满分,不仅算法模型第一,在落地行业覆盖更是绝对第一,体现了百度文心大模型的基础技术深度和产业应用覆盖广度。公开资料显示,文心大模型已经拥有中国最大的产业应用规模。