来源:AI科技评论

作者:维克多

人工智能(AI)基准为模型提供了衡量和比较的路径,超越基准,达到SOTA,经常成为顶会论文的标配。同时,有些基准确实推动了AI的发展,例如ImageNet 基准测试对近几年的热潮功不可没。

如今,ImageNet 基准仍然在研究中发挥核心作用,一些新模型,例如谷歌的Vision Transformer在论文中仍然与ImageNet方法进行比较。

但,如果某一基准的分数一直占据榜首,后续没有高质量基准引入,那么这种依靠基准推动发展的“路子”就有问题。

近日,维也纳医科大学和牛津大学的研究人员对AI基准图谱进行了调查,共统计了2013年以来CV和NLP领域的406项任务的1688项基准。发现: 很大一部分基准迅速趋于接近饱和,还有一部分基准被搁置;同时,在NLP领域,从2020年开始,新基准的建立减少,方向转向推理或推理相关的高级任务上。

在文中,作者呼吁,未来的工作应该着重于大规模的社区合作,以及将基准性能与现实世界效用和影响相联系。

1

33%的AI基准被“搁置”

从单个基准出发,如上图可以看出基准上的SOTA有三种状态:稳定增长,停滞或饱和,以及停滞后的飞跃。其中,稳定增长代表技术稳定;停滞背后代表缺乏技术进步的能力;而爆发是指技术出现突破。

事实上,近年来,关键领域,如NLP,有相当一部分新基准迅速趋于饱和,或者设计针对特定基准特征过度优化的模型,而这些模型往往无法泛化到其他数据中。

目前,这些现象已经蔓延到相同领域的不同基准中,例如上图,CIFAR-10和CIFAR-100的状态。

同时,数量方面也出现了尴尬的局面,例如《2021年的人工智能指数报告》指出,CV基准数量或许能满足日益增长的任务需求;而NLP模型的增长速度正在超过现有的问答和自然语言理解基准。

Martínez-Plumed等学者分析了 CIFAR-100 和 SQuAD1.1 等 25 个流行 AI 基准背后“故事”,他们发现“SOTA 前沿”由某些长期协作的社区主导,例如美国或亚洲大学与科技公司共同合作的组织。

此外,其他学者分析了大量 AI 基准测试工作中数据集使用和再利用的趋势,他们发现,很大一部分“知名”数据集是由少数高知名度的组织提出,其中一些数据集被越来越多地重新用于新的任务。NLP是个例外,它对新的、特定任务的基准的引入和使用超过了平均水平。

在这项研究中,维也纳医科大学和牛津大学的研究人员表明:饱和和搁置非常常见。总体看来有以下几个趋势:

1.缺乏研究兴趣是导致停滞不前的原因之一;

2.所有基准中的大多数很快就会达到技术停滞或饱和;

3.在某些情况下,会出现持续增长,例如在 ImageNet 基准测试中;

4.性能改进的动态变化并不遵循一个清晰可辨的模式:在某些情况下,停滞阶段之后是不可预测的飞跃。

图注:基准有三种发展趋势:稳定增长,停滞或饱和,以及停滞后的飞跃。

此外,在1688个基准中,只有66%的基准充分被利用,换言之33%的基准被搁置。同时,基准测试的另一个趋势是:被某些既定机构和公司的数据集主导。

2

NLP基准正面向高难度的任务

过去几年,CV领域的基准占据主导地位,但NLP也开始了蓬勃发展。2020年,新基准的数量有所下降,越来越多地集中在难度较高的任务上,例如测试推理的任务,例如BIG-bench和NetHack,前者属于谷歌,后者来自Facebook。

上图是NLP的基准生命周期展示,可以清晰看出,大多数任务的几个主流基准是在2011~2015年间建立的,这期间,也只有少数几个SOTA出现。2016年之后,新基准的建立速度大大加快,在翻译和自然语言建模方面表现最为突出;2018和2019年,分别都针对各种任务建立了大量的基准;2020年是个转折点,新基准的建立减少,方向转向推理或推理相关的高级任务上。

整体来说,当前AI基准的趋势是: 来自既定机构(包括工业界)的基准的趋势引起了人们对基准的偏见和代表性的关注;许多基准并不能完全将AI性能与现实世界相匹配,因此,开发少量但有质量保证,涵盖多种AI能力、场景的基准可能是可取的。

最后,研究人员展望,在未来,新的基准应该由来自许多机构、知识领域的大型合作团队开发,如此才能确保建立高质量的基准。

声明

来源:AI科技评论 , RAD极客会推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

推荐内容

  • 牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试

  • 涨得整整齐齐,三大运营商的净增宽带用户都是从哪来的?

  • 知识和信息传播时代:上游失责,中游失序,下游失智——我们需要走出新无知时代

  • 到底什么是相干光通信?

  • 时代在变,万科AI审图,平均每年避免损失超3.1亿。

  • 定了!目标1000万!京东疯涨200%!字节加钱加人!国产VR销售爆棚,元宇宙终于要“开门”了?

  • 斯坦福学生攻破两个约会软件!用GAN模型「女扮男装」骗过人脸识别系统

  • 被阿里猛砸3.8亿,一副“眼镜”如何破局“元宇宙”?

  • Relation:探索Web3应用赋能,打造社交网络新范式

  • 考过就送9.9ETH起的NFT?顶级学府的加密课程越来越有意思了

  • 200亿买下推特后,马斯克宣布推特已死

  • 一年收购6家AR企业,Snap从社交到AR公司的逆袭之路

  • 从 2012-2021百款VR/AR硬件,看行业发展态势

  • 【新闻资讯】樊硕:人工智能为“数字中国”提速增效

  • 经纬创投的数字科技投资布局

  • 长时间不更新的APP被谷歌清理:用户再也搜不到了

  • 趣链科技推出区块链破产管理平台,助力优化营商环境

  • 陌陌没落了

  • 你和谷爱凌,就差100道MBTI测试题

  • 汇量科技:Mintegral一季度营收翻倍至超2亿美元

  • 电子牵:会是电子签约市场发展的标准答案吗?

  • 电子签约再进化:电子牵,小动作,大价值

  • Nutanix把超融合变“没了”

  • 中亦科技:从“易维”服务到“亦维”产品

  • 艾瑞咨询:隐私计算卓越者(2022,中国市场)

  • 宋起柱检查中国广电5G北方大区节点,确保按期开网放号

  • 年度会议 | 中国有线将打造定制化服务新模式

  • 中国网络通信标准与开源,又有重大进展了!

  • 记一次渗透Bc网Getshell

  • 轮到抖音解决“产品天问”了

  • 冥想翻红,宗教App曲线出海

  • AI恶意软件照妖镜 视觉运算揭病毒真身

  • 频谱价格太高!印度移动通信协会建议降低80-90%

  • 回顾 阿里巴巴 “非典”时刻:信任的力量

  • 顺势返港上市,1亿月活是知乎最大的底气?

  • 牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试

  • 旷视科技:用人工智能技术为冬奥会保驾护航 | 冬奥科技秀

  • 光云科技:2021年核心SaaS业务同比增长15%

  • 六部门:打造3—5家石化行业特色工业互联网平台

  • 6家产业互联网企业获融资;京东工业品与成都建工物资达成合作;百世供应链入局汽配行|一周产业互联网速递

  • CRM价格由什么决定?

  • 云端新趋势 混合多云下的按需计费

  • 网络安全SaaS平台Coro完成6000万美元C轮融资,专注开拓中端市场,服务中小企业

  • GSMA:预计到2025年中国5G连接数将达8.92亿,持续走在全球前列

  • CertiK完成20亿美元估值B3轮融资:刷新区块链安全赛道单笔最大融资额

  • 叮咚、美团“喂不饱”徐新?

  • 四川:已打造基于区块链的NFT资产交易平台

  • 微信,开始半屏化

  • 金融IT领军者宇信科技业绩稳增长 2022年有望迎来订单持续景气

  • 市值蒸发2.8万亿!腾讯“黄金五年”最大功臣,降薪超1亿

  • 牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试

  • 狂奔与内卷并存,自嗨锅、莫小仙们如何寻找“破局之道”?

  • 游戏版号重启发放,中概股的春天到了?

  • 刷了几百块进去,得不到推流,准备放弃了吗?
    刷了几百块进去,得不到推流,准备放弃了吗?

  • 真正的猛男,敢于直面“粉色消费”

  • 时代在变,万科AI审图,平均每年避免损失超3.1亿。

  • 涨得整整齐齐,三大运营商的净增宽带用户都是从哪来的?

  • 到底什么是相干光通信?

  • 知识和信息传播时代:上游失责,中游失序,下游失智——我们需要走出新无知时代

  • Relation:探索Web3应用赋能,打造社交网络新范式

  • 到了重新去讨论国产香水的时候了

  • 考过就送9.9ETH起的NFT?顶级学府的加密课程越来越有意思了

  • 定了!目标1000万!京东疯涨200%!字节加钱加人!国产VR销售爆棚,元宇宙终于要“开门”了?

  • 斯坦福学生攻破两个约会软件!用GAN模型「女扮男装」骗过人脸识别系统

  • 被阿里猛砸3.8亿,一副“眼镜”如何破局“元宇宙”?

  • 这届00后,开始用存折了

  • 从 2012-2021百款VR/AR硬件,看行业发展态势

  • 200亿买下推特后,马斯克宣布推特已死

  • 一年收购6家AR企业,Snap从社交到AR公司的逆袭之路

  • 【新闻资讯】樊硕:人工智能为“数字中国”提速增效

  • 经纬创投的数字科技投资布局

  • 融资丨「云庐科技」完成近亿元A轮融资,广建科投资、基石基金联合投资

  • 融资丨「FOODBOWL超级碗」完成天使轮、天使+轮融资,重新定义轻食

  • 融资丨「恒普激光」完成数千万元A轮融资,同创伟业领投

  • 腾讯游戏,站在十字路口

  • 年入24亿,毛利率近60%,新消费终于跑出了一个不亏的“异类”

  • 你和谷爱凌,就差100道MBTI测试题

  • 趣链科技推出区块链破产管理平台,助力优化营商环境

  • 长时间不更新的APP被谷歌清理:用户再也搜不到了

  • 陌陌没落了

  • Nutanix把超融合变“没了”

  • 一包方便面,难倒新消费

  • 中亦科技:从“易维”服务到“亦维”产品

  • 电子牵:会是电子签约市场发展的标准答案吗?

  • 电子签约再进化:电子牵,小动作,大价值

  • 瑞幸被椰树“带坏”了?

  • 汇量科技:Mintegral一季度营收翻倍至超2亿美元

  • 苦撑263天!游戏公司终于熬过「饥荒」,腾讯网易继续「断粮」……

  • 酸奶红海如何破局?看看美国

  • Cocos宣布完成5000万美元B轮融资,投资方为建信信托
    Cocos宣布完成5000万美元B轮融资,投资方为建信信托

  • 宋起柱检查中国广电5G北方大区节点,确保按期开网放号

  • 科创50指数首次跌破1000点中航证券张郁峰:被低估了
    科创50指数首次跌破1000点中航证券张郁峰:被低估了

  • 为乔丹和麦当娜等体娱大佬定制夹克,这个品牌到底有何魔力?

  • 艾瑞咨询:隐私计算卓越者(2022,中国市场)

  • 首批45个游戏版号,厂商先海外再国内策略不变

  • 一文解读消费者对元宇宙中新兴VR企业的兴趣和担忧

  • 新中产吃出一个大市场,有商家一夜卖出1000万

  • 年度会议 | 中国有线将打造定制化服务新模式

  • 便利蜂被传关闭千家门店,连锁便利店讲不好新零售故事?

  • 融资丨「纽龙生物」完成数千万元A轮融资

  • 融资丨「申基生物」完成A+轮超3亿元融资,清池资本、LYFE Capital(洲嶺資本)联合领投

  • 融资丨「安帝康生物」完成亿元Pre-A轮融资,同创伟业领投

  • 融资丨「奕谱生物」完成近亿元B轮融资,专注于肿瘤分子诊断

  • 生物科技崩盘,投资人且战且退?

  • 记一次渗透Bc网Getshell

  • 融资丨极狐(GitLab) 获数亿元A轮融资,加速推动中国开源DevOps生态建设

  • AI恶意软件照妖镜 视觉运算揭病毒真身

  • 轮到抖音解决“产品天问”了

  • 联想正式发布“DISC生态”:C即Cloud云服务
    联想正式发布“DISC生态”:C即Cloud云服务

  • 蕉下IPO:年入24亿、小赚1亿,钱都让网红赚了?

  • 中国网络通信标准与开源,又有重大进展了!

  • 冥想翻红,宗教App曲线出海

  • 一天50条动态招揽生意“反催收”“债闹”是逃废债
    一天50条动态招揽生意“反催收”“债闹”是逃废债

  • 旷视科技:用人工智能技术为冬奥会保驾护航 | 冬奥科技秀

  • 频谱价格太高!印度移动通信协会建议降低80-90%

  • 马斯克对 Twitter 的爱,都在细节里

  • 顺势返港上市,1亿月活是知乎最大的底气?

  • 回顾 阿里巴巴 “非典”时刻:信任的力量

  • 牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试

  • 六部门:打造3—5家石化行业特色工业互联网平台

  • 光云科技:2021年核心SaaS业务同比增长15%

  • 6家产业互联网企业获融资;京东工业品与成都建工物资达成合作;百世供应链入局汽配行|一周产业互联网速递

  • 从“她经济”到“她品牌”,女性需要怎样的产品、服务与营销

  • GSMA:预计到2025年中国5G连接数将达8.92亿,持续走在全球前列

  • 云端新趋势 混合多云下的按需计费

  • 网络安全SaaS平台Coro完成6000万美元C轮融资,专注开拓中端市场,服务中小企业

  • CRM价格由什么决定?

  • CertiK完成20亿美元估值B3轮融资:刷新区块链安全赛道单笔最大融资额

  • 微信,开始半屏化

  • 叮咚、美团“喂不饱”徐新?

  • 融资丨「雾帜智能」完成近亿元Pre-A轮融资,领跑中国SOAR安全运营

  • 市值蒸发2.8万亿!腾讯“黄金五年”最大功臣,降薪超1亿

  • 金融IT领军者宇信科技业绩稳增长 2022年有望迎来订单持续景气

  • 四川:已打造基于区块链的NFT资产交易平台

  • 有道卖灯,网易尴尬

  • 中式快餐行业调研报告

  • 融资丨从泳池机器人+储能切入户外庭院场景,「元鼎智能」获超亿元A轮融资

  • 元宇宙和区块链的关系?

  • 刘强东卸任京东CEO,农村带货迎来万亿市场

  • 刘强东辞任了CEO,徐雷接任后,你会继续支持京东吗?

  • 马斯克为什么喜欢花钱买“失败”?

  • “钉钉”颠覆钉钉

  • 预制菜不相信情怀

  • 年薪百万挖来的大厂中层,都被我劝退了

  • “192”号段首呼!中国广电5G核心网甘肃节点完成阶段建设

  • 小红书又一批笔记被屏蔽!7类违规案例解读最新审核规则

  • 深度解读为什么整改:国家文化和科技融合示范基地绩效评价

  • 海外电竞卷起“play-to-earn”投资热

  • 微软又加强安全提醒:Win11系统将关闭内存完整性功能
    微软又加强安全提醒:Win11系统将关闭内存完整性功能

  • 三星高端机型将率先尝鲜AndroidUI5.0系统
    三星高端机型将率先尝鲜AndroidUI5.0系统

中国智能在线