【导读】 干净的数据对于你的 AI 模型的表现有多重要?

有研究称,他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像,并发现 PASCAL 中 6.5% 的图像有不同的错误(缺失标签、类标签错误等)。他们在创纪录的时间内修复了这些错误,并将模型的性能提高了 13% 的 mAP。

通常情况下,模型性能较差可能是由于训练数据质量不高引起的。即使在 2022 年,由于数据是公司最重要的资产之一,开发人员也经常因数据质量低劣而感到工作棘手。本文中,总部位于德国柏林的面向视觉 AI 从业者的下一代注释工具提供商 Hasty,希望通过更快、更高效地清理数据来简化和降低视觉 AI 解决方案开发的风险。

他们开发了 AI Consensus Scoring (AI CS) 功能,它是 Hasty 生态系统的一部分(Hasty 是该公司开发的一个端到端的 AI 平台,可让 ML 工程师和领域专家更快地交付计算机视觉模型,从而缩短变革性产品和服务的上市时间),该功能使得手动共识评分(consensus scoring)成为过去,其将 AI 集成到质量控制流程中,使其更快、更便宜,并且随着用户添加的数据越多,性能扩展越好。

本文中,研究者将利用 AI CS 功能来改进、更新和升级最流行的目标检测基准数据集 PASCAL VOC 2012 。

我们先来简单介绍一下 PASCAL,它是一个著名的学术数据集,可用于目标检测和语义分割等视觉 AI 任务的基准模型。PASCAL 已有十多年的历史,现在还一直被广泛使用,近 4 年就有 160 篇论文使用它。

PASCAL 在过去十年中没有改变,世界各地的团队在科研中都保持该数据集的「原样」进行科研。但是,该数据集是很久以前注释的,当时算法还没有今天准确,注释要求也没有那么严格,会出现很多错误。例如下图所示:尽管马是在前景并且可见,但没有马的标签,这些质量问题在 PASCAL 中很常见。

如果让人工来处理 PASCAL 数据集,成本高昂且非常耗时,该研究使用 AI 进行质量控制并提高 PASCAL 的质量,他们的目的是如果数据质量足够好,模型性能会不会随之提高,为了执行这个测试,他们设置了一个包含以下步骤的实验:

在 Hasty 平台上使用 AI Consensus Scoring 功能清洗 PASCAL VOC 2012;

使用 Faster R-CNN 架构在原始的 PASCAL 训练集上训练自定义模型;

使用相同的 Faster R-CNN 架构和参数,在清理后的 PASCAL 训练集上准备一个自定义模型;

实验之后,得出结论。

下面为实验过程,以第一人称进行编译整理, 看看他们是如何做到的以及结果如何?

清洗 PASCAL VOC 2012

我们的首要任务是改进数据集。我们从 Kaggle 获得数据集,将其上传到 Hasty 平台,导入注释,并安排两次 AI CS 运行。对于那些不熟悉我们 AI CS 功能的人,该功能支持类、目标检测和实例分割审查,因此它会检查注释的类标签、边界框、多边形和掩码。在进行审查时,AI CS 会寻找额外或缺失的标签、伪影、错误类别的注释,以及形状不精确的边界框或实例。

PASCAL VOC 2012 包含 17.120 张图像和 20 个不同类别的约 37.700 个标签。我们已经针对 28.900 (OD) 和 1.320 (Class) 潜在错误任务运行了目标检测和类别审查。

AI CS 可以让你发现潜在问题。然后,你可以专注于修复错误,而无需花几天或几周的时间来查错。

我们要检查这些潜在错误并解决它们,最重要的是,我们希望修改后的注释比原始注释器更准确。具体包括:

当 AI CS 检测到潜在错误时,我们尝试修复每张图像上所有可能出现的这些错误;

我们没有打算注释每个可能的目标,如果注释遗漏了一个目标,并且在前景中或在没有缩放的情况下肉眼可见,我们就注释它;

我们试图让边界框像像素一样完美;

我们还对部分(数据集类目标未注释部分)进行了注释,因为原始数据集具有它们的特性。

有了上述目标,我们首先检查了现有注释类标签的类审查运行,试图找出潜在的错误。超过 60% 的 AI CS 建议非常有用,因为它们有助于识别原始数据集不明显的问题。例如,注释器将沙发和椅子混淆。我们通过重新标记整个数据集的 500 多个标签来解决这个问题。

原始注释示例。图中有两张沙发和两把扶手椅。两把扶手椅中的一张标注为沙发,而另一把则标注为椅子。数据标注发生了一些错误,需要修复。 修改后的标注,扶手椅是椅子,沙发是沙发。

在分析 OD 和 Class 审查时,我们发现 PASCAL 最突出的问题不是错误分类注释、奇怪的边界框或额外的标签。它最大的问题是缺少许多潜在的注释。我们很难估计确切的数字,但我们觉得有数千个未标记的目标应该被标记。

OD 审查通过数据集,寻找额外或缺失的标签和错误形状的边界框。并非所有缺失的注释都被 AI CS 突出显示,但我们已尽最大努力改进 AI CS 预测的至少有一个缺失标签的所有图片。结果,OD 审查帮助我们在 1.140 张图像中找到了 6.600 个缺失注释。

我们花了大约 80 个小时来审查所有建议并清理数据集,这是一个了不起的结果。

在原始 PASCAL 上训练自定义模型

如上所述,我们决定设置两组实验,训练两个模型,一个在初始的 PASCAL 上,另一个在经过清理的 PASCAL 版本上。为了进行神经网络训练,我们使用了 Hasty 另一个功能:Model Playground,这是一个无需编码的解决方案,允许你在简化的 UI 中构建 AI 模型,同时保持对架构和每个关键神经网络参数的控制。

在整个工作过程中,我们对模型进行了多次迭代,试图为任务找到最佳超参数。最后,我们选择了:

以 ResNet101 FPN 为骨干的更快的 R-CNN 架构;

采用 R101-FPN COCO 权值进行模型初始化;

模糊,水平翻转,随机剪切,旋转和颜色抖动作为增强;

AdamW 为求解器,ReduceLROnPlateau 为调度器;

就像在其他 OD 任务中一样,使用了损失组合(RPN Bounding Box 损失、RPN 分类损失、最终 Bounding Box 回归损失和最终分类损失);

作为指标,我们有 COCO mAP,幸运的是,它直接在 Model Playground 中实现。

大约一天半的时间来训练。 假设架构的深度、网络正在处理的图像数量、计划的训练迭代次数(10.000)以及 COCO mAP 在 5.000 张图片中每 50 次迭代计算的事实,它并没有花费太长时间。 以下是模型取得的结果: 原始模型训练迭代的平均损失。 跨原始模型验证迭代的 COCO mAP 图。

使用这种架构实现的最终 COCO mAP 结果是验证时的 0.42 mAP。在原始 PASCAL 上训练的模型的性能不如最先进的架构。尽管如此,考虑到我们在构建模型上花费的时间和精力很少(经历了 3 次迭代,每次花费 1 小时),这仍然是一个不错的结果。无论如何,这样的结果会让我们的实验更有趣。让我们看看是否可以在不调整模型参数的情况下,通过改进数据来获得所需的指标值。

在更新的 PASCAL 上训练的自定义模型

在这里,我们采用相同的图像进行训练和验证,以训练以下模型作为基线。唯一的区别是拆分中的数据更好(添加了更多标签并修复了一些标签)。

不幸的是,原始数据集并没有在其训练 / 测试集拆分中包含 17120 个图像中的每一个,有些图片被遗漏了。因此尽管在原始数据集中添加了 6600 个标签,但在训练 / 测试拆分中,我们只得到了大约 3000 个新标签和大约 190 个修复标签。

尽管如此,我们继续使用 PASCAL VOC 2012 改进后的训练 / 测试拆分来训练和验证模型,看看效果如何。

更新模型的训练迭代中的 AverageLoss 图。

更新模型的验证迭代中的 COCO mAP 图。

直接比较

正如我们所见,新模型的性能优于原始模型。与之前模型的 0.42 值相比,它在验证时达到了 0.49 COCO mAP。这样看很明显实验是成功的。

结果在 45-55 COCO mAP 之内,这意味着更新后的模型比原始模型效果更好,并提供了所需的度量值。是时候得出一些结论并讨论我们刚刚目睹的情况了。

结论

本文展示了以数据为中心的 AI 开发概念。我们的思路是通过提升数据以获得更好的模型,进而也获得了想要的结果。如今,当模型开始接近性能的上限时,通过调整模型将关键指标的结果提高 1-2% 以上可能是具有挑战性且成本高昂的事。但是,你不应该忽略构建机器学习并不仅仅是模型和参数,还有两个关键组成部分——算法和数据。

在该研究中,我们并没有试图击败任何 SOTA 或获得比此前研究更好的结果。我们希望通过实验结果展示:花费时间改进数据有利于模型性能。希望通过添加 3000 个缺失标签使 COCO mAP 增加 13% 的案例足够令人信服。

通过清理数据和向图像添加更多标签可以获得的结果很难预测。效果很大程度上取决于你的任务、NN 参数和许多其他因素。即使在本文的例子中,我们也不能确定多 3000 个标签会是能带来额外 13% mAP 的。尽管如此,结果不言自明。虽然有时很难确定通过获得更好的数据来改进模型指标的上限,这是值得尝试的方向。

推荐内容

  • 有人一周内清理了PASCAL数据集中的17120张图像,将mAP提高了13%

  • Meta首家线下实体店来了!免费体验“元宇宙”,还能对话研发大佬

  • “背锅侠”的春天,AR Library5让运维So Easy

  • 一统大数据江湖!趣话图说“存算分离”武学心法

  • 三管齐下攻坚数据创新,中国系统为政企转型注入源动力

  • 数字藏品背后的灰产:炒NFT有人月赚10万,有人血亏百万

  • 昆仑万维年营收48.5亿元,海外市场收入占7成

  • 视频号不肯掉队

  • 深度剖析 | 《生化危机4》VR化的成功之路

  • Meta第一季度财报电话会议要点总结;Incuvo首席执行官看好PS VR2

  • 云上搬家,爱回收是怎么准备的?

  • 百度:入选AI华人青年学者榜单的学者,最小的竟然是95后?

  • 营收不及预期,算错3年用户数据,Twitter不值得?

  • 百度卢飞翔:“AI教练”助力国家跳水队争金夺银

  • Gartner:AI和自动化将是新一代SASE的关键能力

  • 苏农银行2021年净利润11.60亿元,同比增长21.96%
    苏农银行2021年净利润11.60亿元,同比增长21.96%

  • 14nm之后,台积电的2nm工艺将在2024年开始量产
    14nm之后,台积电的2nm工艺将在2024年开始量产

  • 中国企业驶出“内流河”,提升全球竞争力
    中国企业驶出“内流河”,提升全球竞争力

  • 罗永浩关联公司新增1条恢复执行信息曾被限制消费
    罗永浩关联公司新增1条恢复执行信息曾被限制消费

  • 慕了慕了!这里的女职工服务站,有一个温馨名字:康乃馨!

  • 省委书记调研“东数西算”,来到联通核心云基地!

  • Meta宣布开设直营零售店;Nreal将在英国推出AR眼镜

  • 影目科技消费级AR眼镜INMO Air正式量产交付

  • 【学习党】205页PPT!关于“元宇宙”,你想知道的权威答案都在这里……

  • 酷!教你用“眼神儿”玩手机

  • 京东云正式发布城市产业服务平台和三大产业解决方案

  • 下一代互联网Web3.0,如何搅动中国市场?

  • 陌生人社交:要么出众,要么出局

  • 字节跳动不想等了

  • 中国移动推动六大服务举措升级 全力做优“心级服务”

  • 定了!马斯克440亿美元大手笔收购,特朗普拒绝重返推特

  • 华尔街投资人集体诉讼案新动作:将马云列为起诉对象 到底是什么回事???

  • 可喜可贺,国产操作系统厂商年收入超十亿元!

  • 区块链军事化应用研究进展

  • OpenAI大佬:我是如何拿到190万美元年薪的?

  • 微博没有马斯克式的“救世主”

  • 高举“高投入”大旗,三六零想要讲一个“转型”新故事

  • 微软押宝的Loop还没落地,钉钉先做到了

  • 全球最大同性交友网站,操作一个比一个骚

  • 智能云业务维持高增长 微软交出强于市场预期的一季报

  • 【新闻资讯】互联网发展给我们带来了哪些致富机遇?

  • 一个惊天 bug,2.2 亿没了!

  • 中国移动一季度业绩亮眼

  • 马斯克440亿美元收购推特

  • 奇点云入选《2022爱分析·工业互联网厂商全景报告》工业数据智能平台代表厂商

  • 对网络暴力说“不”,需强化三个方面的主体责任

  • 时隔半年迎来女CFO高准,字节跳动再为上市作准备?

  • 马斯克440亿美元买下推特:上限是火星球主、下限是美国总统?

  • 营销下一站,去品牌元宇宙

  • 分析 OpenSea 收购 NFT 聚合器 GEM:一次垄断者“铲除威胁”的行动

  • 云上搬家,爱回收是怎么准备的?

  • 深度剖析 | 《生化危机4》VR化的成功之路

  • 百度:入选AI华人青年学者榜单的学者,最小的竟然是95后?

  • 百度卢飞翔:“AI教练”助力国家跳水队争金夺银

  • 有人一周内清理了PASCAL数据集中的17120张图像,将mAP提高了13%

  • 视频号不肯掉队

  • web3.0:区块链的下一个风口
    web3.0:区块链的下一个风口

  • Meta第一季度财报电话会议要点总结;Incuvo首席执行官看好PS VR2

  • Gartner:AI和自动化将是新一代SASE的关键能力

  • “背锅侠”的春天,AR Library5让运维So Easy

  • 三管齐下攻坚数据创新,中国系统为政企转型注入源动力

  • Meta首家线下实体店来了!免费体验“元宇宙”,还能对话研发大佬

  • 昆仑万维年营收48.5亿元,海外市场收入占7成

  • 一统大数据江湖!趣话图说“存算分离”武学心法

  • 数字藏品背后的灰产:炒NFT有人月赚10万,有人血亏百万

  • 营收不及预期,算错3年用户数据,Twitter不值得?

  • 华帝股份:2021年净利润2.07亿元同比减少49.17%
    华帝股份:2021年净利润2.07亿元同比减少49.17%

  • 家电企业“跨界”布局生物医疗:海尔、美的、长虹美菱、澳柯玛
    家电企业“跨界”布局生物医疗:海尔、美的、长虹美菱、澳柯玛

  • 新乳业2021年营收利润靓丽双增,2022年一季度扣非净利增长67%实现开门红
    新乳业2021年营收利润靓丽双增,2022年一季度扣非净利增长67%实现开门红

  • 康泰生物:2022年一季度净利润同比增长86.01%
    康泰生物:2022年一季度净利润同比增长86.01%

  • 小商品城拟投资建设义乌国际数字物流市场一期工程
    小商品城拟投资建设义乌国际数字物流市场一期工程

  • 苏农银行2021年净利润11.60亿元,同比增长21.96%
    苏农银行2021年净利润11.60亿元,同比增长21.96%

  • 皮阿诺2021年净利润-7.29亿元,同比减少470.05%
    皮阿诺2021年净利润-7.29亿元,同比减少470.05%

  • 小众品牌进商场传统商圈拓新网红品牌成新品牌
    小众品牌进商场传统商圈拓新网红品牌成新品牌

  • 中国中免市值蒸发超4000亿元,或因销售成本上升股价下行
    中国中免市值蒸发超4000亿元,或因销售成本上升股价下行

  • 京东方2022年一季度营收同比增长近50%,持续稳居全球第一
    京东方2022年一季度营收同比增长近50%,持续稳居全球第一

  • 奥佳华发布2021年度报告,董事长、总经理邹剑寒薪酬111万
    奥佳华发布2021年度报告,董事长、总经理邹剑寒薪酬111万

  • 总投资超750亿元!全球最大LTPS单体工厂封顶
    总投资超750亿元!全球最大LTPS单体工厂封顶

  • 特斯拉重挫12.18%  市值蒸发8245亿元
    特斯拉重挫12.18% 市值蒸发8245亿元

  • 14nm之后,台积电的2nm工艺将在2024年开始量产
    14nm之后,台积电的2nm工艺将在2024年开始量产

  • 2021年全球半导体收入排名公布  全球半导体收入同比增长26.3%
    2021年全球半导体收入排名公布 全球半导体收入同比增长26.3%

  • Win11对搜索界面进行大规模改动 后续将进一步优化
    Win11对搜索界面进行大规模改动 后续将进一步优化

  • 新一轮“涨价潮”来了!空调原材料价格上涨超80%
    新一轮“涨价潮”来了!空调原材料价格上涨超80%

  • 中国企业驶出“内流河”,提升全球竞争力
    中国企业驶出“内流河”,提升全球竞争力

  • 罗永浩关联公司新增1条恢复执行信息曾被限制消费
    罗永浩关联公司新增1条恢复执行信息曾被限制消费

  • 爆料:骁龙8Gen1Plus性能将提升10%左右
    爆料:骁龙8Gen1Plus性能将提升10%左右

  • 半导体调研机构:显卡价格暴跌原因是产能转变
    半导体调研机构:显卡价格暴跌原因是产能转变

  • 国盾量子2021年营收1.79亿元,研发投入占比50.81%
    国盾量子2021年营收1.79亿元,研发投入占比50.81%

  • 省委书记调研“东数西算”,来到联通核心云基地!

  • 字节跳动不想等了

  • 台积电连续多年成为苹果自研芯片第一大客户
    台积电连续多年成为苹果自研芯片第一大客户

  • 【学习党】205页PPT!关于“元宇宙”,你想知道的权威答案都在这里……

  • 酷!教你用“眼神儿”玩手机

  • 京东云正式发布城市产业服务平台和三大产业解决方案

  • 下一代互联网Web3.0,如何搅动中国市场?

  • 慕了慕了!这里的女职工服务站,有一个温馨名字:康乃馨!

  • Meta宣布开设直营零售店;Nreal将在英国推出AR眼镜

  • 影目科技消费级AR眼镜INMO Air正式量产交付

  • 陌生人社交:要么出众,要么出局

  • 智能云业务维持高增长 微软交出强于市场预期的一季报

  • 华尔街投资人集体诉讼案新动作:将马云列为起诉对象 到底是什么回事???

  • 微博没有马斯克式的“救世主”

  • 高举“高投入”大旗,三六零想要讲一个“转型”新故事

  • 刘畊宏爆红,促使“周杰伦概念股”再次冲击IPO

  • OpenAI大佬:我是如何拿到190万美元年薪的?

  • 区块链军事化应用研究进展

  • 可喜可贺,国产操作系统厂商年收入超十亿元!

  • 中国移动推动六大服务举措升级 全力做优“心级服务”

  • 大厂嫡系文化,养肥了谁?

  • 微软押宝的Loop还没落地,钉钉先做到了

  • 全球最大同性交友网站,操作一个比一个骚

  • 社会太冷,闲人在闲鱼兜售自己

  • 定了!马斯克440亿美元大手笔收购,特朗普拒绝重返推特

  • 做合格的工业数据分析师

  • 不再按月披露用户净增数,联通困境的根源在于3G时代错失良机

  • 中国移动一季度业绩亮眼

  • 对网络暴力说“不”,需强化三个方面的主体责任

  • 马斯克440亿美元收购推特

  • 迈入强AI时代,科大讯飞如何找到价值支点?

  • 调查显示:整合被认为是物联网部署的最大挑战之一

  • 时隔半年迎来女CFO高准,字节跳动再为上市作准备?

  • 淘丁分享:人工智能与人类智能的区别与趋势

  • 马斯克440亿美元买下推特:上限是火星球主、下限是美国总统?

  • 一个惊天 bug,2.2 亿没了!

  • 营销下一站,去品牌元宇宙

  • 分析 OpenSea 收购 NFT 聚合器 GEM:一次垄断者“铲除威胁”的行动

  • 【新闻资讯】互联网发展给我们带来了哪些致富机遇?

  • 奇点云入选《2022爱分析·工业互联网厂商全景报告》工业数据智能平台代表厂商

  • 深度分析B站百大up主数据:高更替率背后,知识、游戏、美食越来越卷了……

  • 元宇宙的庞大市场预期将促进生成式AI快速发展

  • 超市行业正在“突破”亏损

  • 「奥特莱斯」里的学问,绝非「折扣」这么简单

  • 达美乐距离港股上市,缺了一个美团?

  • 做生鲜电商难,在哪里都难

  • 一年买533吨黄金,这届年轻人变身“囤金兽”

  • 从周受资到高准:字节跳动如何筛选CFO?

  • 融资丨「卧兔网络」完成数千万元A轮融资,君品资本、云想科技投资

  • 疫情下的电商大考

  • 融资丨「如祺出行」完成超10亿元A轮融资,广汽集团领投

  • 融资丨「花田萃」完成数百万美元融资,青山资本独家投资

  • 海外创投丨数字货运网络提供商「Convoy」完成2.6亿美元E轮融资,Baillie Gifford、T. Rowe Price共同领投

  • 融资丨「风变科技」完成数千万元B+轮融资,中银粤财独家投资

  • 融资丨「Wahool」完成近千万美金两轮融资,投资方为金沙江创投和策源创投

  • 融资丨「蓝固新能源」完成近2亿元A轮融资,海松资本领投

  • 马斯克背后的神秘家族办公室

  • 除了快手与抖音,“云想科技们”也在加速“出圈”

  • 融资丨「可以科技」完成新一轮融资,安克创新领投

  • 融资丨「明智医疗」完成数千万元A轮融资,打造肿瘤真实世界大数据平台

  • 融资丨「瑞泰生物」完成数千万A轮融资,惠每资本领投

  • 奇安信发布2021年财报及2022年一季财报
    奇安信发布2021年财报及2022年一季财报