介绍一篇今天新出的文章,来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集 V3Det ,总类别数达到 13029 !


(相关资料图)

▌V3Det: Vast Vocabulary Visual Detection Dataset

论文作者:Jiaqi Wang,Pan Zhang,Tao Chu,Yuhang Cao,Yujie Zhou,Tong Wu,Bin Wang,Conghui He,Dahua Lin

作者单位:Shanghai AI Laboratory(上海人工智能实验室); The Chinese University of Hong Kong(香港中文大学); Centre of Perceptual and Interactive Intelligence

论文链接:http://arxiv.org/abs/2304.03752v1

这个世界有多少种类别的物体?仅目前已经发现的昆虫,就有1000多万种。而目前计算机视觉领域大部分的数据集类别都是非常有限的,之前最多类别的LVIS有1203类,所以在真实世界中检测任意对象的研究往往是在类别受限的目标检测数据集上训练和评估的。

V3Det,正是为了应对这一挑战而开发的,不仅图像数量多(245k),而且类别个数多(13029),且具有精确的标注(1753k个包围框)。

相信构建这一数据集过程也是异常费时费力的!

为更好地理解数据,作者们还为V3Det构建了层次分类树,可以方便访问和研究类别之间的包含关系,每个类别都有专业的描述。

V3Det提供了广泛的探索空间,可以在广泛和开放的目标检测任务上进行广泛的基准测试,为研究提供新的观察、实践和见解。它有潜力成为开发更普遍的视觉感知系统的重要参考数据集!

V3Det与其他知名目标检测数据集的统计比较:

V3Det类别数是之前最大数据集的10倍!

如此大规模多类别的数据集标注过程肯定是异常艰辛的,为了保证标注数据的准确性,数据创建团队付出了大量的工作。

V3Det的标注过程:

包括分组、粗粒度标注、合并与联合验证、细粒度标注、类别的验证、类别描述等过程。

比较有意思的是,在对类别进行描述的步骤中,ChatGPT也参与进来。

下图是对V3Det和其他数据集的统计分析:

包括类别分布、均值分辨率、包围框分布。

下图展示了常见的目标检测算法在V3Det上评估的表现:

作者还根据不同采样方法、表示方法、算法框架等对数据集进行了各种评估:

下面这张图展示了类别层次图的可视化,相当震撼!

V3Det数据集中“粗类别”的统计和描述:

可见Animal & Human 相关的类别是最多的,达到7485类,其次是Flower,1911类。

类别描述示例:

标注示例:

包围框真是密密麻麻!(数据创建团队辛苦了!!)

这是一项特别有意义的工作,也是非常有价值的资产,相信能够促进大规模海量类别目标检测的相关研究。

作者说数据集将于6月份公开,大家拭目以待!

推荐内容