摘要

SAM本质意义在于大幅降低图像识别门槛,是计算机视觉领域的AI平权,对于产业意义非常重大, 最大受益者还是得视频与图像数据卡位者得天下。

Meta AI在官网发布了基础模型 Segment Anything Model(SAM)并开源。其本质是用GPT的方式(基于Transform 模型架构)让计算机具备理解了图像里面的一个个“对象”的通用能力,从而不像过去需要大量专门数据训练,就能具备对所有图片分割出各个主体。


(相关资料图)

SAM本质大幅降低了图像识别的技术门槛 ,一是不再需要此前需要大量数据标注训练的门槛,二是开源后使得没有计算机视觉技术积累的公司也能轻易拥有最强大最通用的图像数据结构化理解能力,是计算机视觉领域的AI平权,对于产业意义非常重大。

SAM模型可能不仅仅是计算机视觉领域的GPT3时刻,它的开源更可能是AR/VR领域的安卓时刻。 XR在SAM的赋能下具备了通过图像理解现实的能力,无论是“增强现实”还是“虚拟现实”,在内容制作成本上会大幅降低,在使用场景上会大幅增加。SAM的出现,无异于为XR行业安装了一台核动力引擎。

投资建议: SAM本质意义在于大幅降低图像识别门槛,最大受益者还是得视频与图像数据卡位者, 【海康威视】、【大华股份】与【千方科技】、【视觉中国】、【网达软件】 等。

SAM的开源降低AR/VR门槛,提供技术底座为XR行业安装了一台核动力引擎,【 中科创达】、【超图软件】与【丝路视觉】 或受益行业发展红利。

风险提示:技术发展不及预期

1 SAM技术解析

1.1 使用体验:精确完成计算机主板的图像分割

我们选用简单人工标注的电脑主板分割图进行图像测试,测试后发现SAM对于图像分割的精细程度极高且准确度也可以得到保证。当前SAM的DEMO支持自动分割指针指向的部分、一键分割所有可分割图像、扩选自选大小图像框中的所有可分割图像等(暂时无法提取物体标签,但官网演示是可以的,学术论坛预测提取物体标签可能要单独再发一篇paper)。

使用地址:https://segment-anything.com/

1.2 技术原理:大量喂数据后从数据层面理解图像

近日,Meta AI在官网发布了基础模型SegmentAnything Model(SAM)并开源。 其本质是用GPT的方式(基于Transform模型架构)让计算机具备理解了图像里面的一个个“对象”的通用能力,从而不像过去需要大量专门数据训练,就能具备对所有图片分割出各个主体。具体来说,论文主要提供了一种建立计算机视觉模型、准备并投喂数据进行训练的全流程:

解决的问题

在语言大模型通过零样本和少样本泛化能力彻底改变NLP的背景下,作者借鉴了语言大模型的提示工程希望建立一个图像分割的大模型 ,重点回答以下三个问题:1)什么任务可以实现零样本泛化(确定提示工程方向)?2)对应的模型架构是怎样的?3)哪些数据可以为这项任务和模型提供支持?

分割式任务

任务要求是足够普遍,可以提供强大的预训练目标,并支持广泛的下游应用。 首先将提示的概念从 NLP 转化为分割,其中提示可以是一组前景/背景点、粗略的框或掩码(mask)、自由格式的文本,或者一般来说,任何指示要分割内容的信息,提示可以包括标识对象的空间或文本信息。有效输出掩码的要求意味着即使提示是模糊的,并且可能指向多个对象(例如,衬衫上的一个点可能表示衬衫或穿衬衫的人),输出也应该是这些对象中至少一个的合理掩码。我们使用提示分割任务作为预训练目标,并通过提示工程解决一般的下游分割任务。作者选择这个任务是因为它会产生一个自然的预训练算法和一个通过提示将零样本迁移到下游分割任务的通用方法。此外,作者还提出了预训练算法、零样本迁移、相关任务法等配套技术,作者预计,由提示工程等技术提供支持的可组合系统设计将支持比专门为一组固定任务训练的系统更广泛的应用程,从组合的角度比较可提示分割和交互式分割也很有趣:虽然交互式分割模型是为人类用户设计的,但为可提示分割训练的模型也可以组合成更大的算法系统。

SAM模型(已开源)

SAM包含一个重量级图像编码器输出一个图像嵌入,然后可以通过各种输入提示有效地查询,以平摊实时速度生成对象掩码。 对于对应于多个对象的模糊提示,SAM可以输出多个有效掩码和相关的置信度分数。整体模型设计很大程度上受效率驱动。给定一个预先计算的图像嵌入,提示编码器和掩码解码器在 CPU 上的 Web 浏览器中运行,时间约为 50 毫秒。这种运行时性能使模型能够进行无缝、实时的交互式提示。

数据:专属数据引擎SA-1B(已开源)

SA-1B由数据引擎收集的1100多万涨多样化、高分辨率、许可和隐私保护图像和11亿高质量分割掩码组成。 作者开源了 SA-1B 以帮助未来开发计算机视觉基础模型。论文所提出的数据引擎产生了 11亿掩码,其中 99.1% 是全自动生成的,SAM使用公共分割数据集进行训练。在充分的数据注释之后,只使用新注释的掩码重新训练SAM。本文的实验通过人类评级证实,相对于各种数据集而言,在自动生成的掩码上训练SAM几乎与使用数据引擎生成的所有掩码一样好。

图像大模型建立与训练思路

结合CSDN测试结果,注释员使用 SAM 交互式地注释图像,然后新注释的数据反过来用于更新 SAM,彼此相互作用,重复执行此循环来改善模型和数据集:

1)先用开源数据集训练一个小模型

2)标注员用训好的模型辅助标注,优先标好标的。如果图中一个instance开始花费超过30s就可以跳下一张图了

3)用新增的label在大模型上重新训练,并重复第2步。随着模型能力的增强,之前难标的会逐渐变成好标的

4)第3步迭代6次后,开始攻克剩余所有困难的instance。先用模型把容易的instance都mask掉,剩下的人工标注。

2 计算机视觉领域的AI平权,视频/图像数据卡位者价值重构

SAM本质大幅降低了图像识别的技术门槛,一是不再需要此前需要大量数据标注训练的门槛,二是开源后使得没有计算机视觉技术积累的公司也能轻易拥有最强大最通用的图像数据结构化理解能力,是计算机视觉领域的AI平权。

据Meta官网,SAM 已经学会了什么是对象的一般概念,它可以为任何图像或任何视频中的任何对象生成掩码,且无需额外的训练甚至包括它在训练期间没有遇到的对象和图像类型。 截止4月10日,Github中包含“segment anything”的开源项目已经超过90个,其中包含众多在一两天的极短时间内完成的顶级AI应用,如Grounded-SAM,其将语言大模型与SAM相结合,在不需要额外训练的情况下直接做到使用语言进行图像修改:

1)在一个狗在大自然中奔跑的照片中,输入奔跑的狗,奔跑的狗将被分割选定。

2)使用语言直接完成换装。

SAM使得视频/图像数据价值量跃升,拥有视频/图像数据及相关获取渠道卡位的公司将迎来价值重构。 Meta也无法预测SAM的价值天花板在何处,但无疑视频/图像数据价值量迎来了跃升,4月9日中国人工智能学会对视觉大模型的应用进行了多维度展望,包括自动驾驶、交通管理、视频教育等多个方面,我们预计SAM有望赋能千行百业,其中重点展示的多模态智能监控技术是基于即时数据的分析,进一步体现出 不仅要重视已有图像/视频数据,更要重视未来长期图像/视频数据获取渠道卡位者,重点推荐海康威视、大华股份与千方科技、视觉中国、网达软件等。

3 XR或迎来强力催化

据Meta官网,在AR / VR领域,SAM可以根据用户的目光选择对象,然后将其“提升”到3D中。SAM模型可能不仅仅是计算机视觉领域的GPT3时刻,它的开源更可能是AR/VR领域的安卓时刻。XR在SAM的赋能下具备了通过图像理解现实的能力,无论是“增强现实”还是“虚拟现实”,在内容制作成本上会大幅降低,在使用场景上会大幅增加。 SAM的开源降低AR/VR门槛,提供技术底座为XR行业安装了一台核动力引擎,【中科创达】、【超图软件】与【丝路视觉】或受益行业发展红利。

风险提示: 技术发展不及预期

推荐内容