让AI更懂物理世界,人大北邮上海AI Lab等提出多模态分割新方法
声明:本文来自微信公众号“量子位”,作者:王耀霆,,授权站长之家转载发布。
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了!
来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下的指代分割),让AI能看、会听,更懂真实物理世界。
相关论文已入选顶会ECCV2024。
举个例子,在下面这张图中,机器如何准确定位真正在演奏乐器的人?
搞单打独斗肯定不行,但这正是已有研究正在做的。(各自从视觉、文本和音频线索的角度出发)
视频对象分割(VOS,Video Object Segmentation):通常以第一帧中的对象掩码作为参考,指导后续帧中特定对象的分割。(严重依赖于第一帧的精确标注)
视频对象参考分割(Ref-VOS,Referring Video Object Segmentation):基于自然语言描述分割视频中的物体,取代了VOS中的掩码标注。(虽然更易于访问,但能力有限)
视听分割(AVS,Audio-Visual Segmentation):以音频为指导来分割视频中发声的物体。(无法应对不发声的物体)
而新方法Ref-AVS,整合了多个模态(文本,音频和视觉)之间的关系来适应更真实的动态视听场景。
这下,同时在唱歌和弹吉他的人也能被轻松找到了。
且同一段素材还能拿来反复用,找出正在发声的吉他也不在话下。
与此同时,研究人员构建了一个名为Ref-AVS Bench的数据集,并设计了一个端到端框架来高效处理多模态线索。
具体如下。
构建了数据集Ref-AVS Bench
概括而言,数据集Ref-AVS Bench共有40020个视频帧,包含6888个物体和20261个指代表达式(Reference Expression)。
每个数据都包含与视频帧对应的音频,并提供逐帧的像素级标注。
为了确保所指代对象(Object)的多样性,团队选择了包含背景的52个类别, 其中48个类别的可发声物体,以及3个类别的静态、不可发声物体。
在视频收集过程中,所有视频均来自油管并截取10秒。
在整个手动收集过程中,团队刻意避免以下情况的视频:
a) 包含大量相同语义实例的视频;
b) 有大量编辑和相机视角切换的视频;
c) 包含合成创作的非现实视频。
同时,为了提高与真实世界分布的一致性,团队挑选了有助于数据集内场景多样化的视频。
比如涉及多个对象(如乐器、人、车辆等)之间交互的视频。
另外,表达式(Expression)的多样性是Ref-AVS数据集构建的核心要素之一。
除去本身固有的文本语义信息,表达式还由听觉、视觉和时间三个维度的信息组成。
听觉维度包含音量、节奏等特征,而视觉维度则包含物体的外观和空间等属性。
团队还利用时间线索来生成具有时序提示的引用,例如“先发出声音的(物体)”或“后出现的(物体)”。
通过整合听觉、视觉和时间信息,研究设计出丰富的表达式,不仅可以准确反映多模态场景,还可以满足用户对精确引用的特定需求。
而且,表达式的准确性也是一个核心关注点。
研究遵循三个规则来生成高质量的表达式:
1)唯一性:一个表达式所指代的对象必须是唯一的,不能同时指代多个对象。
2)必要性:可以使用复杂的表达式来指代对象,但句子中的每个形容词都应该缩小目标对象的范围,避免对所要指代的对象进行不必要和冗余的描述。
3)清晰度:某些表达模板涉及主观因素,例如“声音更大的__”。只有在情况足够清晰时才应使用此类表达,以避免产生歧义。
团队将每段10秒的视频分成十个相等的1秒片段,利用Grounding SAM来分割和标记关键帧,随后要求标注员手动检查和更正这些关键帧。
此过程使团队能够在关键帧内为多个目标对象生成掩码和标签。
一旦确定了关键帧的掩码,研究就会应用跟踪算法来跟踪目标对象,并在10s的跨度内获得目标对象的最终掩码标签(Ground Truth Mask)。
到了数据分割与统计,测试集中的视频及其对应的注释会经过训练过的标注人员的细致审查和校正。
为了全面评估模型在Ref-AVS任务中的表现,测试集进一步被划分为三个不同的子集。
具体而言,三个测试子集包括:
已见子集 (Seen):包括那些在训练集中出现过的物体类别,建立该子集的目的是评估模型的基本性能。
未见子集 (Unseen):专门用于评估模型在未见音视频场景中的泛化能力。
空指代子集 (Null):测试模型对空引用的鲁棒性,即表达式与视频中的任何对象都不相关。
具体咋实现的?
完成了数据集准备后,团队利用多模态线索来增强表达式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以实现更好的视听指代分割。
具体而言,在时序双模态融合(Temporal Bi-Modal Transformer)模块中,团队将包含时序信息的视听模态信息(FV, FA)分别与文本信息FT进行融合。
注意, 为了让模型更好的感知时序信息,研究提出了一种直观的Cached memory机制(CV,CA)。
Cached memory需要存储从开始到当前时刻的时序平均模态特征,以捕捉时序变化中多模态信息的变化幅度。多模态特征(QV, QA)计算方式如下:
其中,
免责声明:本文章由会员“极目新闻”发布如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系