让AI更懂物理世界，人大北邮上海AI Lab等提出多模态分割新方法-河北元硕人力资源服务有限公司

声明:本文来自微信公众号“量子位”，作者:王耀霆，，授权站长之家转载发布。

让AI像人类一样借助多模态线索定位感兴趣的物体，有新招了!

来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS（Refer and Segment Objects in Audio-Visual Scenes，视听场景下的指代分割），让AI能看、会听，更懂真实物理世界。

构建了数据集Ref-AVS Bench

概括而言，数据集Ref-AVS Bench共有40020个视频帧，包含6888个物体和20261个指代表达式（Reference Expression）。

每个数据都包含与视频帧对应的音频，并提供逐帧的像素级标注。

为了确保所指代对象（Object）的多样性，团队选择了包含背景的52个类别，其中48个类别的可发声物体，以及3个类别的静态、不可发声物体。

在视频收集过程中，所有视频均来自油管并截取10秒。

在整个手动收集过程中，团队刻意避免以下情况的视频:

a）包含大量相同语义实例的视频;

b）有大量编辑和相机视角切换的视频;

c）包含合成创作的非现实视频。

同时，为了提高与真实世界分布的一致性，团队挑选了有助于数据集内场景多样化的视频。

比如涉及多个对象（如乐器、人、车辆等）之间交互的视频。

让AI更懂物理世界，人大北邮上海AI Lab等提出多模态分割新方法-第3张-数码科技-河北元硕人力资源服务有限公司

另外，表达式（Expression）的多样性是Ref-AVS数据集构建的核心要素之一。

除去本身固有的文本语义信息，表达式还由听觉、视觉和时间三个维度的信息组成。

听觉维度包含音量、节奏等特征，而视觉维度则包含物体的外观和空间等属性。

团队还利用时间线索来生成具有时序提示的引用，例如“先发出声音的（物体）”或“后出现的(物体)”。

通过整合听觉、视觉和时间信息，研究设计出丰富的表达式，不仅可以准确反映多模态场景，还可以满足用户对精确引用的特定需求。

让AI更懂物理世界，人大北邮上海AI Lab等提出多模态分割新方法-第4张-数码科技-河北元硕人力资源服务有限公司

而且，表达式的准确性也是一个核心关注点。

研究遵循三个规则来生成高质量的表达式:

1）唯一性:一个表达式所指代的对象必须是唯一的，不能同时指代多个对象。

2）必要性:可以使用复杂的表达式来指代对象，但句子中的每个形容词都应该缩小目标对象的范围，避免对所要指代的对象进行不必要和冗余的描述。

3）清晰度:某些表达模板涉及主观因素，例如“声音更大的__”。只有在情况足够清晰时才应使用此类表达，以避免产生歧义。

团队将每段10秒的视频分成十个相等的1秒片段，利用Grounding SAM来分割和标记关键帧，随后要求标注员手动检查和更正这些关键帧。

此过程使团队能够在关键帧内为多个目标对象生成掩码和标签。

一旦确定了关键帧的掩码，研究就会应用跟踪算法来跟踪目标对象，并在10s的跨度内获得目标对象的最终掩码标签（Ground Truth Mask）。

到了数据分割与统计，测试集中的视频及其对应的注释会经过训练过的标注人员的细致审查和校正。

为了全面评估模型在Ref-AVS任务中的表现，测试集进一步被划分为三个不同的子集。

让AI更懂物理世界，人大北邮上海AI Lab等提出多模态分割新方法-第5张-数码科技-河北元硕人力资源服务有限公司

具体而言，三个测试子集包括:

完成了数据集准备后，团队利用多模态线索来增强表达式指代能力（Expression Enhancing with Multimodal Cues， EEMC），以实现更好的视听指代分割。

让AI更懂物理世界，人大北邮上海AI Lab等提出多模态分割新方法-第6张-数码科技-河北元硕人力资源服务有限公司

具体而言，在时序双模态融合（Temporal Bi-Modal Transformer）模块中，团队将包含时序信息的视听模态信息(F_V， F_A）分别与文本信息F_T进行融合。

注意，为了让模型更好的感知时序信息，研究提出了一种直观的Cached memory机制（C_V，C_A）。

Cached memory需要存储从开始到当前时刻的时序平均模态特征，以捕捉时序变化中多模态信息的变化幅度。多模态特征（Q_V， Q_A）计算方式如下:

让AI更懂物理世界，人大北邮上海AI Lab等提出多模态分割新方法-第7张-数码科技-河北元硕人力资源服务有限公司

其中，

免责声明：本文章由会员“极目新闻”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系