RefineLoc Iterative Refinement for Weakly-Supervised Action Localization
提出问题
在目标检测领域,使用 pseudo ground truth(类似于伪标签)进行细化大大减少了完全监督和弱监督对象检测之间的性能差距,因为时间动作定位很多内容是从目标检测当中引用过来的,那么是否能把使用 pseudo ground truth 这个方法引用到时间动作定位当中呢。
pseudo ground truth 的概念是指来自弱监督模型的一组采样对象预测,在下一次细化迭代中将其假定为实际对象位置。
做了什么
提出 RefineLoc 模型,一种弱监督的时间定位方法,它通过利用 pseudo ground truth 实况来评估迭代细化策略
怎么做的
Snippet-Level Classification Module
这个模块接受特征图 F,然后产生 T×N 的类别激活图 C(类激活序列的概念,在时间动作定位当中很常见,自行进行了解)
它由一个多层感知器 (MLP) 组成,其中 L 个全连接 (FC) 层与 ReLU 激活函数交错
Background-Foreground Attention Module
该模块的目标是学习每个片段的注意力权重,从而达到抑制背景的作用。
这个模块接受特征图 F,然后产生 T×2 的类别激活图 A(因为是背景,所以维度是
它由一个多层感知器 (MLP) 组成,其中 L 个全连接 (FC) 层与 ReLU 激活函数交错
别人的注意力模块仅受视频级别标签的监督,以改善视频分类,而本论文的注意力则由视频级标签和一组伪背景 - 前景标签,目的是提高动作片段的定位我们选择这样做是因为我们的方法直接对注意力值使用监督。因此,论文不是通过逻辑回归损失来学习注意力,而是将其作为二元分类问题来学习。我们将通过逻辑回归学习标量注意力与我们在补充材料中提出的二维注意力进行比较
Video Label Prediction Module
该模块结合 C 和 A 为视频标签生成 N 维概率向量
具体来说,我们将 C 通过一个 softmax 层以获得
别人的注意力模块仅受视频级别标签的监督,以改善视频分类,而我们的注意力则由视频级标签和一组伪背景 - 前景标签,目的是提高动作片段的定位
我们选择这样做是因为我们的方法直接对注意力值使用监督。因此,我们不是通过逻辑回归损失来学习注意力,而是将其作为二元分类问题来学习。我们将通过逻辑回归学习标量注意力与我们在补充材料中提出的二维注意力进行比较 i = 1 指的是背景,而 i = 2 指的是前景
Action Segment Prediction Module.
该模块后处理
首先,我们过滤掉背景注意力值大于阈值
对于片段
Iterative Refinement Process
让 $g^(Mη )
未找到相关的 Issues 进行评论
请联系 @bugcat9 初始化创建