Background-Click Supervision for Temporal Action Localization

论文简介

BackTAL是2021年发表在IEEE上一篇关于弱监督时序定位的文章。论文的作者如下：

B站观看网站：https://www.bilibili.com/video/BV1oL4y1T7eL/

论文动机

目前弱监督时间动作定位遵循着一个潜在的假设，视频片段能够为video-level级别分类提供更多证据，尤其是动作，为video-level分类贡献更多。但是，有论文指出当背景片段与video-level更相关时，在此假设下开发的算法会陷入动作-上下文混淆困境。

论文还分析了一下

1.定位错误的原因，主要的错误来自背景的误差。

2.给定特定的CAS，top-k帧中大部分为动作

论文框架

模型总体框架如下，框架重要的部分分别为Affinity Module和Score Separation Module

BackTAL使用三个时间卷积层来处理视频特征序列。输入视频特征$X$，获得类激活序列$S\in \mathbb R^{(C+1)\times T}$，接着使用top-k均值的方法获得视频级分类得分$s_v^c$

因为有背景click-level的信息，所以拥有帧级别的监督信息，可以对带注释的背景帧进行监督分类，以提高类激活序列S的质量。

考虑背景标签$b_t=1$的帧，这个帧的分类分数$S[:,t]∈R^{(C+1)×1}$,使用softmax得到$\hat{S}_t=[\hat{s}_t^0,\hat{s}_t^1,…,\hat{s}_t^c]$

Score Separation Module

在使用top-k均值方法中，训练后期的模型总是趋向于选择相似的top-k的位置。并且对于动作和背景混淆的部分，分数也会偏高，不能很好的将背景和前景进行分离。像下图图b中红色箭头和黄色箭头所展示的。

给定一个包含$c^{th}$ 类别动作的视频，将top-k分数作为潜在动作，并计算平均分数

同样的，对于该视频中N_frame 注释的背景帧，计算平均分数

Affinity Module

Affinity Module主要基于带注释的背景帧和潜在的动作帧，充分挖掘其中的特征信息。在Affinity Module考虑到特定的一帧，可以度量它和相邻帧的亲和度，得到一帧特定的注意力权重，形成局部注意力掩码，并将其注入到卷积计算过程中。特定帧的关注权值可以引导卷积过程动态关注相关的邻居，从而产生更精确的响应。