Background-Click Supervision for Temporal Action Localization
论文简介
BackTAL 是 2021 年发表在 IEEE 上一篇关于弱监督时序定位的文章。论文的作者如下:
论文地址:https://github.com/VividLe/BackTAL
B 站观看网站:https://www.bilibili.com/video/BV1oL4y1T7eL/
论文动机
目前弱监督时间动作定位遵循着一个潜在的假设,视频片段能够为 video-level 级别分类提供更多证据,尤其是动作,为 video-level 分类贡献更多。但是,有论文指出当背景片段与 video-level 更相关时,在此假设下开发的算法会陷入动作 - 上下文混淆困境。
论文还分析了一下
1. 定位错误的原因,主要的错误来自背景的误差。
2. 给定特定的 CAS,top-k 帧中大部分为动作
论文框架
模型总体框架如下,框架重要的部分分别为 Affinity Module 和 Score Separation Module
BackTAL 使用三个时间卷积层来处理视频特征序列。输入视频特征
因为有背景 click-level 的信息,所以拥有帧级别的监督信息,可以对带注释的背景帧进行监督分类,以提高类激活序列 S 的质量。
考虑背景标签
Score Separation Module
在使用 top-k 均值方法中,训练后期的模型总是趋向于选择相似的 top-k 的位置。并且对于动作和背景混淆的部分,分数也会偏高,不能很好的将背景和前景进行分离。像下图图 b 中红色箭头和黄色箭头所展示的。
给定一个包含
同样的,对于该视频中 N_frame 注释的背景帧,计算平均分数
Affinity Module
Affinity Module 主要基于带注释的背景帧和潜在的动作帧,充分挖掘其中的特征信息。在 Affinity Module 考虑到特定的一帧,可以度量它和相邻帧的亲和度,得到一帧特定的注意力权重,形成局部注意力掩码,并将其注入到卷积计算过程中。特定帧的关注权值可以引导卷积过程动态关注相关的邻居,从而产生更精确的响应。
在 affinity 模块中,首先学习了一个嵌入空间,以从背景中区分与类无关的动作。$E=[e1,e_2,…,e_T]
基于标注的背景帧和潜在的动作帧,可以计算两个背景帧之间、两个动作帧之间、动作和背景之间三个项的亲和力损失
度量一帧与它的局部邻居之间的余弦相似度,嵌入向量可以区分动作帧和背景帧。
考虑一个视频特征 $X\in\mathbb R^{D{in}\times T}
给定一个视频,我们计算每个时间位置的局部相似度,得到亲和力矩阵
total loss
总结
论文对于 click-level,将之前关注于 action-click 聚集到了 backgroud-click 上,并提出了弱监督时间动作定位的 BackTAL 方法。并且提出了自己的挖掘位置信息和特征信息的方法,很好的缓解了动作边界混淆的问题。
Gitalk 加载中 ...