0%

Background-Click Supervision for Temporal Action Localization

Background-Click Supervision for Temporal Action Localization

论文简介

BackTAL 是 2021 年发表在 IEEE 上一篇关于弱监督时序定位的文章。论文的作者如下:

image-20220429192856464

论文地址:https://github.com/VividLe/BackTAL

B 站观看网站:https://www.bilibili.com/video/BV1oL4y1T7eL/

论文动机

目前弱监督时间动作定位遵循着一个潜在的假设,视频片段能够为 video-level 级别分类提供更多证据,尤其是动作,为 video-level 分类贡献更多。但是,有论文指出当背景片段与 video-level 更相关时,在此假设下开发的算法会陷入动作 - 上下文混淆困境。

image-20220429193155150

论文还分析了一下

1. 定位错误的原因,主要的错误来自背景的误差。

2. 给定特定的 CAS,top-k 帧中大部分为动作

image-20220429193303489

论文框架

模型总体框架如下,框架重要的部分分别为 Affinity Module 和 Score Separation Module

image-20220429193353467

BackTAL 使用三个时间卷积层来处理视频特征序列。输入视频特征 X,获得类激活序列 SR(C+1)×T,接着使用 top-k 均值的方法获得视频级分类得分 svc

image-20220429194200422

因为有背景 click-level 的信息,所以拥有帧级别的监督信息,可以对带注释的背景帧进行监督分类,以提高类激活序列 S 的质量。

考虑背景标签 bt=1 的帧,这个帧的分类分数 S[:,t]R(C+1)×1, 使用 softmax 得到 S^t=[s^t0,s^t1,,s^tc]

image-20220429194825636

Score Separation Module

在使用 top-k 均值方法中,训练后期的模型总是趋向于选择相似的 top-k 的位置。并且对于动作和背景混淆的部分,分数也会偏高,不能很好的将背景和前景进行分离。像下图图 b 中红色箭头和黄色箭头所展示的。

image-20220429194858571

给定一个包含 cth 类别动作的视频,将 top-k 分数作为潜在动作,并计算平均分数

image-20220429203658216

image-20220509163603985

同样的,对于该视频中 N_frame 注释的背景帧,计算平均分数

image-20220429203725159

image-20220429203737728

image-20220429204251346

Affinity Module

Affinity Module 主要基于带注释的背景帧和潜在的动作帧,充分挖掘其中的特征信息。在 Affinity Module 考虑到特定的一帧,可以度量它和相邻帧的亲和度,得到一帧特定的注意力权重,形成局部注意力掩码,并将其注入到卷积计算过程中。特定帧的关注权值可以引导卷积过程动态关注相关的邻居,从而产生更精确的响应。

image-20220429204310948

在 affinity 模块中,首先学习了一个嵌入空间,以从背景中区分与类无关的动作。$E=[e1,e_2,…,e_T]e_t∈R^{D{emb}}e_t$ 都经过 L2 正则对于任意两个嵌入向量,可以计算两个向量的相似度

image-20220429204322516

基于标注的背景帧和潜在的动作帧,可以计算两个背景帧之间、两个动作帧之间、动作和背景之间三个项的亲和力损失

image-20220429204415269

image-20220429204428626

image-20220429204436799

image-20220429204445755

度量一帧与它的局部邻居之间的余弦相似度,嵌入向量可以区分动作帧和背景帧。

image-20220429204546840

考虑一个视频特征 $X\in\mathbb R^{D{in}\times T}使H∈R^{h×D{in}×D_{out}}$ 进行处理

image-20220429205955081

给定一个视频,我们计算每个时间位置的局部相似度,得到亲和力矩阵 aRh×T

image-20220429210028440

image-20220429210037452

total loss

image-20220429210124173

总结

论文对于 click-level,将之前关注于 action-click 聚集到了 backgroud-click 上,并提出了弱监督时间动作定位的 BackTAL 方法。并且提出了自己的挖掘位置信息和特征信息的方法,很好的缓解了动作边界混淆的问题。

Gitalk 加载中 ...