Learning Temporal Co-Attention Models for Unsupervised Video Action Localization
提出问题
未修剪视频中的时间动作定位(Temporal action localization,TAL) 最近获得了巨大的研究热情,但是TAL目前并没有无监督的的方法出现,所以本论文提出了第一种无监督的TAL方法。
做了什么
为了解决动作定位,两步进行 “聚类+定位”迭代过程。
聚类步骤为定位步骤提供了noisy的伪标记,而定位步骤提供了时间共关注模型,从而提高了聚类性能,这两个过程相辅相成。
在弱监督下 TAL可被视为我们ACL的直接扩展模型。
从技术上讲,我们的贡献有两个方面:
从视频级标签或伪标签中学习的时间共同注意模型,无论是针对特定类别还是不可知类别的 以反复强化的方式;
为ACL设计了新的loss,包括
action-background separation loss和cluster-based triplet loss。
最终的成绩:
针对20种动作THUMOS14和100种 行动ActivityNet-1.2。 在两个基准上,建议 ACL的模型具有强大的性能,甚至可以与最新的弱监督方法相比。 例如,以前最好的弱监督 在THUMOS14上的mAP@0.5下,模型达到了26.8%, 我们的新记录分别为30.1%(弱监督)和25.0% (无监督)。