[toc]
A Survey on Temporal Action Localization
摘要:在计算机视觉中,时间动作定位是视频理解中最关键也是最具挑战性的问题之一。由于其广泛的应用,近年来引起了广泛的关注日常生活应用。时间动作定位技术已经取得了很大的进展,特别是最近深度学习的发展。而且在未裁剪的情况下,现在需要更多的时间动作定位视频。在这篇论文中,我们的目标是调查最新的技术和模型的视频时间行动定位。主要包括相关技术、一些基准数据集和评价时间动作定位的度量。此外,我们从两个方面总结了时间动作定位各方面:全监督学习和弱监督学习。并列举了几部具有代表性的作品并比较他们各自的表现。最后,对其进行了深入分析,并提出了发展前景研究方向,并总结调查。
关键词:动作检测,计算机视觉,全监督学习,时间动作定位,弱监督学习。
1.引言
随着视频数量急剧的增长,视频理解成为了计算机视觉领域的一个热点问题和具有挑战性的方向。这个视频理解发个信包括许多子研究方向,包括在夏威夷,被CVPR举办的ActivityNet 挑战2017,这个网络一共提出了5个任务。
- 未裁剪的视频分类(Untrimmed Video Classification )
- 裁剪后的行动识别( Trimmed Action Recognition)
- 时间动作检测( Temporal Action Proposals)
- 时间动作定位(Temporal Action Localization)
- 视频中密集的字幕事件(Dense-Captioning Events in Videos)
在最近的调查中,我们关注的是时间动作定位,也就是上面列出的第四个。它需要检测包含目标动作的时间间隔。对于长时间的未裁剪的视频,时间动作定位主要解决两个任务,识别和定位。特别是,a)动作发生的起始时间和终止时间,b)每个提案的类别是什么属于(如挥手、爬山、扣篮)。当然,一个视频可能包含一个或多个行动剪辑(action clips),所以时间动作定位是要开发模型和技术来提供计算机视觉应用所需要的最基本的信息:动作是什么,动作什么时候发生?我们将这个任务作为动作定位,或时间动作定位,或动作检测。
虽然动作识别和动作本地化都是视频理解里面很重要的任务,但是时间动作定位比动作识别更加具有挑战性。动作识别和动作定位的关系和图像检测类似于图像识别和图像检测。但是由于时间连续信息(temporal series information),时间动作定位比图像检测更见困难。困难主要来自以下几个方面:a)时间信息,由于1维时间连续信息,时间动作定位不能使用静态图片信息,它必须结合时间连续信息。b)与目标检测不同的是,边界对象通常是非常清晰的,所以我们可以为对象标记一个更清晰的边界框。然而,可能没有关于动作的确切时间范围合理定义,所以,不可能给一个动作开始和结束的准确边界。c)大的时间跨度,时间动作片段的跨度可以是非常大的,比如,挥手可能只几秒钟但是攀岩和骑自行车能够持续十几秒。它们时间跨度在长度上的不同,是的提取检测(extract proposals)很困难。另外,在开放的环境当中,这里也又许多问题,例如多尺度,多目标和相机移动。
时间动作定位非常贴近我们的生活,它具有广泛的应用前景和社会价值在视频概况(video summarization)、公共视频监控、技能评估和日常生活安全。所以它在最最近几年得到了广泛的关注。与“动作检测”有关的出版物总数约为324127份,近二十年来包括书籍、期刊、论文、会议论文、专利和一些科技成果。下面我们主要分析出版学术和回忆论文的趋势动作检测,如同图1所示
本调查旨在帮助对时态动作本地化感兴趣的初学者。它提供一个概括动作定位的方法和最新进展,本文余下部分组织如下。
- 第二节概述相关技术。
- 第三节介绍基本的时间动作定位数据集
- 第四节描述模型的性能评估指标
- 第五节从全监督和弱监督两方面,提供一个时间动作定位模型和方法的概述
- 第六节讨论现在的挑战和建议未来的方向
- 第七节总结本论文