0%

Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization

文章简介

文章发表在CVPR2022上,在这篇文章中,作者发现目前弱监督动作定位(WSAL)的任务,主要采用按分类定位的范式,这种范式忽略了视频序列之间富有成效的细粒度时间差异,在分类学习和分类到定位的适应中存在严重的歧义。为此作者提出细粒度序列距离(FSD)对比最长公共子序列(LCS)对比,缓解分类和定位之间的任务差距。

image-20220728221208824

阅读全文 »

Two-Stream Consensus Network for Weakly-Supervised Temporal

文章简介

文章发表在ECCV2020上,文章提出了一个双流共识网络(TSCN),采用迭代细化训练方法,迭代更新帧级的伪真实值,并用于提供帧级监督,以改进模型训练和消除假积极动作建议。此外,文章提出了一种新的注意归一化损失,以鼓励预测的注意充当二进制选择,并促进动作实例边界的精确定位。

image-20220719122157159

阅读全文 »

select小例子

编写了一个客户端发字母过来,然后服务器把字母转成大写发送回去的例子,其中使用了select。

阅读全文 »

python舞蹈链数独游戏

数独简介

数独游戏是一款古老的智力游戏,据说最早可以追溯到中国古代的“河图洛书”,但是真实可查的是在18世纪数学家欧拉等人发明了“拉丁方阵”等成为数独的最早的样子,后来经过日本的改进逐渐成为现代的数独游戏[1]。

数独游戏一共有$9 \times 9$个单元格子,在数独游戏当中,玩家需要根据已有的数字去推理出所有的剩余空格的数字,并且要保证 $9 \times 9$的单位格子中每一行、每一列以及每个$3 \times 3$的九宫格内的数字不重复。数独游戏在开始的适合叫做初盘(如图1(a)所展示),包含数字和空格,当游戏成功完成时的状态叫终盘(图1(b)所展示),只有填写完成的数字。

图1

阅读全文 »

Weakly-supervised Temporal Action Localization by Uncertainty Modeling

提出问题

现有的Weakly-supervised Temporal Action Localization处理背景的方法存在很多问题,要不将静态帧合并合成伪背景视频,但忽略了动态背景帧,要不将背景框架划分为一个单独的类别。然而,强制所有的背景帧属于一个特定的类(背景类别其实也是不同的,因为它们不共享任何共同的语义)。

image-20211202113108293

如图a中背景其实是非常动态的(理解为摄像机在动,其中的人也是在动的),图b中展现出来的一个视频中的背景是不相同的。

阅读全文 »

CvT:Introducing Convolutions to Vision Transformers

论文简介

CvT是发表在ICCV上的一篇文章,主要团队是来自麦吉尔大学, 微软云+AI。论文的主要工作是将卷积CNN模型引入Transformer模型中来产生两种设计的最佳效果,从而提高了视觉Transformer(ViT)的性能和效率

下面图展示的是团队成员:

image-20211121210127584

阅读全文 »

OadTR: Online Action Detection with Transformers

解决什么问题

该论文是解决的问题是在线动作检测。

在线动作检测的任务是在实时视频流当中,当事件发生时,检测事件开始的帧,以及事件的类型。

image-20211024213242335

阅读全文 »

Self-Supervised Learning for Semi-Supervised Temporal Action Proposal

论文使用自监督的方法来改造半监督行为建议区域生成。

作者专门设计了一个Self-supervised Semi-supervised Temporal Action Proposal (SSTAP) 网络结构,后面简称SSTAP。SSTAP包含两个分支temporal-aware semi-supervised branch 和relation-aware self-supervised branch,简单理解就是一个半监督分支和一个自监督分支。半监督分支是加入特征偏移和特征翻转在the mean teacher frame-work上,自监督分支则是定义了两个任务masked feature reconstruction 和 clip-order prediction

阅读全文 »

End-to-End Object Detection with Transformers

提出问题

目标检测的目标是预测一个bbox的集合和各个bbox的标签。目前的检测器不是直接预测一个目标的集合,而是使用替代的回归和分类去处理大量的propoasls、anchors或者window centers。模型的效果会受到一系列问题的影响:后处理去消除大量重叠的预测、anchors的设计、怎么把target box与anchor关联起来。怎么能够简化这个流程,使得目标检测简单起来

做了什么

把目标检测看做是一种set prediction的问题,我们的方法也直接移除了一些人工设计的组件,例如NMS和anchor的生成。使用transformer来完成这一任务,在coco数据集上有着可以和faster-rcnn媲美的准确率与效率。

阅读全文 »