End-to-End Object Detection with Transformers

提出问题

目标检测的目标是预测一个bbox的集合和各个bbox的标签。目前的检测器不是直接预测一个目标的集合，而是使用替代的回归和分类去处理大量的propoasls、anchors或者window centers。模型的效果会受到一系列问题的影响：后处理去消除大量重叠的预测、anchors的设计、怎么把target box与anchor关联起来。怎么能够简化这个流程，使得目标检测简单起来

做了什么

把目标检测看做是一种set prediction的问题，我们的方法也直接移除了一些人工设计的组件，例如NMS和anchor的生成。使用transformer来完成这一任务，在coco数据集上有着可以和faster-rcnn媲美的准确率与效率。

怎么做

集合预测

集合预测是指网络直接输出最终的预测集合（这个集合不需要做任何后处理），这个集合包括预测框的位置和类别，所以能够直接得到预测的集合就可以达到目标检测的目的。

比如：在Detr中，transformer的后面的输出就是最终预测的结果，固定为100个预测结果也就说网络输出就是$ 100\times 4$和$100\times (C+1)$的两个tensor，分别对应框的预测和类别的预测，C表示总共的类别数,+1是背景类。

DETR 模型

目标检测中使用直接集合预测最关键的两个点是：

1）保证真实值与预测值之间唯一匹配的集合预测损失。

2）一个可以预测（一次性）目标集合和对他们关系建模的架构。

目标检测集合预测损失

DETR输出固定大小为N的预测，只需要执行一次解码器，N比常规图片中待检测目标大得多。训练中最难的地方就是根据真实值评价预测目标(类别、位置、大小)。我们的损失构造了一个最优的二分匹配而且接着优化目标向（bounding box）的损失。

用$y$表示真实值，$\widehat{y}=\lbrace \widehat{y}i\rbrace{i=1}^N$指示N个预测值。假设N远大于图像中的目标，我们可以认为y的大小也是N，用$\phi$填充空元素。目标就是找到这两个集合的二分匹配，中的一种排列$\sigma$有着最低的损失：

匹配损失同时考虑到类别与真实值与预测值之间的相似度，使用的方法是匈牙利算法

真实值每个元素都可以看作$y_i=(c_i,b_i)$，其中$c_i$是目标类别（可能是$\phi$），而$b_i \in [0,1]^4$可以理解为b是值域在[0，1]的四维向量，bbox的中心坐标与宽高。

对于$\sigma(i)$的预测，我们定义类别$ci$的概率为$\widehat{p}{\sigma(i)}(ci)$预测框为$\widehat{b}{\sigma(i)}$。我们定义$L{match}(y_i,\widehat{y}{\sigma(i)})$为

第二步就是计算损失函数，之前的步骤就是使用匈牙利算法计算所有的匹配。我们定义的loss与常见的检测模型很相似，就是负对数似然与box损失的线性组合。

边界框损失

上面提到了$L{box}(b_i,\widehat{b}{\sigma(i)})$,$L{box}(b_i,\widehat{b}{\sigma(i)})$我们定义如下

我们直接预测box在图像中的位置，直接使用L1loss的话，对小目标就不公平，因此我们使用了L1 loss 与IOU loss的组合，让loss对目标的大小不敏感。

骨架

开始输入原始图片大小为$x_{img} \in \mathbb R^{3\times H_0 \times W_0}$（三通道），使用CNN进行特征提取，最终得到特征图$f\in \mathbb R^{C\times H\times W}$，其中$C=2048$ 和$H,W=\frac{H_0}{32},\frac{W_0}{32}$

Transfomer encoder

首先使用$1\times1$的卷积将原来的$C=2048$降维到$d$维，得到$z_0\in \mathbb R^{d\times H\times W}$的特征图，因为编码器需要一个序列作为输入因此我们将$z_0$压缩到一维，得到$d\times HW$的特征映射。每个encoder层由multi-head self-attention模块和FFN组成。由于transformer对排列顺序不敏感，所以我们加入了位置的编码，并添加到所有attention层的输入。

Transfomer decoder

与常规transformer的区别就是，本文可以并行的解码，而之前的transformer都是自回归的依次解码。由于decoder也是对排列顺序不敏感，这N个嵌入必须不一样，才能预测不同的结果。这些输入的嵌入是学到的位置编码，我们称之为object queries，类似于encoder，我们把它们加到每个decoder的输入。由于用了transformer，我们可以学习全局的信息。

Prediction feed-forward networks(FFNs)（预测前馈网络）

由三层的感知器计算，使用relu，隐层的size为d，线性的映射层。使用softmax输出类别概率。

总结

参考：