Double-Head：檢測頭上再創新，提升精度（附原論文下載）

關注並星標

從此不迷路

計算機視覺研究院

公眾號ID

｜

ComputerVisionGzq

論文地址：

https：//arxiv。org/pdf/1904。06493。pdf

計算機視覺研究院專欄

作者：Edison_G

兩種頭

結構（即全連線頭

和卷積頭

）已廣泛用於基於 R-CNN 的檢測器中，用於分類和定位任務。

然而，人們對這兩

種頭

結構如何為這兩項任務工作缺乏瞭解。

一、背景

大多數兩階段目標檢測器共享一個用於分類和邊界框迴歸的頭。兩種不同的頭結構被廣泛使用。Faster RCNN在單級特徵圖（conv4）上使用卷積頭（conv5），而FPN在多級特徵圖上使用全連線頭（2-fc）。然而，關於兩個任務（目標分類和定位），兩個頭結構之間缺乏理解。

在今天分享中，研究者對全連線頭（fc-head）和卷積頭（conv-head）在兩個檢測任務上進行了徹底的比較，即目標分類和定位。我們發現這兩種不同的頭結構是互補的。fc-head更適合分類任務，因為它的分類分數與建議與其對應的真實框之間的交集（IoU）更相關。同時，conv-head提供了更準確的邊界框迴歸。

我們認為這是因為

fc-head對空間敏感

，候選的不同部分具有不同的引數，而conv-head的所有部分共享卷積核。為了驗證這一點，研究者檢查了兩個頭的輸出特徵圖，並確認fc-head在空間上更加敏感。因此，fc-head更好地區分完整目標和部分目標的能力，而convhead更健壯地迴歸整個物件（邊界

框迴歸）。

網路的backbone可以使用常用的網路，比如VGG、resnet，再加上FPN的結構，根據一個ROIPooling輸出7×7×256大小的feature map，一般的做法是將這個featuremap接上一個全連線分支，在全連線後面接上一個分支輸出預測的BoundingBox位置資訊，一個分支輸出對應位置的類別資訊。如上圖（a）所示。

在得到7×7×256大小的feature map後，接上幾個卷積操作，再接上一個全連線，再在後面接上一個分支輸出預測的BoundingBox位置資訊，一個分支輸出對應位置的類別資訊。如上圖（b）所示。

二、前言

兩種頭結構（即全連線頭和卷積頭）已廣泛用於基於 R-CNN 的檢測器中，用於分類和定位任務。然而，人們對這兩種頭結構如何為這兩項任務工作缺乏瞭解。為了解決這個問題，研究者進行了徹底的分析並發現了一個有趣的事實，即兩個頭結構對兩個任務有相反的偏好。具體來說，全連線頭（fc-head）更適合分類任務，而

卷積頭（conv-head）更適合定位任務。

此外，研究者檢查了兩個頭的輸出特徵圖，發現fc-head比conv-head具有更高的空間敏感性。因此，fc-head具有更強的區分完整目標和部分目標的能力，但對迴歸整個目標並不魯棒。基於這些發現，研究者提出了一種

Double-Head

方法，它

有一個專注於分類的全連線頭和一個用於邊界

框迴歸的卷積頭。

沒有花裡胡哨，新的方法在MS COCO資料集上分別從具有ResNet-50和ResNet-101骨幹網路的特徵金字塔網路（FPN）基線獲得+3。5和+2。8AP。

三、新框架詳細分析

Data Processing for Analysis：

為了進行公平的比較，研究者對預定義的候選而不RPN生成的候選對兩個頭進行分析，因為兩個檢測器具有不同的候選。預定義的候選包括圍繞不同大小的真實值框滑動視窗。對於每個真實物件，生成大約14，000個候選結果。這些候選與真實框之間的IoU（表示為

proposal IoUs

）逐漸從零（背景）變為一（真實框）。對於每個候選，兩個檢測器（fc-head和conv-head）生成分類分數和迴歸邊界框。此過程適用於驗證集中的所有目標。

研究者將預定義的候選及其相應的GT之間的IoU統一分成20個bins，並相應地對這些候選進行分組。對於每組，計算分類分數的均值和標準差以及迴歸框的IoU。上圖顯示了小型、中型和大型目標的結果。

Loss Function：

這裡的損失函式與平時的一個head的計算是類似的，只是多一個分支而已，損失函式如下所示，是doublehead的損失函式加上rpn的損失函式：

上式中，ωfc和ωconv分別是doublehead中全連線和卷積的loss權重，Lfc、Lconv和Lrpn分別是doublehead中fc-head，conv-head，rpn的loss函式。具體採用哪種損失函式，這裡同FPN，迴歸採用smooth-l1，分類採用cross entropy loss。到這裡基本就是doublehead的主要原理了，下面還有一些

擴充套件

。

擴充套件的doublehead結構：

我們發現上面的原始doublehead中的每個分支都是關注自己的任務，比如卷積只關注迴歸操作，全連線關注分類操作，而不同的head不只關注自己的任務對檢測器的效能還會有所提升。不只關注自己任務（Unfocused Task Supervision）的意思是，fc-head也會接受迴歸任務的監督資訊，conv-head則會接受分類任務的監督資訊。如下圖所示。

擴充套件doublehead中的損失函式：

在訓練過程中，fc-head不僅要受到本身擅長的分類資訊監督還要受到迴歸資訊的監督，同理conv-head也要受到兩個資訊的監督，先拿fc-head來說，損失函式如下所示：

conv-head，它的損失函式計算同fc-head：

擴充套件doublehead中的推斷：

看上面的結構圖可以看出，分類結果是兩個head融合的結果，而回歸還是隻採用卷積得到的結果。對於分類的融合方式如下式所示：

四、實驗結果

Evaluations of detectors with different head structures on COCO val2017

Single-Conv和Double-Conv的比較。

左：

分類分數的平均值和標準差。

右：

迴歸框和GT之間IoU的均值和標準差

。

Single-Conv的分類分數比Double-Conv高，而回歸結果是

可比。

Comparison between Single-FC and Double-FC

AP over balance weights λfc and λconv

視覺化

© THE END

轉載請聯絡本公眾號獲得授權

計算機視覺研究院學習群等你加入！

計算機視覺研究院主要涉及深度學習領域，主要致力於人臉檢測、人臉識別，多目標檢測、目標跟蹤、影象分割等研究方向。研究院接下來會不斷分享最新的論文演算法新框架，我們這次改革不同點就是，我們要著重”

計算機視覺研究院

深度學習

人臉檢測、人臉識別，多目標檢測、目標跟蹤、影象分割等

研究院

公眾號ID

｜

研究

“。之後我們會針對相應領域分享實踐過程，讓大家真正體會

友快網

Double-Head：檢測頭上再創新，提升精度（附原論文下載）

相關推薦

最近发表