国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

【目標檢測】Fast RCNN算法詳解

2019-11-08 03:24:30
字體:
來源:轉載
供稿:網友

原文:http://blog.csdn.net/shenxiaolu1984/article/details/51036677

Girshick, Ross. “Fast r-cnn.” PRoceedings of the IEEE International Conference on Computer Vision. 2015.

繼2014年的RCNN之后,Ross Girshick在15年推出Fast RCNN,構思精巧,流程更為緊湊,大幅提升了目標檢測的速度。在Github上提供了源碼

同樣使用最大規模的網絡,Fast RCNN和RCNN相比,訓練時間從84小時減少為9.5小時,測試時間從47秒減少為0.32秒。在PASCAL VOC 2007上的準確率相差無幾,約在66%-67%之間.

思想

基礎:RCNN

簡單來說,RCNN使用以下四步實現目標檢測: a. 在圖像中確定約1000-2000個候選框 b. 對于每個候選框內圖像塊,使用深度網絡提取特征 c. 對候選框中提取出的特征,使用分類器判別是否屬于一個特定類 d. 對于屬于某一特征的候選框,用回歸器進一步調整其位置 更多細節可以參看這篇博客。

改進:Fast RCNN

Fast RCNN方法解決了RCNN方法三個問題:

問題一:測試時速度慢 RCNN一張圖像內候選框之間大量重疊,提取特征操作冗余。 本文將整張圖像歸一化后直接送入深度網絡。在鄰接時,才加入候選框信息,在末尾的少數幾層處理每個候選框。

問題二:訓練時速度慢 原因同上。 在訓練時,本文先將一張圖像送入網絡,緊接著送入從這幅圖像上提取出的候選區域。這些候選區域的前幾層特征不需要再重復計算。

問題三:訓練所需空間大 RCNN中獨立的分類器和回歸器需要大量特征作為訓練樣本。 本文把類別判斷和位置精調統一用深度網絡實現,不再需要額外存儲。

以下按次序介紹三個問題對應的解決方法。

特征提取網絡

基本結構

圖像歸一化為224×224直接送入網絡。

前五階段是基礎的conv+relu+pooling形式,在第五階段結尾,輸入P個候選區域(圖像序號×1+幾何位置×4,序號用于訓練)?。 這里寫圖片描述

注:文中給出了大中小三種網絡,此處示出最大的一種。三種網絡基本結構相似,僅conv+relu層數有差別,或者增刪了norm層。

roi_pool層的測試(forward)

roi_pool層將每個候選區域均勻分成M×N塊,對每塊進行max pooling。將特征圖上大小不一的候選區域轉變為大小統一的數據,送入下一層。 這里寫圖片描述

roi_pool層的訓練(backward)

首先考慮普通max pooling層。設xi為輸出層的節點。

?L?xi={0?L?yjδ(i,j)=falseδ(i,j)=true

其中判決函數δ(i,j)不是最大值。

對于roi max pooling,一個輸入節點可能和多個輸出節點相連。設xi個輸出節點。 這里寫圖片描述

?L?xi=Σr,jδ(i,r,j)?L?yrj

判決函數δ(i,r,j)的梯度等于所有相關的后一層梯度之和。

網絡參數訓練

參數初始化

網絡除去末尾部分如下圖,在ImageNet上訓練1000類分類器。結果參數作為相應層的初始化參數。 這里寫圖片描述 其余參數隨機初始化。

分層數據

在調優訓練時,每一個mini-batch中首先加入N張完整圖片,而后加入從N張圖片中選取的R個候選框。這R個候選框可以復用N張圖片前5個階段的網絡特征。 實際選擇N=2, R=128。

訓練數據構成

N張完整圖片以50%概率水平翻轉。 R個候選框的構成方式如下:

類別 比例 方式
前景 25% 與某個真值重疊在[0.5,1]的候選框
背景 75% 與真值重疊的最大值在[0.1,0.5)的候選框

分類與位置調整

數據結構

第五階段的特征輸入到兩個并行的全連層中(稱為multi-task)。 這里寫圖片描述 cls_score層用于分類,輸出K+1維數組p,表示屬于K類和背景的概率。 bbox_prdict層用于調整候選區域位置,輸出4*K維數組t,表示分別屬于K類時,應該平移縮放的參數。

代價函數

loss_cls層評估分類代價。由真實分類u對應的概率決定:

Lcls=?logpu

loss_bbox評估檢測框定位代價。比較真實分類對應的預測參數tu的差別:

Lloc=Σ4i=1g(tui?vi) g為Smooth L1誤差,對outlier不敏感: g(x)={0.5x2|x|?0.5|x|<1otherwise

總代價為兩者加權和,如果分類為背景則不考慮定位代價:

L={Lcls+λLlocLclsu為前景u為背景

源碼中bbox_loss_weights用于標記每一個bbox是否屬于某一個類

全連接層提速

分類和位置調整都是通過全連接層(fc)實現的,設前一級數據為x。一次前向傳播(forward)即為:

y=Wx 計算復雜度為u×v。

將W進行SVD分解,并用前t個特征值近似:

W=UΣVT≈U(:,1:t)?Σ(1:t,1:t)?V(:,1:t)T

原來的前向傳播分解成兩步:

y=Wx=U?(Σ?VT)?x=U?z 計算復雜度變為u×t+v×t。 在實現時,相當于把一個全連接層拆分成兩個,中間以一個低維數據相連。 這里寫圖片描述

在github的源碼中,這部分似乎沒有實現。

實驗與結論

實驗過程不再詳述,只記錄結論 - 網絡末端同步訓練的分類和位置調整,提升準確度 - 使用多尺度的圖像金字塔,性能幾乎沒有提高 - 倍增訓練數據,能夠有2%-3%的準確度提升 - 網絡直接輸出各類概率(softmax),比SVM分類器性能略好 - 更多候選窗不能提升性能

同年作者團隊又推出了Faster RCNN,進一步把檢測速度提高到準實時,可以參看這篇博客。 關于RCNN, Fast RCNN, Faster RCNN這一系列目標檢測算法,可以進一步參考作者在15年ICCV上的講座Training R-CNNs of various velocities。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 麻城市| 望谟县| 庆城县| 金山区| 鲜城| 彭州市| 吐鲁番市| 招远市| 扎囊县| 竹溪县| 西林县| 兴和县| 博罗县| 西平县| 赤壁市| 元江| 达州市| 广昌县| 鲁山县| 孟连| 临漳县| 夹江县| 顺义区| 嘉兴市| 南开区| 旬邑县| 镇沅| 武定县| 西充县| 灵山县| 清远市| 株洲市| 香港 | 将乐县| 马鞍山市| 金坛市| 自治县| 鱼台县| 轮台县| 三明市| 丰城市|