全球訊息:YOLOv8來啦 | 詳細解讀YOLOv8的改進模塊!YOLOv5官方出品YOLOv8,必卷!
這里粗略回顧一下,這里直接提供YOLOv5的整理的結構圖吧:
Backbone:CSPDarkNet結構,主要結構思想的體現在C3模塊,這里也是梯度分流的主要思想所在的地方;PAN-FPN:雙流的FPN,必須香,也必須快,但是量化還是有些需要圖優化才可以達到最優的性能,比如cat前后的scale優化等等,這里除了上采樣、CBS卷積模塊,最為主要的還有C3模塊(記住這個C3模塊哦);Head:Coupled Head+Anchor-base,毫無疑問,YOLOv3、YOLOv4、YOLOv5、YOLOv7都是Anchor-Base的,后面會變嗎?Loss:分類用BEC Loss,回歸用CIoU Loss。話不多說,直接YOLOv8吧!直接上YOLOv8的結構圖吧,小伙伴們可以直接和YOLOv5進行對比,看看能找到或者猜到有什么不同的地方?
【資料圖】
下面就直接揭曉答案吧,具體改進如下:
Backbone:使用的依舊是CSP的思想,不過YOLOv5中的C3模塊被替換成了C2f模塊,實現了進一步的輕量化,同時YOLOv8依舊使用了YOLOv5等架構中使用的SPPF模塊;PAN-FPN:毫無疑問YOLOv8依舊使用了PAN的思想,不過通過對比YOLOv5與YOLOv8的結構圖可以看到,YOLOv8將YOLOv5中PAN-FPN上采樣階段中的卷積結構刪除了,同時也將C3模塊替換為了C2f模塊;Decoupled-Head:是不是嗅到了不一樣的味道?是的,YOLOv8走向了Decoupled-Head;Anchor-Free:YOLOv8拋棄了以往的Anchor-Base,使用了Anchor-Free的思想;損失函數:YOLOv8使用VFL Loss作為分類損失,使用DFL Loss+CIOU Loss作為分類損失;樣本匹配:YOLOv8拋棄了以往的IOU匹配或者單邊比例的分配方式,而是使用了Task-Aligned Assigner匹配方式。1、C2f模塊是什么?與C3有什么區別?我們不著急,先看一下C3模塊的結構圖,然后再對比與C2f的具體的區別。針對C3模塊,其主要是借助CSPNet提取分流的思想,同時結合殘差結構的思想,設計了所謂的C3 Block,這里的CSP主分支梯度模塊為BottleNeck模塊,也就是所謂的殘差模塊。同時堆疊的個數由參數n來進行控制,也就是說不同規模的模型,n的值是有變化的。
其實這里的梯度流主分支,可以是任何之前你學習過的模塊,比如,美團提出的YOLOv6中就是用來重參模塊RepVGGBlock來替換BottleNeck Block來作為主要的梯度流分支,而百度提出的PP-YOLOE則是使用了RepResNet-Block來替換BottleNeck Block來作為主要的梯度流分支。而YOLOv7則是使用了ELAN Block來替換BottleNeck Block來作為主要的梯度流分支。
C3模塊的Pytorch的實現如下:
classC3(nn.Module):#CSPBottleneckwith3convolutionsdef__init__(self,c1,c2,n=1,shortcut=True,g=1,e=0.5):#ch_in,ch_out,number,shortcut,groups,expansionsuper().__init__()c_=int(c2*e)#hiddenchannelsself.cv1=Conv(c1,c_,1,1)self.cv2=Conv(c1,c_,1,1)self.cv3=Conv(2*c_,c2,1)#optionalact=FReLU(c2)self.m=nn.Sequential(*(Bottleneck(c_,c_,shortcut,g,e=1.0)for_inrange(n)))defforward(self,x):returnself.cv3(torch.cat((self.m(self.cv1(x)),self.cv2(x)),1))
下面就簡單說一下C2f模塊,通過C3模塊的代碼以及結構圖可以看到,C3模塊和名字思路一致,在模塊中使用了3個卷積模塊(Conv+BN+SiLU),以及n個BottleNeck。
通過C3代碼可以看出,對于cv1卷積和cv2卷積的通道數是一致的,而cv3的輸入通道數是前者的2倍,因為cv3的輸入是由主梯度流分支(BottleNeck分支)依舊次梯度流分支(CBS,cv2分支)cat得到的,因此是2倍的通道數,而輸出則是一樣的。
不妨我們再看一下YOLOv7中的模塊:
YOLOv7通過并行更多的梯度流分支,放ELAN模塊可以獲得更豐富的梯度信息,進而或者更高的精度和更合理的延遲。
C2f模塊的結構圖如下:
我們可以很容易的看出,C2f模塊就是參考了C3模塊以及ELAN的思想進行的設計,讓YOLOv8可以在保證輕量化的同時獲得更加豐富的梯度流信息。
C2f模塊對應的Pytorch實現如下:
classC2f(nn.Module):#CSPBottleneckwith2convolutionsdef__init__(self,c1,c2,n=1,shortcut=False,g=1,e=0.5):#ch_in,ch_out,number,shortcut,groups,expansionsuper().__init__()self.c=int(c2*e)#hiddenchannelsself.cv1=Conv(c1,2*self.c,1,1)self.cv2=Conv((2+n)*self.c,c2,1)#optionalact=FReLU(c2)self.m=nn.ModuleList(Bottleneck(self.c,self.c,shortcut,g,k=((3,3),(3,3)),e=1.0)for_inrange(n))defforward(self,x):y=list(self.cv1(x).split((self.c,self.c),1))y.extend(m(y[-1])forminself.m)returnself.cv2(torch.cat(y,1))SPPF改進了什么?
這里講解的文章就很多了,這里也就不具體描述了,直接給出對比圖了
上圖中,左邊是SPP,右邊是SPPF。
PAN-FPN改進了什么?我們先看一下YOLOv5以及YOLOv6的PAN-FPN部分的結構圖:
YOLOv5的Neck部分的結構圖如下:
YOLOv6的Neck部分的結構圖如下:
我們再看YOLOv8的結構圖:
可以看到,相對于YOLOv5或者YOLOv6,YOLOv8將C3模塊以及RepBlock替換為了C2f,同時細心可以發現,相對于YOLOv5和YOLOv6,YOLOv8選擇將上采樣之前的1×1卷積去除了,將Backbone不同階段輸出的特征直接送入了上采樣操作。
Head部分都變了什么呢?先看一下YOLOv5本身的Head(Coupled-Head):
而YOLOv8則是使用了Decoupled-Head,同時由于使用了DFL 的思想,因此回歸頭的通道數也變成了4*reg_max的形式:
對比一下YOLOv5與YOLOv8的YAML損失函數對于YOLOv8,其分類損失為VFL Loss,其回歸損失為CIOU Loss+DFL的形式,這里Reg_max默認為16。
VFL主要改進是提出了非對稱的加權操作,FL和QFL都是對稱的。而非對稱加權的思想來源于論文PISA,該論文指出首先正負樣本有不平衡問題,即使在正樣本中也存在不等權問題,因為mAP的計算是主正樣本。
q是label,正樣本時候q為bbox和gt的IoU,負樣本時候q=0,當為正樣本時候其實沒有采用FL,而是普通的BCE,只不過多了一個自適應IoU加權,用于突出主樣本。而為負樣本時候就是標準的FL了??梢悦黠@發現VFL比QFL更加簡單,主要特點是正負樣本非對稱加權、突出正樣本為主樣本。
針對這里的DFL(Distribution Focal Loss),其主要是將框的位置建模成一個 general distribution,讓網絡快速的聚焦于和目標位置距離近的位置的分布。
DFL 能夠讓網絡更快地聚焦于目標 y 附近的值,增大它們的概率;
DFL的含義是以交叉熵的形式去優化與標簽y最接近的一左一右2個位置的概率,從而讓網絡更快的聚焦到目標位置的鄰近區域的分布;也就是說學出來的分布理論上是在真實浮點坐標的附近,并且以線性插值的模式得到距離左右整數坐標的權重。
樣本的匹配標簽分配是目標檢測非常重要的一環,在YOLOv5的早期版本中使用了MaxIOU作為標簽分配方法。然而,在實踐中發現直接使用邊長比也可以達到一阿姨你的效果。而YOLOv8則是拋棄了Anchor-Base方法使用Anchor-Free方法,找到了一個替代邊長比例的匹配方法,TaskAligned。
為與NMS搭配,訓練樣例的Anchor分配需要滿足以下兩個規則:
正常對齊的Anchor應當可以預測高分類得分,同時具有精確定位;不對齊的Anchor應當具有低分類得分,并在NMS階段被抑制?;谏鲜鰞蓚€目標,TaskAligned設計了一個新的Anchor alignment metric 來在Anchor level 衡量Task-Alignment的水平。并且,Alignment metric 被集成在了 sample 分配和 loss function里來動態的優化每個 Anchor 的預測。Anchor alignment metric:分類得分和 IoU表示了這兩個任務的預測效果,所以,TaskAligned使用分類得分和IoU的高階組合來衡量Task-Alignment的程度。使用下列的方式來對每個實例計算Anchor-level 的對齊程度:
s 和 u 分別為分類得分和 IoU 值,α 和 β 為權重超參。從上邊的公式可以看出來,t 可以同時控制分類得分和IoU 的優化來實現 Task-Alignment,可以引導網絡動態的關注于高質量的Anchor。
Training sample Assignment:為提升兩個任務的對齊性,TOOD聚焦于Task-Alignment Anchor,采用一種簡單的分配規則選擇訓練樣本:對每個實例,選擇m個具有最大t值的Anchor作為正樣本,選擇其余的Anchor作為負樣本。然后,通過損失函數(針對分類與定位的對齊而設計的損失函數)進行訓練。
參考[1].https://github.com/uyolo1314/ultralytics.[2].https://github.com/meituan/YOLOv6.[3].https://arxiv.org/abs/2209.02976.[4].https://github.com/PaddlePaddle/PaddleDetection.[5].https://github.com/PaddlePaddle/PaddleYOLO.[6].https://github.com/open-mmlab/mmyolo.
推薦閱讀書童改進 | YOLOv5之架構改進、樣本匹配升級、量化部署、剪枝、自蒸餾以及異構蒸餾
目標檢測模型設計準則 | YOLOv7參考的ELAN模型解讀,YOLO系列模型思想的設計源頭
目標檢測Trick | SEA方法輕松抹平One-Stage與Two-Stage目標檢測之間的差距
掃描上方二維碼可聯系小書童加入交流群~
想要了解更多前沿AI視覺感知全棧知識【分類、檢測、分割、關鍵點、車道線檢測、3D視覺(分割、檢測)、多模態、目標跟蹤、NerF】、行業技術方案【AI安防、AI醫療、AI自動駕駛】、AI模型部署落地實戰【CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平線框架等】,歡迎掃描下方二維碼,加入集智書童知識星球,日常分享論文、學習筆記、問題解決方案、部署方案以及全棧式答疑,期待交流!
相關閱讀
-
全球訊息:YOLOv8來啦 | 詳細解讀YOLO...
點擊下方名片關注【集智書童】,后臺回復【YOLOv8】獲取YOLOv8源碼... -
世界看熱訊:低代碼平臺組件間通信方案復盤
背景介紹3年前我開發了一款零代碼搭建平臺H5-Dooring,主要目的是想... -
從零實現Dooring低代碼印章組件|世界熱議
上一篇文章和大家分享了低代碼平臺組件間通信方案的幾種實現:低代碼... -
工作流引擎架構設計-當前快播
最近開發的安全管理平臺新增了很多工單申請流程需求,比如加白申請... -
HelloGitHub 最受歡迎的開源項目 Top10(2022年)
再見2022,你好2023!HelloGitHub也隨著2023年的到來,更新到了第81... -
英偉達發布RTX 40系列筆記本電腦GPU 2...
北京時間1月4日凌晨,英偉達在CES?2023舉行新品發布會,RTX?40系...