YOLOv3
Yolov3
YOLOv2 ์ดํ ๋์จ ๋ ผ๋ฌธ์ ์ ์ฉํด Object Detection์ ์ฝ์ ๋ค์ ํด๊ฒฐํ๋ ค๋ ์คํ์ ํฉ๋๋ค.
์ ํ์ฑ์ ๋์ง๋ง ์ฌ์ ํ ๋น ๋ฆ ๋๋ค!
SSD๋ณด๋ค 3๋ฐฐ ๋น ๋ฅด์ง๋ง ์ ํ๋๋ ๋์ต๋๋ค.
RetinaNet๊ณผ ์ ํ๋๊ฐ ์ ์ฌํ์ง๋ง ๋น ๋ฆ ๋๋ค.
Bounding Box Prediction
YOLOv2๋ Anchor Box๋ก Dimension cluster๋ฅผ ์ฌ์ฉํด์ Bounding Box๋ฅผ ์์ธกํฉ๋๋ค.
๋ฅผ ์์ธกํ๊ณ ์ข์๋จ ๋ถํฐ ์์ํด ๋งํผ offset๋๊ณ bounding box์ width, height๊ฐ ์ธ ๊ฒฝ์ฐ ์ต์ข bounding box๋ ์ ๋๋ค.
L2 loss๋ฅผ ์ฌ์ฉํด ํ์ตํ๊ณ YOLOv3๋ ์ด ์์ ๋ค์ง์ด์ ๋ฐ๋ก ์ ๊ณ์ฐํ๋๋ก ํฉ๋๋ค. ์ฆ, ground truth๋ฅผ ๋ก ๋ง๋ ๋ค๋ ์๋ฏธ ์ ๋๋ค.
๋ง์ฝ bounding box๊ฐ ๋ค๋ฅธ box๋ณด๋ค ground truth์ ๋ง์ด ๊ฒน์น๋ ๊ฒฝ์ฐ IOU๋ 1์ด์ด์ผ ํฉ๋๋ค. ๋ง์ฝ IOU๊ฐ ์ ์ผ ์ข์ ๊ฒ์ด ์๋๋ฉด์ ์๊ณ๊ฐ ์ด์์ IOU๋ฅผ ๊ฐ์ง๋ค๋ฉด ์์ธก์ ๋ฌด์ํฉ๋๋ค. ๊ฐ ground truth์ 1๊ฐ์ bounding box๋ง ํ ๋นํฉ๋๋ค.
IOU ์๊ณ๊ฐ์ 0.5์ ๋๋ค.
bounding box๊ฐ ground truth์ ํฌํจ๋์ง ์๋ ๊ฒฝ์ฐ classification loss๋ ์๊ณ objectness loss๋ง ๊ฐ์ง๋๋ค.
Class Prediction
๊ฐ bounding box๋ multi-label classification์ ์ฌ์ฉํฉ๋๋ค.
multi-label classification์ softmax๊ฐ ์ข์ง ์๊ธฐ ๋๋ฌธ์ binary cross-entropy loss๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Predictions Across Scales
YOLOv3๋ ์๋ก ๋ค๋ฅธ ์ค์ผ์ผ์ ๊ฐ์ง๋ 3๊ฐ์ง box๋ฅผ ์์ธกํฉ๋๋ค.
feature pyramid networks์ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ํน์ง์ ์ถ์ถํฉ๋๋ค.
๋ช๊ฐ์ convolutional layer๊ฐ ์ถ๊ฐ๋๊ณ ์ถ๋ ฅ์ 3-d tensor ์ ๋๋ค.
N x N x [3 * (4(bounding box offsets) + 1(objectness) + 80(class))]์ด์ ์ 2๋ฒ์งธ layer์์ feature map์ 2๋ฐฐ Upsampling ํฉ๋๋ค.
์ด๊ธฐ๋ถํฐ feature map์ ๊ฐ์ ธ์ Upsampling๋ feature map๊ณผ concatํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ์๋ฏธ์๋ ์ ๋ณด(์ด์ layer)์ ์ธ๋ถํ ๋ ์ ๋ณด(์ด๊ธฐ layer)๋ฅผ ์ป์ ์ ์์ต๋๋ค.
๊ฒฐํฉ ๋ feature map์ ์ฒ๋ฆฌํ๊ธฐ ์ํด์ convolutional layer๋ฅผ ์ถ๊ฐํฉ๋๋ค.
์ต์ข scale์ box๋ฅผ ์์ธกํ๊ธฐ ์ํด์ ๊ฐ์ ๋์์ธ์ ํ๋ฒ๋ ์ํํฉ๋๋ค. ๋ฐ๋ผ์ 3๋ฒ์งธ scale์ ์์ธก์ ๋ชจ๋ ์ด์ layer์ ์ด๊ธฐ์ ์ธ๋ถํ๋๊ณ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ํ์ฉํฉ๋๋ค.
k-means๋ฅผ ํตํด anchor box๋ฅผ clusteringํ๊ณ 9๊ฐ์ cluster์ 3๊ฐ์ scale๋ฅผ ์์๋ก ์ ํํด cluster๋ฅผ ๊ท ๋ฑํ๊ฒ ๋๋๋๋ค.
COCO์ ๊ฒฝ์ฐ
(10 ร 13), (16 ร 30), (33 ร 23), (30 ร 61), (62 ร 45), (59 ร 119), (116 ร 90) , (156 ร 198), (373 ร 326)์ ๋๋ค.
Feature Extractor
ํน์ง ์ถ์ถ์ ์ํ DarkNet53์ ์ ์ํฉ๋๋ค.
DarkNet53์ ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ ๋น๊ตํฉ๋๋ค. ๋ฐ์ดํฐ์ ์ ImageNet์ ์ฌ์ฉํฉ๋๋ค.
Training
mining๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์์ต๋๋ค.
multi-scale training, data augmentation, batch normalization ๋ฑ ๋ง์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
How We Do
COCO์ ์ด์ํ mAP๋ฅผ ์ฌ์ฉํ๋ฉด SSD ๋ณํ๊ณผ ๋์ผํ์ง๋ง 3๋ฐฐ๋ ๋น ๋ฆ ๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์ธก์ ๋ฒ์ผ๋ก RetinaNet๊ณผ ๊ฐ์ ๋ชจ๋ธ๋ณด๋ค ์ฝ๊ฐ ์ฑ๋ฅ์ด ์ข์ง ์์ต๋๋ค.
IOU = 0.5์์ AP50๋ฅผ ๋ณผ๋ YOLOv3๋ ๊ฐ๋ ฅํฉ๋๋ค.IOU์ threshold๊ฐ ์ฆ๊ฐํ๋ฉด Object์ Box๋ฅผ ์๋ฒฝํ ์ ๋ ฌํ๋๋ฐ ์ด๋ ค์์ ๊ฒช์ด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋๋ค.
์ด์ ์ YOLO์ ์ฝ์ ์ธ ์์ ๋ฌผ์ฒด๋ฅผ ๊ฒ์ถํ๋ ๊ฒ์ด ํจ์ฌ ์ข์์ก์ต๋๋ค.
Things We Tried That Didn't Work
anchor box์ x, y offset์ ์์ธก : linear activation์ ์ฌ์ฉํด์ box์ width, height์ ๋ฐฐ์๋ก์จ anchor box์ x, y๋ฅผ ์์ธก์ ์๋ํ์ง๋ง ์ข์ง ์์์ต๋๋ค.
Linear x, yt predictions instead of logistic : logistic activation๋์ linear activation์ ์ฌ์ฉํด x, y์ offset์ ์์ธกํ๋ ค ํ์ง๋ง ๋ช ํฌ์ธํธ ์ ๋์ mAP ์ฑ๋ฅ์ ๋ฎ์ถฅ๋๋ค.
Focal Loss : mAP๊ฐ 2% ๋จ์ด์ง๋๋ค. ์ด๋ฏธ objectness, classification์ด ์๋์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ํ์ง๋ง ํ์ ํ ์ ์๋ค๊ณ ํฉ๋๋ค.
Dual IOU thresholds and truth assignment : Faster RCNN์์ ๊ณ ์๋ ๋ฐฉ๋ฒ์ผ๋ก ๋๊ฐ์ IOU๊ฐ์ ์ฌ์ฉํฉ๋๋ค. ์์ธก IOU๊ฐ 0.7์ด์์ด๋ฉด ๊ธ์ ์ ์ธ sample์ด๊ณ 0.3์ดํ๋ฉด ๋ถ์ ์ ์ธ sample์ ๋๋ค. ๊ฒฐ๊ณผ๋ ์ข์ง ์์์ต๋๋ค.
What This All Means
YOLOv3๋ ์ ํํ๊ณ ๋น ๋ฆ ๋๋ค. ํ์ง๋ง COCO metric(0.5 ~ 0.95๊น์ง ์กฐ๊ธ์ฉ ๋๋ฆฌ๋ฉด์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ)์ผ๋ก๋ ์ข์ง ์์ง๋ง AP50 metric์ ์ข์ต๋๋ค. Russakovsky et al.์ ์ฌ๋๋ค์๊ฒ IOU๊ฐ 0.3, 0.5์ธ bounding box๋ฅผ ๊ตฌ๋ถํ๋๋ก ํ๊ฒ ํ์ง๋ง ๊ตฌ๋ถ์ ์ ๋ชปํ๋ค๊ณ ํฉ๋๋ค. ๊ทธ ๋ง์ ์ฆ์จ COCO metric์ฒ๋ผ ์ธ๋ฐํ ํ๊ฐ ๋ฐฉ๋ฒ์ด ์ ๋ง ์ข์์ง์ ๋ํ ์๊ฒฌ์ ๋งํฉ๋๋ค.
Rebutter๋ YOLO benchmarking์ ์์น, COCO metric์ด ์ฝํ ์ด์ ๋ฅผ ๋ ์ธ๋ฐํ๊ฒ ํ์ด๋ด์ง๋ง ์ง์ ์ ์ผ๋ก ๋ค๋ฃจ์ง ์๊ฒ ์ต๋๋ค.
Last updated
Was this helpful?