YOLOv3

Yolov3

YOLOv2 ģ“ķ›„ ė‚˜ģ˜Ø ė…¼ė¬øģ„ ģ ģš©ķ•“ Object Detectionģ˜ ģ•½ģ ė“¤ģ„ ķ•“ź²°ķ•˜ė ¤ėŠ” ģ‹¤ķ—˜ģ„ ķ•©ė‹ˆė‹¤.

ģ •ķ™•ģ„±ģ€ ė†’ģ§€ė§Œ ģ—¬ģ „ķžˆ ė¹ ė¦…ė‹ˆė‹¤!

  • SSD볓다 3ė°° ė¹ ė„“ģ§€ė§Œ ģ •ķ™•ė„ėŠ” ė†’ģŠµė‹ˆė‹¤.

  • RetinaNetź³¼ ģ •ķ™•ė„ź°€ ģœ ģ‚¬ķ•˜ģ§€ė§Œ ė¹ ė¦…ė‹ˆė‹¤.

Bounding Box Prediction

  • YOLOv2ėŠ” Anchor Box딜 Dimension cluster넼 ģ‚¬ģš©ķ•“ģ„œ Bounding Box넼 ģ˜ˆģø”ķ•©ė‹ˆė‹¤.

  • tx,ty,tw,tht_x, t_y, t_w, t_h넼 ģ—ģø”ķ•˜ź³  ģ¢Œģƒė‹Ø 부터 ģ‹œģž‘ķ•“ cx,cyc_x, c_y 만큼 offset되고 bounding boxģ˜ width, heightź°€ pw,php_w, p_hģø 경우 ģµœģ¢… bounding boxėŠ” bx,by,bw,bhb_x, b_y, b_w, b_hģž…ė‹ˆė‹¤.

  • L2 loss넼 ģ‚¬ģš©ķ•“ ķ•™ģŠµķ–ˆź³  YOLOv3ėŠ” ģ“ ģ‹ģ„ ė’¤ģ§‘ģ–“ģ„œ ė°”ė”œ t^āˆ—āˆ’tāˆ—\hat{t}_* - t_*ģ„ ź³„ģ‚°ķ•˜ė„ė” ķ•©ė‹ˆė‹¤. 즉, ground truth넼 tx,ty,tw,tht_x, t_y, t_w, t_h딜 ė§Œė“ ė‹¤ėŠ” ģ˜ėÆø ģž…ė‹ˆė‹¤.

  • ė§Œģ•½ bounding boxź°€ 다넸 box볓다 ground truth와 ė§Žģ“ ź²¹ģ¹˜ėŠ” 경우 IOUėŠ” 1ģ“ģ–“ģ•¼ ķ•©ė‹ˆė‹¤. ė§Œģ•½ IOUź°€ ģ œģ¼ ģ¢‹ģ€ ź²ƒģ“ ģ•„ė‹ˆė©“ģ„œ ģž„ź³„ź°’ ģ“ģƒģ˜ IOU넼 가진다멓 ģ˜ˆģø”ģ„ ė¬“ģ‹œķ•©ė‹ˆė‹¤. 각 ground truth에 1ź°œģ˜ bounding box만 ķ• ė‹¹ķ•©ė‹ˆė‹¤.

  • IOU ģž„ź³„ź°’ģ€ 0.5ģž…ė‹ˆė‹¤.

  • bounding boxź°€ ground truth에 ķ¬ķ•Øė˜ģ§€ ģ•ŠėŠ” 경우 classification lossėŠ” 없고 objectness loss만 ź°€ģ§‘ė‹ˆė‹¤.

Class Prediction

  • 각 bounding boxėŠ” multi-label classificationģ„ ģ‚¬ģš©ķ•©ė‹ˆė‹¤.

  • multi-label classificationģ€ softmaxź°€ 좋지 ģ•Šźø° ė•Œė¬øģ— binary cross-entropy loss넼 ģ‚¬ģš©ķ•©ė‹ˆė‹¤.

Predictions Across Scales

  • YOLOv3ėŠ” ģ„œė”œ 다넸 ģŠ¤ģ¼€ģ¼ģ„ ź°€ģ§€ėŠ” 3가지 box넼 ģ˜ˆģø”ķ•©ė‹ˆė‹¤.

  • feature pyramid networks와 ģœ ģ‚¬ķ•œ ė°©ģ‹ģœ¼ė”œ ķŠ¹ģ§•ģ„ ģ¶”ģ¶œķ•©ė‹ˆė‹¤.

  • ėŖ‡ź°œģ˜ convolutional layerź°€ ģ¶”ź°€ė˜ź³  ģ¶œė „ģ€ 3-d tensor ģž…ė‹ˆė‹¤.

  • N x N x [3 * (4(bounding box offsets) + 1(objectness) + 80(class))]

  • ģ“ģ „ģ˜ 2번째 layerģ—ģ„œ feature mapģ„ 2ė°° Upsampling ķ•©ė‹ˆė‹¤.

  • ģ“ˆźø°ė¶€ķ„° feature mapģ„ 가져와 Upsampling된 feature mapź³¼ concatķ•©ė‹ˆė‹¤. ģ“ ė°©ė²•ģ„ ģ‚¬ģš©ķ•˜ė©“ ģ˜ėÆøģžˆėŠ” 정볓(ģ“ģ „ layer)와 세분화 된 정볓(쓈기 layer)넼 ģ–»ģ„ 수 ģžˆģŠµė‹ˆė‹¤.

  • ź²°ķ•© 된 feature mapģ„ ģ²˜ė¦¬ķ•˜źø° ģœ„ķ•“ģ„œ convolutional layer넼 ģ¶”ź°€ķ•©ė‹ˆė‹¤.

  • ģµœģ¢… scaleģ˜ box넼 ģ˜ˆģø”ķ•˜źø° ģœ„ķ•“ģ„œ ź°™ģ€ ė””ģžģøģ„ ķ•œė²ˆė” ģˆ˜ķ–‰ķ•©ė‹ˆė‹¤. ė”°ė¼ģ„œ 3번째 scaleģ˜ ģ˜ˆģø”ģ€ ėŖØė“  ģ“ģ „ layer와 ģ“ˆźø°ģ˜ ģ„øė¶„ķ™”ė˜ź³  ģ˜ėÆøģžˆėŠ” 정볓넼 ķ™œģš©ķ•©ė‹ˆė‹¤.

  • k-means넼 통핓 anchor box넼 clusteringķ•˜ź³  9ź°œģ˜ cluster와 3ź°œģ˜ scale넼 ģž„ģ˜ė”œ ģ„ ķƒķ•“ cluster넼 ź· ė“±ķ•˜ź²Œ ė‚˜ėˆ•ė‹ˆė‹¤.

  • COCOģ˜ 경우 (10 Ɨ 13), (16 Ɨ 30), (33 Ɨ 23), (30 Ɨ 61), (62 Ɨ 45), (59 Ɨ 119), (116 Ɨ 90) , (156 Ɨ 198), (373 Ɨ 326) ģž…ė‹ˆė‹¤.

Feature Extractor

ķŠ¹ģ§• ģ¶”ģ¶œģ„ ģœ„ķ•œ DarkNet53ģ„ ģ œģ•ˆķ•©ė‹ˆė‹¤.

DarkNet53ģ„ 다넸 ėŖØėøź³¼ ė¹„źµķ•©ė‹ˆė‹¤. ė°ģ“ķ„°ģ…‹ģ€ ImageNetģ„ ģ‚¬ģš©ķ•©ė‹ˆė‹¤.

Training

  • miningź°™ģ€ ė°©ė²•ģ„ ģ‚¬ģš©ķ•˜ģ§€ ģ•ŠģŠµė‹ˆė‹¤.

  • multi-scale training, data augmentation, batch normalization 등 ė§Žģ€ ė°©ė²•ģ„ ģ‚¬ģš©ķ•©ė‹ˆė‹¤.

How We Do

  • COCOģ˜ ģ“ģƒķ•œ mAP넼 ģ‚¬ģš©ķ•˜ė©“ SSD ė³€ķ˜•ź³¼ ė™ģ¼ķ•˜ģ§€ė§Œ 3ė°°ėŠ” ė¹ ė¦…ė‹ˆė‹¤. ķ•˜ģ§€ė§Œ ģ“ėŸ¬ķ•œ ģø”ģ •ė²•ģœ¼ė”œ RetinaNetź³¼ ź°™ģ€ ėŖØėøė³“ė‹¤ 약간 ģ„±ėŠ„ģ“ 좋지 ģ•ŠģŠµė‹ˆė‹¤.

  • IOU = 0.5ģ—ģ„œ AP50넼 ė³¼ė•Œ YOLOv3ėŠ” ź°•ė „ķ•©ė‹ˆė‹¤.

  • IOUģ˜ thresholdź°€ ģ¦ź°€ķ•˜ė©“ Object와 Box넼 ģ™„ė²½ķžˆ ģ •ė ¬ķ•˜ėŠ”ė° ģ–“ė ¤ģ›€ģ„ ź²Ŗģ–“ ģ„±ėŠ„ģ“ źø‰ź²©ķžˆ ė–Øģ–“ģ§‘ė‹ˆė‹¤.

  • ģ“ģ „ģ— YOLOģ˜ ģ•½ģ ģø ģž‘ģ€ 물첓넼 ź²€ģ¶œķ•˜ėŠ” ź²ƒģ“ 훨씬 ģ¢‹ģ•„ģ”ŒģŠµė‹ˆė‹¤.

Things We Tried That Didn't Work

  • anchor boxģ˜ x, y offsetģ„ 예츔 : linear activationģ„ ģ‚¬ģš©ķ•“ģ„œ boxģ˜ width, heightģ˜ ė°°ģˆ˜ė”œģØ anchor boxģ˜ x, y넼 ģ˜ˆģø”ģ„ ģ‹œė„ķ–ˆģ§€ė§Œ 좋지 ģ•Šģ•˜ģŠµė‹ˆė‹¤.

  • Linear x, yt predictions instead of logistic : logistic activationėŒ€ģ‹  linear activationģ„ ģ‚¬ģš©ķ•“ x, yģ˜ offsetģ„ ģ˜ˆģø”ķ•˜ė ¤ ķ–ˆģ§€ė§Œ ėŖ‡ ķ¬ģøķŠø ģ •ė„ģ˜ mAP ģ„±ėŠ„ģ„ ė‚®ģ¶„ė‹ˆė‹¤.

  • Focal Loss : mAPź°€ 2% ė–Øģ–“ģ§‘ė‹ˆė‹¤. ģ“ėÆø objectness, classificationģ“ ģž˜ė˜ģ—ˆźø° ė•Œė¬øģ“ė¼ź³  ķ•˜ģ§€ė§Œ 확신할 수 없다고 ķ•©ė‹ˆė‹¤.

  • Dual IOU thresholds and truth assignment : Faster RCNNģ—ģ„œ ź³ ģ•ˆėœ ė°©ė²•ģœ¼ė”œ ė‘ź°œģ˜ IOUź°’ģ„ ģ‚¬ģš©ķ•©ė‹ˆė‹¤. 예츔 IOUź°€ 0.7ģ“ģƒģ“ė©“ źøģ •ģ ģø sampleģ“ź³  0.3ģ“ķ•˜ė©“ ė¶€ģ •ģ ģø sampleģž…ė‹ˆė‹¤. ź²°ź³¼ėŠ” 좋지 ģ•Šģ•˜ģŠµė‹ˆė‹¤.

What This All Means

YOLOv3ėŠ” ģ •ķ™•ķ•˜ź³  ė¹ ė¦…ė‹ˆė‹¤. ķ•˜ģ§€ė§Œ COCO metric(0.5 ~ 0.95ź¹Œģ§€ ģ”°źøˆģ”© ėŠ˜ė¦¬ė©“ģ„œ ķ‰ź°€ķ•˜ėŠ” 방법)ģœ¼ė”œėŠ” 좋지 ģ•Šģ§€ė§Œ AP50 metricģ€ ģ¢‹ģŠµė‹ˆė‹¤. Russakovsky et al.ģ€ ģ‚¬ėžŒė“¤ģ—ź²Œ IOUź°€ 0.3, 0.5ģø bounding box넼 źµ¬ė¶„ķ•˜ė„ė” ķ•˜ź²Œ ķ–ˆģ§€ė§Œ źµ¬ė¶„ģ„ ģž˜ ėŖ»ķ–ˆė‹¤ź³  ķ•©ė‹ˆė‹¤. ź·ø ė§ģ€ ģ¦‰ģŠØ COCO metric처럼 ģ„øė°€ķ•œ ķ‰ź°€ ė°©ė²•ģ“ 정말 ģ¢‹ģ€ģ§€ģ— ėŒ€ķ•œ ģ˜ź²¬ģ„ ė§ķ•©ė‹ˆė‹¤.

RebutterėŠ” YOLO benchmarkingģ˜ ģœ„ģ¹˜, COCO metricģ“ ģ•½ķ•œ ģ“ģœ ė„¼ ė” ģ„øė°€ķ•˜ź²Œ ķ’€ģ–“ė‚“ģ§€ė§Œ ģ§ģ ‘ģ ģœ¼ė”œ 다루지 ģ•Šź² ģŠµė‹ˆė‹¤.

Last updated

Was this helpful?