농대생의 시선으로 보는 YOLO의 진화 (YOLO v2)

안녕하세요.

농대 대학원생입니다.

저번시간에 YOLO v1에 대해 간단히 소개드렸죠?

이번에는 YOLO v2와 YOLO v3에 대해 소개드리려 합니다.

YOLO v2는 YOLO v1에 비해 혁신적인 구조였습니다.

YOLO v1이 빠른 속도와 단순한 구조로 실시간 객체탐지에 엄청난 강점을 보였지만, 7x7 그리드 방식으로, 작은 객체는 탐지하기 힘들다는 한계점이 있었죠.

이를 극복하기 위해 Joseph Redmon은 2017년에 "YOLO9000: Better, Faster, Stronger"라는 논문을 게제함으로써 YOLO v2를 세상에 발표했어요.

YOLO v2의 주요 개선사항을 몇 가지 소개해보도록 할게요!

1. Batch Normalization

Batch Normalization은 이미지의 각 계층에 적용되어 학습 속도와 정확도를 높이게 해줬어요.

이 기술은 ‘데이터의 입력분포를 정규화하여 학습안정성 개선(특히, 과적합 방지) 및 학습속도 개선’ 이라는 목표를 달성하게 해줬다고 합니다!

2. 고해상도 이미지 활용

YOLO v1의 이미지는 224x224로, 디테일한 부분을 감지하는데 어려움이 있었어요. 그런데 YOLO v2로 넘어오며 448x448 해상도의 이미지로 기존보다 더 세밀한 디테일을 학습할수 있게 되었답니다!

3. Anchor Box 도입

Anchor Box는 YOLO v2가 객체의 크기와 위치를 보다 정확히 예측할 수 있게 해줬어요.

Anchor Box는 간단히 말해 객체를 검출하기 위한 ‘다양한 비율을 가진 기준 박스’를 미리 설정해두는걸 말합니다.

YOLO v1에서는 객체를 직접 찾았다면, YOLO v2에선 다양한 비율의 Anchor Box를 객체에 적용하고, 모델은 단순히 이 Anchor Box의 위치 및 크기를 미세조정하기만 하면 되었죠!

4. 13x13 그리드 채택

YOLO v1이 7x7 그리드로, 빠른 탐지는 가능하지만 작은 객체는 탐지하기 어렵다고 설명드렸었죠?

그에 반해 YOLO v2는 13x13 그리드로, 좀 더 작은 객체를 탐지하기가 용이해졌답니다!

이러한 기술들은 YOLO v2의 mAP를 YOLO v1과 비교해서 약 13.4%, recall을 약 7%까지 상승시킬 수 있었어요!

이 표를 보시면 더욱 명확하게 차이점이 느껴지시죠??

이렇게 YOLO v2는 YOLO v1의 한계를 극복하며 더욱 강력한 객체 탐지 모델로 자리 잡게 되었습니다.

다음 글에서는 YOLO v3로 넘어가면서 또 어떤 혁신이 생겼는지 소개해보려 해요.

간단히 스포해보자면 YOLO v3에서는 더 강력한 백본 네트워크와 다중 스케일 탐지 기술을 통해 더 작은 객체 탐지와 다중 객체 탐지성능을 끌어올렸답니다!

다음 포스팅도 기대해주세요!

You Only Look Once(yolo)의 시작; YOLO V1 (0)	2025.01.08

thinkapple