
논문 원본: https://arxiv.org/abs/1506.01497
논문 요약: Faster R-CNN은 Region Proposal Network(RPN)를 도입하여, 객체 탐지에서 후보 영역 추출과 분류를 완전히 통합한 최초의 end-to-end 학습 가능한 모델
발표 피피티:
1. 연구 배경: R-CNN 계열의 진화는 계속된다
2014년 R-CNN의 등장 이후, 객체 탐지는 놀라운 정확도를 보여주며 컴퓨터 비전 분야의 핵심 과제가 되었다. 하지만 R-CNN은 여전히 여러 한계를 안고 있었으며, 특히 처리 속도와 구조적 비효율성 면에서 개선이 필요하였다.
- R-CNN은 Selective Search라는 외부 알고리즘으로 Region Proposal을 생성한 뒤, 각 후보 영역을 CNN으로 분류하는 2단계 구조를 가진다.
- Fast R-CNN은 하나의 CNN만으로 피처맵을 뽑고, RoI Pooling을 도입해 속도는 개선되었지만, 여전히 Region Proposal을 위한 외부 알고리즘에 의존한다.
Faster R-CNN은 이 한계를 극복하고자, 아예 네트워크 내부에 Region Proposal 기능을 통합하는 Region Proposal Network (RPN)을 제안하였다. 이로써 모델 전체가 완전한 end-to-end 구조로 통합되고, 속도와 정확도 모두에서 크게 향상된다.
2. 모델 구조: RPN + Fast R-CNN의 조합
Faster R-CNN은 두 개의 핵심 구성 요소를 포함한다:
- Region Proposal Network (RPN): 이미지의 피처맵 위에서 객체가 존재할 가능성이 높은 영역을 제안하는 네트워크이다. 슬라이딩 윈도우 방식으로 anchor box를 기준으로 영역 후보를 생성하고, 그 중 유망한 후보만 추려낸다.
- Fast R-CNN Head: RPN이 제안한 RoI(Region of Interest)들을 바탕으로 각 영역에 대한 객체 분류와 박스 위치 보정을 수행한다. 이를 위해 RoI Pooling을 적용하고, 각 RoI마다 Softmax + Bounding Box Regression을 수행한다.
RPN과 Fast R-CNN은 동일한 피처맵을 공유하므로, 계산량이 줄고 연산이 효율적으로 이루어진다. 이 구조는 속도와 정확도의 균형을 절묘하게 유지하며, 객체 탐지에서 매우 강력한 기반이 된다.
학습 흐름 요약
- 전체 이미지에 CNN을 적용해 피처맵을 생성한다.
- RPN이 각 위치마다 Anchor Box를 기준으로 객체 여부와 바운딩 박스를 예측한다.
- 상위 N개의 proposal을 Non-Maximum Suppression(NMS)으로 정제하여 RoI 후보로 선택한다.
- Fast R-CNN이 각 RoI에 대해 객체 분류 및 위치 보정을 수행한다.
핵심 기술 요소
| Anchor Box | 다양한 크기와 종횡비를 가진 사전 정의 박스 |
| RoI Pooling | 다양한 크기의 proposal을 고정된 크기의 벡터로 변환 |
| NMS | 겹치는 박스를 제거해 중복 예측 방지 |
| Multitask Loss | 클래스 분류 + 박스 회귀 손실을 동시에 학습 |
Faster R-CNN은 RPN과 Fast R-CNN 모두에서 손실 함수를 정의한다.
- RPN Loss = Binary Classification (object vs. background) + Regression (anchor offset)
- Fast R-CNN Loss = Multi-Class Classification + Bounding Box Regression
이 모든 손실은 end-to-end로 함께 학습되며, 파라미터 공유와 피처맵 공유로 인해 효율적인 구조를 구현한다.
성능: 정확도와 속도의 균형점
Faster R-CNN은 당시까지 존재하던 모델들 중 가장 높은 정확도를 기록하면서도, 비교적 빠른 속도를 제공한다. Selective Search를 제거한 것만으로도, Region Proposal 시간이 2초에서 10ms로 줄어드는 등 속도 향상은 매우 뚜렷하다.
| 모델 | Region Proposal 방식 | mAP (VOC07) | 속도 (FPS) |
| R-CNN | Selective Search | 66.0% | 0.07 |
| Fast R-CNN | Selective Search | 66.9% | 0.5 |
| Faster R-CNN | RPN (learned) | 69.9% | 5~17 |
한계점: 속도는 빠르지만 실시간은 아니다
Faster R-CNN은 구조적으로 매우 세련되었지만, 여전히 실시간(30 FPS 이상)에는 미치지 못한다. 특히 여러 스케일과 앵커를 고려한 제안, 그리고 RoI 개수 제한 등으로 인해 계산량이 적지 않다. 따라서 모바일 환경이나 Edge 환경에 적용하기에는 한계가 존재한다.
이러한 문제를 보완하기 위해 이후 등장한 YOLO, SSD와 같은 모델들이 경량화를 중심으로 구조를 바꾸게 된다.
이후 모델과의 연계
Faster R-CNN은 이후 Mask R-CNN, Cascade R-CNN, Libra R-CNN 등 다양한 파생 모델들의 기반이 되었다. 특히 RPN의 구조는 객체 탐지뿐 아니라 세그멘테이션, 키포인트 탐지 등 여러 Task에서 재활용되며, Vision 분야의 backbone으로 자리 잡는다.
'Paper review > CV' 카테고리의 다른 글
| Mask R-CNN (0) | 2025.05.16 |
|---|---|
| VAE: Auto-Encoding Variational Bayes (1) | 2025.05.09 |
| You Only Look Once: Unified, Real-Time Object Detection (0) | 2025.05.02 |
| MobileNets: Efficient Convolutional Neural Networks (0) | 2025.04.04 |
| ELMo: Deep contextualized word representations (0) | 2025.03.28 |