Paper review
CV 논문 정리 | 3학년 1학기
오서영
2025. 8. 9. 21:01
| 연도 | 논문 제목 | 요약 | 태그 |
| 2013 | Auto‑Encoding Variational Bayes | 변분추론을 신경망과 결합해 잠재 변수 분포를 효율적으로 학습하는 VAE 기법을 제안함. | VAE, 변분추론, 생성모델 |
| 2014 | Generative Adversarial Nets | 생성자와 판별자가 경쟁하며 학습하는 적대적 네트워크 구조를 통해 고품질 가짜 샘플 생성을 가능케 함. | GAN, 적대학습, 비지도학습 |
| 2014 | Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition | 다양한 입력 크기의 이미지를 처리하기 위해 CNN 중간에 공간 피라미드 풀링 계층을 삽입하여 고정 길이 특징 벡터를 얻음. | SPP, 멀티스케일, 특징추출 |
| 2015 | Rethinking the Inception Architecture for Computer Vision | Inception 모듈을 분해합성(convolution factorization)하고 배치정규화를 도입해 연산 효율과 성능을 동시에 개선함. | Inception, 구조개선, 배치정규화 |
| 2015 | U‑Net: Convolutional Networks for Biomedical Image Segmentation | U자 형태의 인코더–디코더 구조와 스킵 연결을 활용해 의료 영상 분할에서 픽셀 단위 정확도를 크게 향상시킴. | U‑Net, 세그멘테이션, 스킵연결 |
| 2015 | Faster R‑CNN: Towards Real‑Time Object Detection with Region Proposal Networks | RPN(region proposal network)을 백본 CNN에 통합해 두 단계 방식의 객체 검출을 하나의 네트워크에서 실시간으로 처리함. | Faster R‑CNN, RPN, 객체검출 |
| 2016 | You Only Look Once: Unified, Real‑Time Object Detection | 단일 네트워크에서 객체 위치와 클래스를 동시에 회귀 문제로 풀어 매우 빠른 속도의 실시간 객체 검출을 구현함. | YOLO, 원스테이지, 실시간검출 |
| 2016 | Grad‑CAM: Visual Explanations from Deep Networks via Gradient‑Based Localization | CNN의 특정 클래스 예측에 기여한 영역을 그래디언트 기반으로 시각화해 모델의 해석 가능성을 높임. | 설명가능성, 시각화, 해석 |
| 2017 | MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications | 깊이별 분리 합성곱(depthwise separable convolution)을 도입해 매개변수를 대폭 줄인 경량 CNN을 제안함. | 경량화, 모바일, 분리합성곱 |
| 2017 | Mask R‑CNN | Faster R‑CNN에 분기형 마스크 예측 헤드를 추가해 인스턴스 단위 분할까지 처리하는 통합 프레임워크를 제안함. | 인스턴스세그멘테이션, ROIAlign, 마스크예측 |
| 2017 | RetinaNet: Focal Loss for Dense Object Detection | 불균형한 배경–전경 문제를 완화하기 위해 가중치 기반 포컬 손실을 도입한 단일 단계 탐지기로 정확도를 획기적으로 향상함. | 단일단계, 포컬손실, 클래스불균형 |
| 2019 | EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks | 너비·깊이·해상도를 복합적으로 균형 있게 확장하는 compound scaling 기법으로 효율성과 정확도를 동시에 개선함. | 모델스케일링, 아키텍처검색, 효율화 |
| 2020 | YOLOv4: Optimal Speed and Accuracy of Object Detection | CSPDarknet, Mosaic augmentation 등 다양한 트릭을 조합해 실시간 탐지 속도와 정확도에서 최첨단 성능을 달성함. | 실시간검출, 학습기법, 아키텍처개선 |
| 2020 | End‑to‑End Object Detection with Transformers (DETR) | 트랜스포머를 이용해 기존 RPN·NMS 과정을 대체하고, 세트 예측(set prediction)으로 객체 검출을 일괄 처리하는 새로운 접근을 제안함. | 트랜스포머, 세트예측, 엔드투엔드 |
| 2020 | An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale (ViT) | 이미지를 16×16 패치로 나눠 플래튼한 뒤 트랜스포머에 입력해, 대규모 데이터로 사전학습 시 CNN과 동등한 성능을 보임을 입증함. | 비전트랜스포머, 패치, 자가어텐션 |
| 2021 | DINO: Emerging Properties in Self‑Supervised Vision Transformers | 레이블 없이 자기 증류(self‑distillation)로 ViT를 사전학습해 강력한 표현 학습을 달성하는 자체 지도 학습 기법을 제시함. | 자체지도학습, ViT, 자기증류 |
| 2022 | Stable Diffusion: High‑Resolution Image Synthesis with Latent Diffusion Models | 잠재 공간(latent space)에서 효율적으로 확산 과정을 수행해 고해상도 이미지 생성을 가능케 하는 잠재 확산 모델을 제안함. | 확산모델, 잠재공간, 이미지합성 |
| 2023 | Segment Anything Model (SAM) | 프롬프트 가능(promptable)한 단일 분할 모델로, 다양한 영상에서 레이블 없이도 즉시(zero‑shot) 객체 분할을 수행함. | 제로샷, 파운데이션모델, 분할 |