본문 바로가기
Paper review

CV 논문 정리 | 3학년 1학기

by 오서영 2025. 8. 9.
연도 논문 제목 요약 태그
2013 Auto‑Encoding Variational Bayes 변분추론을 신경망과 결합해 잠재 변수 분포를 효율적으로 학습하는 VAE 기법을 제안함. VAE, 변분추론, 생성모델
2014 Generative Adversarial Nets 생성자와 판별자가 경쟁하며 학습하는 적대적 네트워크 구조를 통해 고품질 가짜 샘플 생성을 가능케 함. GAN, 적대학습, 비지도학습
2014 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 다양한 입력 크기의 이미지를 처리하기 위해 CNN 중간에 공간 피라미드 풀링 계층을 삽입하여 고정 길이 특징 벡터를 얻음. SPP, 멀티스케일, 특징추출
2015 Rethinking the Inception Architecture for Computer Vision Inception 모듈을 분해합성(convolution factorization)하고 배치정규화를 도입해 연산 효율과 성능을 동시에 개선함. Inception, 구조개선, 배치정규화
2015 U‑Net: Convolutional Networks for Biomedical Image Segmentation U자 형태의 인코더–디코더 구조와 스킵 연결을 활용해 의료 영상 분할에서 픽셀 단위 정확도를 크게 향상시킴. U‑Net, 세그멘테이션, 스킵연결
2015 Faster R‑CNN: Towards Real‑Time Object Detection with Region Proposal Networks RPN(region proposal network)을 백본 CNN에 통합해 두 단계 방식의 객체 검출을 하나의 네트워크에서 실시간으로 처리함. Faster R‑CNN, RPN, 객체검출
2016 You Only Look Once: Unified, Real‑Time Object Detection 단일 네트워크에서 객체 위치와 클래스를 동시에 회귀 문제로 풀어 매우 빠른 속도의 실시간 객체 검출을 구현함. YOLO, 원스테이지, 실시간검출
2016 Grad‑CAM: Visual Explanations from Deep Networks via Gradient‑Based Localization CNN의 특정 클래스 예측에 기여한 영역을 그래디언트 기반으로 시각화해 모델의 해석 가능성을 높임. 설명가능성, 시각화, 해석
2017 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 깊이별 분리 합성곱(depthwise separable convolution)을 도입해 매개변수를 대폭 줄인 경량 CNN을 제안함. 경량화, 모바일, 분리합성곱
2017 Mask R‑CNN Faster R‑CNN에 분기형 마스크 예측 헤드를 추가해 인스턴스 단위 분할까지 처리하는 통합 프레임워크를 제안함. 인스턴스세그멘테이션, ROIAlign, 마스크예측
2017 RetinaNet: Focal Loss for Dense Object Detection 불균형한 배경–전경 문제를 완화하기 위해 가중치 기반 포컬 손실을 도입한 단일 단계 탐지기로 정확도를 획기적으로 향상함. 단일단계, 포컬손실, 클래스불균형
2019 EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 너비·깊이·해상도를 복합적으로 균형 있게 확장하는 compound scaling 기법으로 효율성과 정확도를 동시에 개선함. 모델스케일링, 아키텍처검색, 효율화
2020 YOLOv4: Optimal Speed and Accuracy of Object Detection CSPDarknet, Mosaic augmentation 등 다양한 트릭을 조합해 실시간 탐지 속도와 정확도에서 최첨단 성능을 달성함. 실시간검출, 학습기법, 아키텍처개선
2020 End‑to‑End Object Detection with Transformers (DETR) 트랜스포머를 이용해 기존 RPN·NMS 과정을 대체하고, 세트 예측(set prediction)으로 객체 검출을 일괄 처리하는 새로운 접근을 제안함. 트랜스포머, 세트예측, 엔드투엔드
2020 An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale (ViT) 이미지를 16×16 패치로 나눠 플래튼한 뒤 트랜스포머에 입력해, 대규모 데이터로 사전학습 시 CNN과 동등한 성능을 보임을 입증함. 비전트랜스포머, 패치, 자가어텐션
2021 DINO: Emerging Properties in Self‑Supervised Vision Transformers 레이블 없이 자기 증류(self‑distillation)로 ViT를 사전학습해 강력한 표현 학습을 달성하는 자체 지도 학습 기법을 제시함. 자체지도학습, ViT, 자기증류
2022 Stable Diffusion: High‑Resolution Image Synthesis with Latent Diffusion Models 잠재 공간(latent space)에서 효율적으로 확산 과정을 수행해 고해상도 이미지 생성을 가능케 하는 잠재 확산 모델을 제안함. 확산모델, 잠재공간, 이미지합성
2023 Segment Anything Model (SAM) 프롬프트 가능(promptable)한 단일 분할 모델로, 다양한 영상에서 레이블 없이도 즉시(zero‑shot) 객체 분할을 수행함. 제로샷, 파운데이션모델, 분할