Paper review

NLP 논문 정리 | 3학년 1학기

오서영 2025. 8. 9. 21:01
연도 제목 요약 태그
2014.10 Sequence to Sequence Learning with Neural Networks 인코더–디코더 구조로 문장→문장 변환(번역 등)을 처음 제안함. 인코더–디코더, 기계번역, 시퀀스모델
2017.06 Attention Is All You Need 자가어텐션만으로 기존 RNN을 대체한 트랜스포머 구조를 제안해 병렬화와 성능을 혁신함. 트랜스포머, 어텐션, 병렬처리
2018.04 Deep Contextualized Word Representations (ELMo) 문맥에 따라 동적으로 단어 임베딩을 생성하는 양방향 LSTM 기반 표현 학습 기법을 제시함. 문맥임베딩, 양방향LSTM, 표현학습
2018.06 Improving Language Understanding by Generative Pre‑Training (GPT‑1) 사전학습된 생성 모델을 미세조정해 다양한 NLP 과제에서 언어 이해 성능을 크게 향상시킴. 생성모델, 사전학습, 미세조정
2019.05 BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding 마스크 언어모델과 NSP로 양방향 트랜스포머를 사전학습해 다수의 다운스트림 과제에서 최첨단 성능을 달성함. 마스크LM, 양방향, 트랜스포머
2019.06 XLNet: Generalized Autoregressive Pretraining for Language Understanding 순열 기반 언어모델로 양방향 컨텍스트를 캡처하면서 마스킹의 한계를 극복함. 순열언어모델, 사전학습, 컨텍스트
2019.10 Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5) 모든 NLP 과제를 텍스트→텍스트 형식으로 통일해 단일 프레임워크로 사전학습과 파인튜닝을 수행함. 텍스트→텍스트, 사전학습, 생성모델
2019.10 BART: Denoising Sequence‑to‑Sequence Pre‑training for Natural Language Generation, Translation, and Comprehension 잡음 추가/제거 기반 Seq2Seq 사전학습으로 생성·이해 과제를 동시에 학습할 수 있는 모델을 제안함. Denoising, Seq2Seq, 사전학습
2020.03 ELECTRA: Pre‑training Text Encoders as Discriminators Rather Than Generators 생성기와 판별기를 함께 학습시켜 토큰 재구성 방식을 통해 효율적인 사전학습을 구현함. 재구성학습, 효율적사전학습, 판별기
2020.05 Language Models Are Few‑Shot Learners (GPT‑3) 수십억 개의 파라미터로 Few‑Shot 설정에서 뛰어난 성능을 보이는 대형 언어모델의 가능성을 입증함. 거대언어모델, Few‑Shot, 제로샷
2020.05 Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks (RAG) 외부 지식베이스에서 문서를 검색해 생성 모델에 통합함으로써 지식집약형 과제 성능을 향상시킴. 지식증강, 검색, 생성모델
2021.06 LoRA: Low‑Rank Adaptation of Large Language Models 저차원 적응 행렬만 학습해 대형 언어모델 파인튜닝 시 효율성과 확장성을 크게 개선함. 파인튜닝효율화, 저차원화, 적응행렬
2022.01 Chain‑of‑Thought Prompting Elicits Reasoning in Large Language Models 추론 과정을 단계별로 유도하는 프롬프트로 LLM의 복합적 문제 해결 능력을 향상시킴. 추론유도, 프롬프트엔지니어링, LLM
2022.03 Chinchilla: Training Compute‑Optimal Large Language Models 연산량 대비 최적 모델 크기를 제안해 학습 자원을 효율적으로 사용하면서 성능을 극대화함. 스케일링법칙, 연산최적화, 모델크기
2023 Alpaca: An Instruction‑Following LLaMA Model GPT-3.5 튜닝 데이터를 활용해 LLaMA에 지침 기반 학습을 적용한 경량 지침추종 모델을 발표함. 지침추종, 파인튜닝, 경량모델
2023.02 LLaMA: Open and Efficient Foundation Language Models 다양한 크기의 효율적 파라미터 설계로 경쟁력 있는 언어모델을 오픈소스 형태로 공개함. 언어모델, 파라미터효율성, 오픈소스
2023.04 Direct Preference Optimization (DPO) 사용자 선호 데이터를 직접 최적화해 기존 RLHF 없이도 고품질 응답을 학습하는 새로운 방식을 제안함. 선호학습, RLHF대체, 최적화