Paper review
NLP 논문 정리 | 3학년 1학기
오서영
2025. 8. 9. 21:01
| 연도 | 제목 | 요약 | 태그 |
| 2014.10 | Sequence to Sequence Learning with Neural Networks | 인코더–디코더 구조로 문장→문장 변환(번역 등)을 처음 제안함. | 인코더–디코더, 기계번역, 시퀀스모델 |
| 2017.06 | Attention Is All You Need | 자가어텐션만으로 기존 RNN을 대체한 트랜스포머 구조를 제안해 병렬화와 성능을 혁신함. | 트랜스포머, 어텐션, 병렬처리 |
| 2018.04 | Deep Contextualized Word Representations (ELMo) | 문맥에 따라 동적으로 단어 임베딩을 생성하는 양방향 LSTM 기반 표현 학습 기법을 제시함. | 문맥임베딩, 양방향LSTM, 표현학습 |
| 2018.06 | Improving Language Understanding by Generative Pre‑Training (GPT‑1) | 사전학습된 생성 모델을 미세조정해 다양한 NLP 과제에서 언어 이해 성능을 크게 향상시킴. | 생성모델, 사전학습, 미세조정 |
| 2019.05 | BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding | 마스크 언어모델과 NSP로 양방향 트랜스포머를 사전학습해 다수의 다운스트림 과제에서 최첨단 성능을 달성함. | 마스크LM, 양방향, 트랜스포머 |
| 2019.06 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | 순열 기반 언어모델로 양방향 컨텍스트를 캡처하면서 마스킹의 한계를 극복함. | 순열언어모델, 사전학습, 컨텍스트 |
| 2019.10 | Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5) | 모든 NLP 과제를 텍스트→텍스트 형식으로 통일해 단일 프레임워크로 사전학습과 파인튜닝을 수행함. | 텍스트→텍스트, 사전학습, 생성모델 |
| 2019.10 | BART: Denoising Sequence‑to‑Sequence Pre‑training for Natural Language Generation, Translation, and Comprehension | 잡음 추가/제거 기반 Seq2Seq 사전학습으로 생성·이해 과제를 동시에 학습할 수 있는 모델을 제안함. | Denoising, Seq2Seq, 사전학습 |
| 2020.03 | ELECTRA: Pre‑training Text Encoders as Discriminators Rather Than Generators | 생성기와 판별기를 함께 학습시켜 토큰 재구성 방식을 통해 효율적인 사전학습을 구현함. | 재구성학습, 효율적사전학습, 판별기 |
| 2020.05 | Language Models Are Few‑Shot Learners (GPT‑3) | 수십억 개의 파라미터로 Few‑Shot 설정에서 뛰어난 성능을 보이는 대형 언어모델의 가능성을 입증함. | 거대언어모델, Few‑Shot, 제로샷 |
| 2020.05 | Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks (RAG) | 외부 지식베이스에서 문서를 검색해 생성 모델에 통합함으로써 지식집약형 과제 성능을 향상시킴. | 지식증강, 검색, 생성모델 |
| 2021.06 | LoRA: Low‑Rank Adaptation of Large Language Models | 저차원 적응 행렬만 학습해 대형 언어모델 파인튜닝 시 효율성과 확장성을 크게 개선함. | 파인튜닝효율화, 저차원화, 적응행렬 |
| 2022.01 | Chain‑of‑Thought Prompting Elicits Reasoning in Large Language Models | 추론 과정을 단계별로 유도하는 프롬프트로 LLM의 복합적 문제 해결 능력을 향상시킴. | 추론유도, 프롬프트엔지니어링, LLM |
| 2022.03 | Chinchilla: Training Compute‑Optimal Large Language Models | 연산량 대비 최적 모델 크기를 제안해 학습 자원을 효율적으로 사용하면서 성능을 극대화함. | 스케일링법칙, 연산최적화, 모델크기 |
| 2023 | Alpaca: An Instruction‑Following LLaMA Model | GPT-3.5 튜닝 데이터를 활용해 LLaMA에 지침 기반 학습을 적용한 경량 지침추종 모델을 발표함. | 지침추종, 파인튜닝, 경량모델 |
| 2023.02 | LLaMA: Open and Efficient Foundation Language Models | 다양한 크기의 효율적 파라미터 설계로 경쟁력 있는 언어모델을 오픈소스 형태로 공개함. | 언어모델, 파라미터효율성, 오픈소스 |
| 2023.04 | Direct Preference Optimization (DPO) | 사용자 선호 데이터를 직접 최적화해 기존 RLHF 없이도 고품질 응답을 학습하는 새로운 방식을 제안함. | 선호학습, RLHF대체, 최적화 |