| 연도 |
제목 |
요약 |
태그 |
| 2014.10 |
Sequence to Sequence Learning with Neural Networks |
인코더–디코더 구조로 문장→문장 변환(번역 등)을 처음 제안함. |
인코더–디코더, 기계번역, 시퀀스모델 |
| 2017.06 |
Attention Is All You Need |
자가어텐션만으로 기존 RNN을 대체한 트랜스포머 구조를 제안해 병렬화와 성능을 혁신함. |
트랜스포머, 어텐션, 병렬처리 |
| 2018.04 |
Deep Contextualized Word Representations (ELMo) |
문맥에 따라 동적으로 단어 임베딩을 생성하는 양방향 LSTM 기반 표현 학습 기법을 제시함. |
문맥임베딩, 양방향LSTM, 표현학습 |
| 2018.06 |
Improving Language Understanding by Generative Pre‑Training (GPT‑1) |
사전학습된 생성 모델을 미세조정해 다양한 NLP 과제에서 언어 이해 성능을 크게 향상시킴. |
생성모델, 사전학습, 미세조정 |
| 2019.05 |
BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding |
마스크 언어모델과 NSP로 양방향 트랜스포머를 사전학습해 다수의 다운스트림 과제에서 최첨단 성능을 달성함. |
마스크LM, 양방향, 트랜스포머 |
| 2019.06 |
XLNet: Generalized Autoregressive Pretraining for Language Understanding |
순열 기반 언어모델로 양방향 컨텍스트를 캡처하면서 마스킹의 한계를 극복함. |
순열언어모델, 사전학습, 컨텍스트 |
| 2019.10 |
Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5) |
모든 NLP 과제를 텍스트→텍스트 형식으로 통일해 단일 프레임워크로 사전학습과 파인튜닝을 수행함. |
텍스트→텍스트, 사전학습, 생성모델 |
| 2019.10 |
BART: Denoising Sequence‑to‑Sequence Pre‑training for Natural Language Generation, Translation, and Comprehension |
잡음 추가/제거 기반 Seq2Seq 사전학습으로 생성·이해 과제를 동시에 학습할 수 있는 모델을 제안함. |
Denoising, Seq2Seq, 사전학습 |
| 2020.03 |
ELECTRA: Pre‑training Text Encoders as Discriminators Rather Than Generators |
생성기와 판별기를 함께 학습시켜 토큰 재구성 방식을 통해 효율적인 사전학습을 구현함. |
재구성학습, 효율적사전학습, 판별기 |
| 2020.05 |
Language Models Are Few‑Shot Learners (GPT‑3) |
수십억 개의 파라미터로 Few‑Shot 설정에서 뛰어난 성능을 보이는 대형 언어모델의 가능성을 입증함. |
거대언어모델, Few‑Shot, 제로샷 |
| 2020.05 |
Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks (RAG) |
외부 지식베이스에서 문서를 검색해 생성 모델에 통합함으로써 지식집약형 과제 성능을 향상시킴. |
지식증강, 검색, 생성모델 |
| 2021.06 |
LoRA: Low‑Rank Adaptation of Large Language Models |
저차원 적응 행렬만 학습해 대형 언어모델 파인튜닝 시 효율성과 확장성을 크게 개선함. |
파인튜닝효율화, 저차원화, 적응행렬 |
| 2022.01 |
Chain‑of‑Thought Prompting Elicits Reasoning in Large Language Models |
추론 과정을 단계별로 유도하는 프롬프트로 LLM의 복합적 문제 해결 능력을 향상시킴. |
추론유도, 프롬프트엔지니어링, LLM |
| 2022.03 |
Chinchilla: Training Compute‑Optimal Large Language Models |
연산량 대비 최적 모델 크기를 제안해 학습 자원을 효율적으로 사용하면서 성능을 극대화함. |
스케일링법칙, 연산최적화, 모델크기 |
| 2023 |
Alpaca: An Instruction‑Following LLaMA Model |
GPT-3.5 튜닝 데이터를 활용해 LLaMA에 지침 기반 학습을 적용한 경량 지침추종 모델을 발표함. |
지침추종, 파인튜닝, 경량모델 |
| 2023.02 |
LLaMA: Open and Efficient Foundation Language Models |
다양한 크기의 효율적 파라미터 설계로 경쟁력 있는 언어모델을 오픈소스 형태로 공개함. |
언어모델, 파라미터효율성, 오픈소스 |
| 2023.04 |
Direct Preference Optimization (DPO) |
사용자 선호 데이터를 직접 최적화해 기존 RLHF 없이도 고품질 응답을 학습하는 새로운 방식을 제안함. |
선호학습, RLHF대체, 최적화 |