GPT-1: Improving Language Understanding

논문 원본: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
논문 간단 요약: GPT-1은 사전학습과 미세조정을 결합해, 구조 변경 없이도 다양한 자연어 이해 과제에서 높은 성능을 달성한 최초의 범용 언어 모델 프레임워크
Abstract
- 자연어 이해(NLU)는 텍스트 함의, 질문 응답, 유사도 평가, 문서 분류 등 다양한 과제를 포함함.
- Unlabeled 텍스트 데이터는 많지만, 각 과제에 맞는 labeled 데이터는 부족하여 기존 판별 모델의 성능이 제한됨.
- 본 논문은 Generative Pre-Training + Discriminative Fine-Tuning 접근법을 제안함.
- 대규모 비지도 텍스트로 사전 학습을 먼저 수행한 뒤,
- 각 작업에 대해 소량의 레이블 데이터로 미세 조정함.
- 별도의 모델 구조 변경 없이, 입력 변환만으로도 다양한 작업에 효과적으로 전이 가능함.
- 12개 작업 중 9개에서 기존 SOTA를 능가했으며,
- 예: 상식 추론 +8.9%, 질문 응답 +5.7%, 텍스트 함의 +1.5% 성능 향상
- 이로써 일반적인 사전학습 모델이 특정 작업 특화 모델보다 더 우수한 성능을 낼 수 있음을 보여줌.
Introduce
- 배경 문제
- NLP의 많은 과제는 대량의 레이블링된 데이터에 의존하지만, 대부분의 도메인에서는 주석 자원이 부족함.
- 반면, unlabeled 원시 텍스트는 풍부하므로 이를 활용할 수 있는 모델이 필요함.
- 기존에는 word-level 사전학습(Word Embedding)이 대표적이었지만, 문장 이상 수준의 표현 학습은 여전히 어려움이 있음.
- 기존 접근의 한계
- 어떤 비지도 학습 목표가 가장 효과적인지 명확하지 않음 (예: 언어모델링, 번역, 담화 일관성 등).
- 학습된 표현을 downstream task로 어떻게 전이시킬지에 대한 통일된 방법이 없음.
- 예: 구조 수정, 복잡한 학습 방식, 보조 목적 추가 등 다양하게 시도됨.
- 본 논문의 접근
- Generative Pre-Training + Discriminative Fine-Tuning의 2단계 학습 전략 제안.
- 목표: 최소한의 조정만으로 다양한 과제에 전이 가능한 범용 표현(universal representation)을 학습하는 것.
- 도메인이 달라도 전이 가능함을 전제로 함.
- 모델 및 기법
- Transformer 사용: 장기 의존성 처리와 전이 학습에 적합한 구조.
- 입력은 task-specific input adaptation을 통해 연속된 token 시퀀스로 변환 (Traversal 방식 기반).
- 아키텍처는 거의 변경하지 않고 입력만 조정하여 다양한 작업에 적용 가능함.
- 평가 및 성과
- 4가지 NLU task: 자연어 추론, 질문 응답, 의미 유사도, 텍스트 분류
- 총 12개 과제 중 9개에서 기존 SOTA보다 우수한 성능 달성
- 예:
- Stories Cloze Test: +8.9%
- RACE (QA): +5.7%
- MultiNLI (Textual Entailment): +1.5%
- GLUE benchmark: +5.5%
- 예:
- 추가 분석
- Fine-tuning 없이도 Zero-shot setting에서 모델이 유용한 언어 지식을 보유하고 있음을 입증함.
- GPT-1의 Decoder-only 구조와 Cross Attention 제거 이유
GPT-1은 Transformer의 Decoder 부분만을 단독으로 사용하는 구조를 채택했다. 일반적인 Transformer 구조에서는 Decoder가 Encoder의 출력을 참조하기 위해 Cross Attention 메커니즘을 사용하지만, GPT-1은 Encoder 없이 Decoder만을 사용하므로 이러한 Cross Attention이 불필요하다.
즉, GPT-1은 자기 회귀적(next-token prediction) 언어 모델링에 집중하기 때문에, 이전 토큰의 정보를 바탕으로 다음 토큰을 예측하면 되며, 다른 입력 시퀀스를 참조할 필요가 없기 때문이다. 따라서 모델은 Masked Self-Attention만을 사용하며, 이를 통해 입력 시퀀스 내 자기 자신만을 기반으로 정보를 추론하게 된다.
Related Work
1. 자연어 처리에서의 반지도 학습 (Semi-Supervised Learning in NLP)
- 전통적 반지도 학습은 라벨 없는 텍스트의 통계 정보를 계산해 감독 학습의 입력 피처로 활용함.
- 이후 발전된 방식은 word embedding(예: Word2Vec, GloVe)을 사용하여 다양한 NLP 작업 성능을 향상시킴.
- 하지만 기존 방식은 대부분 단어 수준(word-level)에 국한, 더 높은 수준의 의미 표현 전이에는 한계가 있었음.
- 최근에는 문장 또는 구 수준의 임베딩 학습 시도가 증가함.
2. 비지도 사전 학습 (Unsupervised Pre-Training)
- 비지도 사전 학습은 labeled data 없이 모델의 초기 파라미터를 효과적으로 설정하려는 방식.
- 초기에는 이미지, 음성 등 다른 도메인에서 활발히 활용되었으며, 일종의 정규화 방식으로 모델 성능 향상에도 기여함.
- NLP에서는 언어 모델링 목표를 통한 사전 학습 + 지도 학습 방식이 도입됨.
- 예: Dai et al., Howard & Ruder는 LSTM 기반 모델로 텍스트 분류 성능 향상을 보였으나, 장기 의존성 포착이 어려움.
- GPT-1의 차별점:
- LSTM이 아닌 Transformer 기반 사전학습 모델을 사용해 장기적 문맥 구조(longer-range linguistic structure)를 효과적으로 학습함.
- 모델 구조를 바꾸지 않고 전이 가능하다는 점에서 효율적임.
- 단순 분류 외에도 자연어 추론, 질문 응답, 이야기 완성 등 다양한 작업에 확장 가능함.
3. 보조 학습 목표 (Auxiliary Objectives)
- 일부 연구는 보조적인 언어 모델링 목표를 추가하여 시퀀스 라벨링 등에서 성능을 향상시킴.
- 예: Collobert & Weston, Rei 등의 연구
- GPT-1 역시 실험에서 보조 목표를 일부 활용하지만, 기본적인 비지도 사전 학습만으로도 높은 성능을 보여줌.
GPT-1
1. Unsupervised pre-trainig
- GPT-1은 Transformer의 Decoder 부분만 사용하여 다음 단어 예측(Next Word Prediction)을 학습 목표로 설정함.
- 입력 문장에서 앞 단어들이 주어졌을 때, 다음 단어의 확률을 최대화하는 방식으로 언어 모델을 사전 학습함.
- 학습 구조:
- 임베딩 + 포지션 임베딩
- Decoder 블록 12개 통과
- 최종 Softmax로 단어 예측

K = context window의 사이즈(모델이 최대 처리할 수 있는 단어 길이)
Θ = 뉴럴네트워크의 파라미터
이 네트워크에서 ui−k,...,ui−1가 주어졌을 때 ui의 확률값을 계산하는 식.
ex) I love you라는 문장이 있으면 I, love 가 주어졌을 때 you를 예측하는 확률값

U는 토큰 자체.
기존 decoder 부분에서 encoder layer가 없기 때문에 encoder-decoder attention을 제외하였고, 임베딩(We)후 potision embedding matrix( Wp )를 더하고, layer의 갯수만큼 decoder block을 통과하고 position-wise layer( WeT )를 거쳐 softmax로 확률값을 구함.

2. Supervised fine-tuning
GPT-1은 비지도 사전학습(pre-training)을 마친 후, 주어진 다운스트림 과제에 맞게 supervised fine-tuning을 수행함. 이 단계에서는 레이블이 부여된 데이터셋을 사용하여 모델을 구체적인 과제에 적응시킴.
- 데이터셋 : 각 샘플은 입력 시퀀스 x1,x2,...과 정답 레이블 로 구성됨.
- 입력 시퀀스를 GPT-1 모델에 통과시키면, 마지막 토큰에 해당하는 hidden state hlm가 출력됨.
- 이 벡터를 task-specific linear layer 에 곱한 후 softmax를 통해 예측을 생성함.
- 이때, 비지도 손실 항을 추가하여 일반화 성능 향상과 수렴 속도 개선 효과를 얻음.

-> 예측 수식
이 식은 GPT-1이 시퀀스의 마지막 토큰까지 처리한 뒤 얻은 은닉 상태 hlm를 선형변환(linear projection)하여 각 클래스의 점수를 만든 다음, softmax를 통해 확률 분포로 바꾸는 과정을 나타냄. 이 확률 분포에서 가장 높은 값을 가지는 클래스가 모델의 예측값이 됨.

-> Supervised Loss (지도 손실 함수)
모델이 예측한 확률 P(y∣x)가 실제 정답 레이블 y일 확률을 log 취해서 더한 값. 즉, cross-entropy loss에 해당함.
이 손실 값을 최대화하는 방향으로 학습하면 모델이 정답 레이블을 맞출 확률이 점점 높아짐.

-> Auxiliary Objective (보조 손실 함수 포함)
GPT-1에서는 성능을 더 향상시키기 위해 사전학습 단계에서 사용했던 언어 모델링 손실 L1을 보조적으로 계속 학습에 활용함.
- : supervised task에 대한 예측 정확도 향상을 위한 손실
- : 기존 언어 모델링(다음 단어 예측) 손실
- : 두 손실 간의 가중치를 조정하는 하이퍼파라미터
-> 두 손실을 함께 학습하면 다음과 같은 효과가 있음:
- 모델이 과적합 없이 더 일반적인 표현을 학습함 → 일반화 성능 향상
- 이미 익숙한 언어 패턴을 다시 학습하면서 → 학습 속도 향상
Fine-tuning 시 추가로 학습되는 것은 매우 제한적임:
- Linear Layer : 출력값을 label로 변환하기 위한 소규모 레이어
- 작업별 특화 입력 토큰들(delimiter token)의 임베딩
즉, 모델 구조는 그대로 두고 최소한의 파라미터만 추가해도 다양한 태스크에 적응 가능함.

3. Task-specific input transformations
GPT-1은 문장을 연속된 토큰 시퀀스로 처리하도록 사전 학습되었기 때문에, 문장쌍(premise + hypothesis)이나 문서+질문+답변처럼 구조화된 입력을 다루기 위해서는 Traversal-style input transformation이 필요함.
기존 연구들은 전이된 표현 위에 복잡한 task-specific 아키텍처를 추가했지만, GPT-1은 입력 구조만 변환함으로써 모델 구조는 그대로 유지함.
Task 유형입력 구조 및 처리 방식
| Text Classification | 입력 문장 전체를 그대로 입력 → 분류 |
| Textual Entailment | 두 문장을 하나의 시퀀스로 합쳐서 모델에 전달하면, 마지막 토큰의 hidden state를 기반으로 세 가지 중 하나를 예측: Entailment (함축), Contradiction (모순), Neutral (중립) |
| Similarity | (Text1, Text2)와 (Text2, Text1)을 각각 입력 → Output을 element-wise 합산 문장 순서에 영향을 받지 않도록 쌍방향 입력을 구성하고, 모델이 양쪽 정보를 모두 고려하도록 함 |
| QA / Commonsense Reasoning | Context + Question + 각 답 후보를 구성하여 각 후보마다 모델 forward → softmax 비교로 정답 선택 |
Experiments
4.1 Setup – 실험 구성
사전학습 (Unsupervised Pre-training)
- 사용한 데이터는 BooksCorpus로, 7,000권이 넘는 미출간 소설로 구성됨. 판타지, 로맨스, 어드벤처 등 다양한 장르의 긴 문장이 포함되어 있음.
- 이 데이터셋은 문장 순서를 유지하고 있어서, 장기적인 문맥 정보를 학습하기에 적합함.
- 비슷한 크기의 다른 데이터셋(예: 1B Word Benchmark)은 문장이 섞여 있어 문맥 구조가 사라지기 때문에 GPT-1 목적에는 부적합함.
- 결과적으로 GPT-1은 이 데이터에서 Perplexity 18.4라는 매우 낮은 언어 모델 성능을 달성함.
모델 아키텍처
- GPT-1은 12-layer Transformer Decoder 구조를 기반으로 함.
- 각 층의 hidden size는 768, attention head는 12개.
- FFN(피드포워드 네트워크) 내부 차원은 3072로 설정.
- 학습은 Adam optimizer로 진행, learning rate는 2.5e-4부터 시작해 warm-up 후 cosine decay.
- 미니배치는 64개 시퀀스(batch), 각 시퀀스 길이는 512 토큰.
- GELU 활성화 함수, BPE tokenizer(40,000 vocab), 다양한 정규화(dropout, L2 등)를 적용.
- 학습 시, 텍스트 정제(ftfy), 토큰화(spaCy)를 함께 사용.
파인튜닝 (Fine-tuning)
- 대부분의 하이퍼파라미터는 사전학습과 동일하게 유지.
- 분류기의 dropout은 0.1로 설정.
- Learning rate는 6.25e-5, batch size는 32.
- 대부분의 과제에서 단 3 epoch만으로도 충분히 수렴.
- 학습 초기에 learning rate warmup 적용(전체의 0.2%)
- 보조 손실(unsupervised objective)의 가중치 λ는 0.5로 설정.
4.2 Fine-tuning 실험 결과
자연어 추론 (Natural Language Inference, NLI)
| MNLI | 뉴스/문학/정부문서 | +1.5% |
| SciTail | 과학 문제 | +5.0% |
| QNLI | 위키피디아 | +5.8% |
| SNLI | 이미지 캡션 | +0.6% |
| RTE | 뉴스/기초 데이터 | 기존보다 낮음 (56%) |
GPT-1은 다양한 스타일의 문장쌍을 이해하고 추론하는 데 뛰어난 성능을 보임. 특히 긴 문장이나 문맥 간 관계를 이해하는 데 유리했고, 이는 사전학습에서 이미 긴 문맥을 많이 접한 결과로 보임.
RTE는 예외적으로 데이터가 매우 적어서 기존 multitask 기반 LSTM보다 낮았지만, 이는 별도 학습 전략이 필요하다는 것을 시사함.
질문 응답 & 상식 추론 (QA & Commonsense Reasoning)
| RACE | 중·고등학생 시험 지문 | +5.7% |
| Story Cloze | 이야기 마무리 선택 | +8.9% |
의미 유사도 (Semantic Similarity)
| STS-B | 문장 의미 점수 예측 | +1.0 (Pearson corr) |
| QQP | 유사 질문 분류 | +4.2% |
| MRPC | 뉴스 문장쌍 | 기존 모델과 비슷함 |
분류 과제 (Text Classification)
Dataset설명성능
| CoLA | 문법성 판단 (Matthews corr) | +10.4점 (45.4) |
| SST-2 | 감정 분류 (긍/부정) | 91.3% accuracy |
GPT-1은 단순한 분류 과제에서도 강력한 성능을 보여줌. 특히 CoLA에서 문법 판단 능력이 두드러졌고, 이는 GPT-1이 사전학습을 통해 언어의 문법적 구조까지 내재화했음을 보여줌.
Analysis

- GPT-1의 사전학습 계층은 전부 유의미한 정보를 담고 있으며, 더 많이 전이할수록 효과적.
- 사전학습만으로도 다양한 과제에 대해 zero-shot 능력을 일정 수준 확보 가능.
- Transformer 구조는 LSTM보다 전이 안정성, 성능 모두 우수.
- 사전학습 + 미세조정 구조는 제거할 수 없는 필수 학습 전략임.
Conclusion
- Generative Pre-training + Discriminative Fine-tuning 프레임워크는 강력한 NLU 성능을 발휘할 수 있음.
- GPT-1은 긴 문맥의 연속된 텍스트에 대한 사전학습을 통해:
- 세계 지식(world knowledge)
- 장기 의존성 처리 능력(long-range dependencies)을 내재화함.
- 이 능력은 다양한 다운스트림 과제(QA, 유사도, 추론, 분류 등)에 효과적으로 전이됨.
- 12개 과제 중 9개에서 SOTA 성능 달성
단일한, task-agnostic 모델도 사전학습 + 미세조정만으로 자연어 이해 과제를 효과적으로 해결할 수 있다
Reference
https://www.youtube.com/watch?v=o_Wl29aW5XM