Paper review/NLP

GPT-1: Improving Language Understanding

오서영 2025. 4. 4. 14:07

논문 원본: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

논문 간단 요약: GPT-1은 사전학습과 미세조정을 결합해, 구조 변경 없이도 다양한 자연어 이해 과제에서 높은 성능을 달성한 최초의 범용 언어 모델 프레임워크


Abstract

  • 자연어 이해(NLU)는 텍스트 함의, 질문 응답, 유사도 평가, 문서 분류 등 다양한 과제를 포함함.
  • Unlabeled 텍스트 데이터는 많지만, 각 과제에 맞는 labeled 데이터는 부족하여 기존 판별 모델의 성능이 제한됨.
  • 본 논문은 Generative Pre-Training + Discriminative Fine-Tuning 접근법을 제안함.
    • 대규모 비지도 텍스트로 사전 학습을 먼저 수행한 뒤,
    • 각 작업에 대해 소량의 레이블 데이터로 미세 조정함.
  • 별도의 모델 구조 변경 없이, 입력 변환만으로도 다양한 작업에 효과적으로 전이 가능함.
  • 12개 작업 중 9개에서 기존 SOTA를 능가했으며,
    • 예: 상식 추론 +8.9%, 질문 응답 +5.7%, 텍스트 함의 +1.5% 성능 향상
  • 이로써 일반적인 사전학습 모델이 특정 작업 특화 모델보다 더 우수한 성능을 낼 수 있음을 보여줌.

Introduce

  • 배경 문제
    • NLP의 많은 과제는 대량의 레이블링된 데이터에 의존하지만, 대부분의 도메인에서는 주석 자원이 부족함.
    • 반면, unlabeled 원시 텍스트는 풍부하므로 이를 활용할 수 있는 모델이 필요함.
    • 기존에는 word-level 사전학습(Word Embedding)이 대표적이었지만, 문장 이상 수준의 표현 학습은 여전히 어려움이 있음.
  • 기존 접근의 한계
    • 어떤 비지도 학습 목표가 가장 효과적인지 명확하지 않음 (예: 언어모델링, 번역, 담화 일관성 등).
    • 학습된 표현을 downstream task로 어떻게 전이시킬지에 대한 통일된 방법이 없음.
      • 예: 구조 수정, 복잡한 학습 방식, 보조 목적 추가 등 다양하게 시도됨.
  • 본 논문의 접근
    • Generative Pre-Training + Discriminative Fine-Tuning의 2단계 학습 전략 제안.
    • 목표: 최소한의 조정만으로 다양한 과제에 전이 가능한 범용 표현(universal representation)을 학습하는 것.
    • 도메인이 달라도 전이 가능함을 전제로 함.
  • 모델 및 기법
    • Transformer 사용: 장기 의존성 처리와 전이 학습에 적합한 구조.
    • 입력은 task-specific input adaptation을 통해 연속된 token 시퀀스로 변환 (Traversal 방식 기반).
    • 아키텍처는 거의 변경하지 않고 입력만 조정하여 다양한 작업에 적용 가능함.
  • 평가 및 성과
    • 4가지 NLU task: 자연어 추론, 질문 응답, 의미 유사도, 텍스트 분류
    • 총 12개 과제 중 9개에서 기존 SOTA보다 우수한 성능 달성
      • 예:
        • Stories Cloze Test: +8.9%
        • RACE (QA): +5.7%
        • MultiNLI (Textual Entailment): +1.5%
        • GLUE benchmark: +5.5%
  • 추가 분석
    • Fine-tuning 없이도 Zero-shot setting에서 모델이 유용한 언어 지식을 보유하고 있음을 입증함.

- GPT-1의 Decoder-only 구조와 Cross Attention 제거 이유

GPT-1은 Transformer의 Decoder 부분만을 단독으로 사용하는 구조를 채택했다. 일반적인 Transformer 구조에서는 Decoder가 Encoder의 출력을 참조하기 위해 Cross Attention 메커니즘을 사용하지만, GPT-1은 Encoder 없이 Decoder만을 사용하므로 이러한 Cross Attention이 불필요하다.

즉, GPT-1은 자기 회귀적(next-token prediction) 언어 모델링에 집중하기 때문에, 이전 토큰의 정보를 바탕으로 다음 토큰을 예측하면 되며, 다른 입력 시퀀스를 참조할 필요가 없기 때문이다. 따라서 모델은 Masked Self-Attention만을 사용하며, 이를 통해 입력 시퀀스 내 자기 자신만을 기반으로 정보를 추론하게 된다.

Related Work

1. 자연어 처리에서의 반지도 학습 (Semi-Supervised Learning in NLP)

  • 전통적 반지도 학습은 라벨 없는 텍스트의 통계 정보를 계산해 감독 학습의 입력 피처로 활용함.
  • 이후 발전된 방식은 word embedding(예: Word2Vec, GloVe)을 사용하여 다양한 NLP 작업 성능을 향상시킴.
  • 하지만 기존 방식은 대부분 단어 수준(word-level)에 국한, 더 높은 수준의 의미 표현 전이에는 한계가 있었음.
  • 최근에는 문장 또는 구 수준의 임베딩 학습 시도가 증가함.

2. 비지도 사전 학습 (Unsupervised Pre-Training)

  • 비지도 사전 학습은 labeled data 없이 모델의 초기 파라미터를 효과적으로 설정하려는 방식.
  • 초기에는 이미지, 음성 등 다른 도메인에서 활발히 활용되었으며, 일종의 정규화 방식으로 모델 성능 향상에도 기여함.
  • NLP에서는 언어 모델링 목표를 통한 사전 학습 + 지도 학습 방식이 도입됨.
    • 예: Dai et al., Howard & Ruder는 LSTM 기반 모델로 텍스트 분류 성능 향상을 보였으나, 장기 의존성 포착이 어려움.
  • GPT-1의 차별점:
    • LSTM이 아닌 Transformer 기반 사전학습 모델을 사용해 장기적 문맥 구조(longer-range linguistic structure)를 효과적으로 학습함.
    • 모델 구조를 바꾸지 않고 전이 가능하다는 점에서 효율적임.
    • 단순 분류 외에도 자연어 추론, 질문 응답, 이야기 완성 등 다양한 작업에 확장 가능함.

3. 보조 학습 목표 (Auxiliary Objectives)

  • 일부 연구는 보조적인 언어 모델링 목표를 추가하여 시퀀스 라벨링 등에서 성능을 향상시킴.
    • 예: Collobert & Weston, Rei 등의 연구
  • GPT-1 역시 실험에서 보조 목표를 일부 활용하지만, 기본적인 비지도 사전 학습만으로도 높은 성능을 보여줌.

GPT-1

1. Unsupervised pre-trainig

  • GPT-1은 Transformer의 Decoder 부분만 사용하여 다음 단어 예측(Next Word Prediction)을 학습 목표로 설정함.
  • 입력 문장에서 앞 단어들이 주어졌을 때, 다음 단어의 확률을 최대화하는 방식으로 언어 모델을 사전 학습함.
  • 학습 구조:
    • 임베딩 + 포지션 임베딩
    • Decoder 블록 12개 통과
    • 최종 Softmax로 단어 예측


K = context window의 사이즈(모델이 최대 처리할 수 있는 단어 길이)

Θ = 뉴럴네트워크의 파라미터

이 네트워크에서 ui−k,...,ui−1가 주어졌을 때 ui의 확률값을 계산하는 식.

ex) I love you라는 문장이 있으면 I, love 가 주어졌을 때 you를 예측하는 확률값

U는 토큰 자체. 
기존 decoder 부분에서 encoder layer가 없기 때문에 encoder-decoder attention을 제외하였고, 임베딩(We)후  potision embedding matrix( Wp )를 더하고, layer의 갯수만큼 decoder block을 통과하고 position-wise layer( WeT )를 거쳐 softmax로 확률값을 구함.

 

2. Supervised fine-tuning

GPT-1은 비지도 사전학습(pre-training)을 마친 후, 주어진 다운스트림 과제에 맞게 supervised fine-tuning을 수행함. 이 단계에서는 레이블이 부여된 데이터셋을 사용하여 모델을 구체적인 과제에 적응시킴.

  • 데이터셋 : 각 샘플은 입력 시퀀스 x1,x2,...과 정답 레이블 로 구성됨.
  • 입력 시퀀스를 GPT-1 모델에 통과시키면, 마지막 토큰에 해당하는 hidden state hlm가 출력됨.
  • 이 벡터를 task-specific linear layer 에 곱한 후 softmax를 통해 예측을 생성함.
  • 이때, 비지도 손실 항을 추가하여 일반화 성능 향상과 수렴 속도 개선 효과를 얻음.

-> 예측 수식

이 식은 GPT-1이 시퀀스의 마지막 토큰까지 처리한 뒤 얻은 은닉 상태 hlm를 선형변환(linear projection)하여 각 클래스의 점수를 만든 다음, softmax를 통해 확률 분포로 바꾸는 과정을 나타냄. 이 확률 분포에서 가장 높은 값을 가지는 클래스가 모델의 예측값이 됨.

-> Supervised Loss (지도 손실 함수)

모델이 예측한 확률 P(y∣x)가 실제 정답 레이블 y일 확률을 log 취해서 더한 값. 즉, cross-entropy loss에 해당함.
이 손실 값을 최대화하는 방향으로 학습하면 모델이 정답 레이블을 맞출 확률이 점점 높아짐.

-> Auxiliary Objective (보조 손실 함수 포함)

GPT-1에서는 성능을 더 향상시키기 위해 사전학습 단계에서 사용했던 언어 모델링 손실 L1을 보조적으로 계속 학습에 활용함.

  • : supervised task에 대한 예측 정확도 향상을 위한 손실
  • : 기존 언어 모델링(다음 단어 예측) 손실
  • : 두 손실 간의 가중치를 조정하는 하이퍼파라미터

-> 두 손실을 함께 학습하면 다음과 같은 효과가 있음:

  1. 모델이 과적합 없이 더 일반적인 표현을 학습함 → 일반화 성능 향상
  2. 이미 익숙한 언어 패턴을 다시 학습하면서 → 학습 속도 향상

Fine-tuning 시 추가로 학습되는 것은 매우 제한적임:

  • Linear Layer : 출력값을 label로 변환하기 위한 소규모 레이어
  • 작업별 특화 입력 토큰들(delimiter token)의 임베딩

즉, 모델 구조는 그대로 두고 최소한의 파라미터만 추가해도 다양한 태스크에 적응 가능함.

3. Task-specific input transformations

GPT-1은 문장을 연속된 토큰 시퀀스로 처리하도록 사전 학습되었기 때문에, 문장쌍(premise + hypothesis)이나 문서+질문+답변처럼 구조화된 입력을 다루기 위해서는 Traversal-style input transformation이 필요함.

 

기존 연구들은 전이된 표현 위에 복잡한 task-specific 아키텍처를 추가했지만, GPT-1은 입력 구조만 변환함으로써 모델 구조는 그대로 유지함.

 

Task 유형입력 구조 및 처리 방식

Text Classification 입력 문장 전체를 그대로 입력 → 분류
Textual Entailment 두 문장을 하나의 시퀀스로 합쳐서 모델에 전달하면,
마지막 토큰의 hidden state를 기반으로 세 가지 중 하나를 예측:
Entailment (함축), Contradiction (모순), Neutral (중립)
Similarity (Text1, Text2)와 (Text2, Text1)을 각각 입력 → Output을 element-wise 합산
문장 순서에 영향을 받지 않도록 쌍방향 입력을 구성하고,
모델이 양쪽 정보를 모두 고려하도록 함
QA / Commonsense Reasoning Context + Question + 각 답 후보를 구성하여 각 후보마다 모델 forward → softmax 비교로 정답 선택

Experiments

4.1 Setup – 실험 구성

사전학습 (Unsupervised Pre-training)

  • 사용한 데이터는 BooksCorpus로, 7,000권이 넘는 미출간 소설로 구성됨. 판타지, 로맨스, 어드벤처 등 다양한 장르의 긴 문장이 포함되어 있음.
  • 이 데이터셋은 문장 순서를 유지하고 있어서, 장기적인 문맥 정보를 학습하기에 적합함.
  • 비슷한 크기의 다른 데이터셋(예: 1B Word Benchmark)은 문장이 섞여 있어 문맥 구조가 사라지기 때문에 GPT-1 목적에는 부적합함.
  • 결과적으로 GPT-1은 이 데이터에서 Perplexity 18.4라는 매우 낮은 언어 모델 성능을 달성함.

모델 아키텍처

  • GPT-1은 12-layer Transformer Decoder 구조를 기반으로 함.
  • 각 층의 hidden size는 768, attention head는 12개.
  • FFN(피드포워드 네트워크) 내부 차원은 3072로 설정.
  • 학습은 Adam optimizer로 진행, learning rate는 2.5e-4부터 시작해 warm-up 후 cosine decay.
  • 미니배치는 64개 시퀀스(batch), 각 시퀀스 길이는 512 토큰.
  • GELU 활성화 함수, BPE tokenizer(40,000 vocab), 다양한 정규화(dropout, L2 등)를 적용.
  • 학습 시, 텍스트 정제(ftfy), 토큰화(spaCy)를 함께 사용.

파인튜닝 (Fine-tuning)

  • 대부분의 하이퍼파라미터는 사전학습과 동일하게 유지.
  • 분류기의 dropout은 0.1로 설정.
  • Learning rate는 6.25e-5, batch size는 32.
  • 대부분의 과제에서 단 3 epoch만으로도 충분히 수렴.
  • 학습 초기에 learning rate warmup 적용(전체의 0.2%)
  • 보조 손실(unsupervised objective)의 가중치 λ는 0.5로 설정.

4.2 Fine-tuning 실험 결과

자연어 추론 (Natural Language Inference, NLI)

Dataset성격성능 향상
MNLI 뉴스/문학/정부문서 +1.5%
SciTail 과학 문제 +5.0%
QNLI 위키피디아 +5.8%
SNLI 이미지 캡션 +0.6%
RTE 뉴스/기초 데이터 기존보다 낮음 (56%)


GPT-1은 다양한 스타일의 문장쌍을 이해하고 추론하는 데 뛰어난 성능을 보임. 특히 긴 문장이나 문맥 간 관계를 이해하는 데 유리했고, 이는 사전학습에서 이미 긴 문맥을 많이 접한 결과로 보임.
RTE는 예외적으로 데이터가 매우 적어서 기존 multitask 기반 LSTM보다 낮았지만, 이는 별도 학습 전략이 필요하다는 것을 시사함.

 

질문 응답 & 상식 추론 (QA & Commonsense Reasoning)

Dataset특징성능 향상
RACE 중·고등학생 시험 지문 +5.7%
Story Cloze 이야기 마무리 선택 +8.9%
GPT-1은 단일 문장이 아닌 여러 문장을 종합해서 이해하고 추론하는 문제에서 강력한 성능을 보여줌. 특히 RACE는 기존 모델들이 어려워했던 시험 스타일 문제인데, GPT-1은 이를 효과적으로 해결함.

 

의미 유사도 (Semantic Similarity)

Dataset성격성능 향상
STS-B 문장 의미 점수 예측 +1.0 (Pearson corr)
QQP 유사 질문 분류 +4.2%
MRPC 뉴스 문장쌍 기존 모델과 비슷함
두 문장의 의미가 유사한지를 판단하는 과제에서는 의미 재구성, 부정 표현 이해 등 언어의 미묘한 부분을 이해해야 하는데, GPT-1은 이 점에서 특히 STS-BQQP에서 좋은 성능을 보임.

 

분류 과제 (Text Classification)

Dataset설명성능

CoLA 문법성 판단 (Matthews corr) +10.4점 (45.4)
SST-2 감정 분류 (긍/부정) 91.3% accuracy

GPT-1은 단순한 분류 과제에서도 강력한 성능을 보여줌. 특히 CoLA에서 문법 판단 능력이 두드러졌고, 이는 GPT-1이 사전학습을 통해 언어의 문법적 구조까지 내재화했음을 보여줌.

 

Analysis

의미 유사도 및 분류 과제에 대한 결과로, 본 모델과 현재 최고 성능 모델들을 비교한 것이다. 이 표에 포함된 모든 과제 평가는 GLUE 벤치마크를 기반으로 수행되었다. (mc = 매튜 상관 계수, acc = 정확도, pc = 피어슨 상관 계수)

 

  • GPT-1의 사전학습 계층은 전부 유의미한 정보를 담고 있으며, 더 많이 전이할수록 효과적.
  • 사전학습만으로도 다양한 과제에 대해 zero-shot 능력을 일정 수준 확보 가능.
  • Transformer 구조는 LSTM보다 전이 안정성, 성능 모두 우수.
  • 사전학습 + 미세조정 구조는 제거할 수 없는 필수 학습 전략임.

 

Conclusion

 

  • Generative Pre-training + Discriminative Fine-tuning 프레임워크는 강력한 NLU 성능을 발휘할 수 있음.
  • GPT-1은 긴 문맥의 연속된 텍스트에 대한 사전학습을 통해:
    • 세계 지식(world knowledge)
    • 장기 의존성 처리 능력(long-range dependencies)을 내재화함.
  • 이 능력은 다양한 다운스트림 과제(QA, 유사도, 추론, 분류 등)에 효과적으로 전이됨.
    • 12개 과제 중 9개에서 SOTA 성능 달성

 

단일한, task-agnostic 모델도 사전학습 + 미세조정만으로 자연어 이해 과제를 효과적으로 해결할 수 있다

Reference

https://lcyking.tistory.com/entry/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-GPT-1Improving-Language-Understandingby-Generative-Pre-Training%EC%9D%98-%EC%9D%B4%ED%95%B4

https://www.youtube.com/watch?v=o_Wl29aW5XM