Paper review/NLP

GPT-3:Language Models are Few-Shot Learners

오서영 2025. 5. 21. 20:41

 

논문 원본: https://arxiv.org/abs/2005.14165

논문 한 줄 요약: 

 


 

버전 연도 파라미터 수 학습 데이터 주요 특징 논문
GPT-1 2018 1.17억 BookCorpus (7천만 단어) - 최초의 Transformer 기반 LM- Pretrain + Fine-tune 구조 Improving Language Understanding by Generative Pre-Training
GPT-2 2019 15억 WebText (8M 웹페이지) - Zero-/One-/Few-shot 성능 강조- 처음에는 위험성 우려로 모델 미공개 Language Models are Unsupervised Multitask Learners
GPT-3 2020 1,750억 Common Crawl + 기타 - Few-shot 능력 극대화- Fine-tuning 없이 다양한 작업 가능 Language Models are Few-Shot Learners
GPT-3.5 2022 ~1750억 (추정) GPT-3 + Instruct tuning - ChatGPT에 사용된 초기 모델- 대화형 fine-tuning 강화 (RLHF 포함) (공식 논문 없음, OpenAI 블로그 참고)
GPT-4 2023 미공개 (수천억~1조 추정) 다중 모달 (텍스트+이미지) - 멀티모달 입력 지원 (Pro 한정)- 더 강력한 추론과 안정성 GPT-4 Technical Report

 

 

1. Introduction 

개요

이 논문은 GPT-3라는 매우 큰 규모의 언어 모델을 제안하며, 기존 자연어처리(NLP) 방법론에서 학습 패러다임이 어떻게 바뀌어가는지를 설명한다. 특히 이 모델은 few-shot learning이라는 새로운 접근을 핵심으로 삼고 있다.

즉, 과거에는 특정 작업에 대해 모델을 별도로 학습(fine-tuning) 해야 했지만, GPT-3는 단지 예제 몇 개만 주어져도 높은 성능을 보이는 모델을 지향한다. 이것이 바로 GPT-3가 지닌 혁신이다.

전통적 NLP 학습 방식과의 비교

다음 표는 기존 방식과 GPT-3 방식의 차이를 비교한 것이다.

학습 방식 특징 예시
Fine-tuning 사전학습된 모델을 특정 작업에 맞게 추가 학습시킴 번역기 개발을 위해 기존 BERT 모델을 다시 학습
Few-shot learning 예시 몇 개만 제시하고, 모델을 추가 학습하지 않음 "이런 식으로 번역해줘"라는 예시 3개만 입력

 

기존에는 감정 분석을 하려면 대량의 라벨링된 감정 데이터를 수집하고 모델을 학습시켜야 했지만, GPT-3는 감정 분석 예시 몇 개만 입력하면 바로 유사한 작업을 수행할 수 있게끔 설계되어 있다.

논문에서의 문제 제기와 동기

연구자들은 기존의 fine-tuning 방식이 몇 가지 한계를 가지고 있다고 말한다.

  1. 작업(task)마다 학습해야 하므로 비효율적이다.
    예를 들어, 요약, 번역, 질문응답, 추론 등 다양한 작업이 있을 때, 각각에 대해 별도로 학습해야 한다. 이는 데이터 수집과 연산 비용이 크다는 단점을 가진다.
  2. 범용적인 모델을 만들기 어렵다.
    인간은 어떤 문제를 접했을 때, 예제를 몇 개만 보고도 일반화하여 문제를 해결한다. 하지만 기존 언어 모델은 그렇게 행동하지 못한다.

따라서 연구자들은 "사람처럼 새로운 작업을 빠르게 이해하고 해결할 수 있는 모델"을 만들고자 했고, 이것이 GPT-3의 출발점이 된다.

Few-shot learning의 핵심 아이디어

GPT-3는 단 하나의 모델로 수십 개의 작업을 해결할 수 있게 설계되었다. 훈련은 대량의 일반 텍스트 데이터로만 진행되며, 특정 작업을 위한 추가 학습은 하지 않는다. 대신 prompt(입력 예시)만 잘 설계하면, 그에 맞는 출력이 생성된다.

다음은 그 예시이다.

Prompt 입력:
영어 → 불어 번역
"cat" → "chat"
"house" → "maison"
"apple" →

GPT-3 출력:
"pomme"

이처럼, GPT-3는 몇 개의 예시를 통해 번역 작업을 이해하고, 그에 따른 적절한 결과를 낸다.

주요 주장

논문 저자들은 다음과 같은 주장을 펼친다.

  • 파라미터 수를 급격히 늘릴수록, 모델은 few-shot learning 성능이 향상된다.
  • Fine-tuning 없이도, 다양한 태스크에서 상당히 경쟁력 있는 성능을 보인다.
  • 즉, 거대한 언어 모델 하나로 여러 작업을 동시에 처리할 수 있는 범용성이 나타난다.

2. Approach – 심화 구조화 정리

2.1 Model and Architectures 

● 기본 아키텍처

GPT-3는 Transformer 기반의 Decoder-only 모델이다. 즉, 일반적인 Transformer 구조 중 자기회귀 방식만을 사용하며, 입력이 순차적으로 들어왔을 때 이전 단어들만을 기반으로 다음 단어를 예측하는 구조를 따른다.

  • 입력: 최대 2048개의 토큰
  • 출력: 항상 다음 토큰의 확률 분포
  • 학습 목표:

 

● 모델 크기 스케일링

모델 이름 파라미터 수 레이어 수 Hidden Dim Attention Heads
GPT-3 Small 1.25억 12 768 12
GPT-3 Medium 3.5억 24 1024 16
GPT-3 Large 7.74억 24 1536 20
GPT-3 XL 13억 24 2048 24
GPT-3 2.7B 27억 32 2560 32
GPT-3 6.7B 66억 32 4096 32
GPT-3 13B 130억 40 5120 40
GPT-3 175B 1,750억 96 12,288 96

→ 층 수, hidden dimension, head 수를 동시에 증가시키며, 규모의 힘(Scaling Law)을 실험한다.

● 왜 Decoder-only인가?

  • Encoder-Decoder 구조는 번역처럼 입력/출력이 서로 다른 경우에 유리하지만,
  • GPT-3는 언어 생성범용 태스크 수행을 목표로 하므로 Decoder만으로 충분하다.
  • 모든 태스크를 텍스트 생성으로 통일하여 표현할 수 있다는 점에서 일관성 있는 구조를 취한 것이다.

2.2 Training Dataset 

● 전체 토큰 수: 약 3000억 개의 토큰

데이터셋 설명 비율

Common Crawl 웹에서 긁어온 대규모 데이터 (필터링함) 약 60%
WebText2 Reddit 기반 고품질 문장 약 22%
Books1 / Books2 전자책 기반 문어체 데이터 약 16%
Wikipedia 영어 위키백과 전체 약 3%

→ 중복 제거, 품질 평가 필터링, 비영어 비율 제거 등을 통해 고품질 자연어 입력만 선별하였다.

● Common Crawl 필터링 방식

Common Crawl은 노이즈가 많기 때문에 다음 기준을 적용한다.

필터 조건 설명

text quality 점수 문법적 구조 분석
영어 단어 비율 영어 아닌 단어 비율 제거
중복률 유사 문장 필터링 (Near-duplicate removal)
토픽 균형 특정 도메인 쏠림 제거 (예: 광고, 스팸)

→ 이 과정을 통해 일반적인 인간 언어를 반영하는 고품질 데이터셋을 만들어냄.

2.3 Training Process

● 학습 목표

  • Auto-regressive Language Modeling
  • 다음 단어를 예측하도록 loss를 줄여나감
  • GPT는 fine-tuning 없이 prompt로만 사용되므로 사전학습이 전부

● 최적화 세팅

항목
Optimizer Adam
Learning rate schedule Cosine decay + Warm-up
Batch size 3.2M tokens/batch (병렬 학습)
Training steps 수천만 단계
Mixed precision 사용 (FP16)
Parallelism 모델 병렬, 데이터 병렬 모두 적용

→ 175B 모델의 경우, 최대 10,000개 GPU에 걸친 분산 학습을 통해 수주간 학습하였다.

● 컴퓨팅 자원

  • GPU 수: 수천 개 이상 (NVIDIA V100 기반)
  • FLOPs 총량: ~3640 PF-days
  • 전력 비용, 이산화탄소 배출량 등의 비용도 논란이 되었음

2.4 Evaluation Setup — 평가 방식과 전략

GPT-3는 fine-tuning 없이, 다양한 태스크에 prompt만 바꿔서 대응한다.

● 평가 유형

평가 방식 설명 예시
Zero-shot 예시 없이 질문만 "Translate 'apple' to French."
One-shot 예시 1개 제공 "'cat' → 'chat', 'apple' → ?"
Few-shot 예시 여러 개 제공 "'cat'→'chat', 'dog'→'chien', 'apple'→?"

→ GPT-3는 훈련된 태스크가 아님에도, 입력 문맥만으로 새로운 문제를 수행할 수 있다.

● 왜 이 평가가 중요한가?

  • 기존 모델들은 각 태스크마다 학습 필요
  • GPT-3는 학습하지 않은 태스크에 대해서도 단지 문맥 제공만으로 추론 가능
  • 이 구조는 "AI의 일반화 능력"을 평가하는 새로운 기준을 제시함

핵심 요약: GPT-3 Approach 전략의 의의

구성 요소 GPT-3의 전략
모델 구조 Transformer Decoder만 사용. 단순하되 확장성 높음
학습 데이터 필터링된 웹 텍스트 기반. 다양한 도메인 포함
훈련 방식 완전 사전학습 기반. Fine-tuning 없이 사용 가능
평가 전략 Zero/One/Few-shot 기반. 모델의 일반화 능력 검증

 

 

3. Results – GPT-3 성능 상세 분석

GPT-3의 평가 결과는 총 9가지 유형의 태스크에서 진행되며, 각 태스크는 Zero-shot, One-shot, Few-shot 세 가지 프롬프트 유형에 따라 수행되었다. 특히 모델 크기(예: 13B, 175B 등)와 성능 관계도 함께 관찰되었다.

3.1 Language Modeling, Cloze, and Completion Tasks

목적

  • 문장의 다음 단어 또는 중간 단어 예측 능력 평가
  • 인간 수준의 언어 흐름 이해 여부 측정

데이터셋

Penn Treebank (PTB) 고전적인 언어 모델 평가용 데이터
LAMBADA 긴 문맥 기반에서 마지막 단어 맞추기. 단순한 통계 예측이 아닌 문맥 이해 요구

GPT-3 성능

모델 LAMBADA 정확도 (%)

GPT-2 (1.5B) 18.0
GPT-3 (13B) 36.0
GPT-3 (175B) 76.2

GPT-3는 파라미터 수가 늘어날수록, 사람처럼 긴 문장을 기억하고 문맥상 적절한 단어를 예측할 수 있게 된다.

3.2 Closed Book Question Answering

목적

  • 외부 지식 없이 모델 내부에 학습된 정보로만 질문에 답할 수 있는지 평가
  • 즉, “암기력 + 일반 상식” 평가

데이터셋

NaturalQuestions 구글에서 수집한 실사용자 질문
TriviaQA 위키 기반 퀴즈형 질문
WebQuestions 웹 검색 로그 기반 질문

예시

Q: What is the capital of Canada?
A: Ottawa

GPT-3는 문서를 참고하지 않고 이와 같은 질문에 답변함.

 

모델 TriviaQA (zero-shot) 정확도 (%)

T5-11B (fine-tuned) 73.1
GPT-3 (175B) 68.0

별도 학습 없이도 파인튜닝된 QA 모델 수준에 근접하는 성능을 보임

3.3 Translation

목적

  • GPT-3가 다국어 번역을 이해하고 문법적으로 자연스러운 결과를 생성할 수 있는지 확인

데이터셋

WMT14 English ↔ French, English ↔ German

평가 방식

  • BLEU 점수: 예측된 번역문과 정답 번역문 간의 유사도를 정량화하는 지표 (높을수록 정확)
태스크  GPT-3 (Few-shot) SOTA supervised
EN → FR 40.6 41.5
EN → DE 24.6 30.6

GPT-3는 별도 번역 학습 없이도, 전문 번역 모델에 근접한 성능을 보임. 특히 영→불에서는 매우 유사한 수준

3.4 Winograd-Style Tasks

목적

  • 문맥 기반 상식 추론 수행 가능 여부 측정

예시 문제

The trophy doesn’t fit in the suitcase because it is too big. What is too big?
→ “The trophy”

→ 단어 “it”이 어떤 대상을 지칭하는지 추론해야 하며, 이는 단순한 문법 정보가 아닌 문맥 추론 능력이 필요하다.

GPT-3는 prompt 기반으로 이 문제에 접근하며, few-shot 설정에서 상당한 성능 향상을 보인다.

3.5 Common Sense Reasoning

목적

  • 인간의 기본 상식을 바탕으로 추론 가능한가?

데이터셋 및 설명

PIQA 일상 생활에서의 물리 지식에 대한 선택 문제 (예: “컵을 기울일 때 어떤 결과가 생기나?”)
HellaSwag 비상식적인 답을 제거하고, 가능한 후속 문장을 선택 (NLI+상식 복합형)
ARC 초등학생 수준 과학 퀴즈

GPT-3는 학습된 언어 표현 속에 담긴 통계적 상식을 통해 상당히 일관된 정답을 도출함.

→ 인간 수준에는 아직 미치지 못하지만, 단순한 패턴 기억이 아닌 상황 기반 선택에서 진전된 결과를 보임

3.6 Reading Comprehension

목적

  • GPT-3가 문단을 읽고 그 안의 정보를 이용해 질문에 답할 수 있는지 평가

데이터셋

RACE 중국 영어 시험 기반 고난이도 독해 문제
DROP 수치 기반 추론과 문단 분석을 포함한 질문들로 구성됨

→ RACE에서는 GPT-3가 사람이 읽고 푸는 것처럼 정답을 유도해냄
→ DROP에서는 수치 연산, 비교 추론 등에서 약점이 드러남

→ 즉, 단순 정보 회수에는 능하지만 계산 기반 reasoning에는 아직 미흡

3.7 SuperGLUE

목적

  • 종합 언어 능력 평가. 단순 문장 이해를 넘어 다수의 복합 문제 해결 가능 여부 확인
SuperGLUE 구성 태스크 과제
BoolQ 문장에 대해 참/거짓 추론
WiC 단어의 문맥 의미 비교
ReCoRD 문맥 기반 이름 대입

GPT-3는 Few-shot 설정에서 기존의 BERT, RoBERTa 등 fine-tuning된 모델 성능에 근접함. 하지만 zero-shot에서는 하락세가 있음 → prompt 구성의 민감도가 존재함

3.8 Natural Language Inference (NLI)

목적

  • 전제문과 가설문이 주어졌을 때, 두 문장 간의 관계를 논리적으로 판단할 수 있는지 측정
Entailment 가설이 전제로부터 논리적으로 따라옴
Contradiction 가설이 전제와 모순
Neutral 가설이 전제로부터 추론될 수 없음

GPT-3는 prompt를 통해 관계 유형을 유도하는 방식으로 문제를 해결함. Few-shot일수록 높은 정확도 보이며, 논리 이해에 기반한 문장 판단이 가능한 수준까지 도달함

3.9 Synthetic and Qualitative Tasks

목적

  • GPT-3의 창의적이고 질적인 생성 능력 평가

예시 태스크

  • HTML 코드 생성
  • 이야기 쓰기
  • 시 쓰기
  • 철학적 질문에 답하기
  • 자기소개 생성 등

특징

  • 정답이 없는 태스크에서 형식적 일관성과 창의성을 동시에 검토
  • 예를 들어, 사용자가 “웹페이지에 파란 버튼과 로그인 창을 생성하라”고 prompt를 입력하면, GPT-3는 실제로 HTML/CSS 구조를 생성해낼 수 있다

종합 요약: GPT-3 결과가 의미하는 것

항목 의미

크기 증가 파라미터 수가 많을수록 전반적인 성능이 향상되며, 언어/논리/상식 영역 모두 개선됨
Few-shot 성능 prompt만으로도 대부분의 태스크에서 SOTA 수준 접근 가능
한계점 계산 추론, 다중 문서 기반 추론, 논리 정확성 등 일부 한계 존재
시사점 사전학습 하나로 수십 개 태스크를 처리하는 범용 AI 가능성 실현의 시작점

 

 

4. Measuring and Preventing Memorization of Benchmarks

핵심 질문

GPT-3의 평가 성능이 높다는 것은 진짜 학습 덕분일까, 아니면 테스트셋과 유사한 데이터를 훈련 중에 외운 결과일까?

이 물음에 답하기 위해, 연구진은 다음 두 가지를 수행하였다:

  1. Benchmark contamination의 가능성 측정
  2. Contamination을 방지하기 위한 실험 설계 및 정책 마련

① Benchmark Contamination이란?

Contamination이란, 평가에 사용되는 데이터(예: 문제, 문장, 정답 등)가 GPT-3의 훈련 데이터에 직접 포함되거나 유사한 형태로 포함되어 있는 경우를 말한다.

이는 마치 학생이 시험문제를 시험 전에 미리 봤던 것과 같은 효과를 낳게 되어, 성능의 신뢰도를 떨어뜨릴 수 있다.

② Contamination 발생 가능성

GPT-3는 3000억 개의 토큰을 포함한 웹 기반 데이터(Crawl, Wikipedia, Books 등)로 훈련되었기 때문에,
벤치마크 데이터셋이 이 웹에 이미 공개되어 있는 경우 contamination 가능성이 있다.

예를 들어:

  • SuperGLUE, TriviaQA, LAMBADA, PIQA 같은 벤치마크들은 Github, 블로그, 공식 홈페이지, 논문 등을 통해 공개되어 있었고,
  • Common Crawl 데이터에 이들 문서가 크롤링되어 있었을 가능성이 크다.

③ Contamination 측정 방법

연구진은 “Test 문제 유사도 검사”를 통해 contamination 여부를 평가했다.

구체적 절차

  1. Test셋의 각 문장을 훈련 데이터에서 검색
  2. 유사도 기준:
    • 토큰 정확히 일치 여부
    • 문장 구조 유사 여부 (n-gram 기반)
  3. 해당 문장이 training data에 포함되었는지 수동으로 점검
  4. 점수 부여:
    • High overlap: 거의 동일
    • Medium overlap: 부분적으로 겹침
    • Low overlap: 거의 없음

→ 이 과정을 통해 데이터셋마다 contamination 가능성이 어느 정도인지를 평가하였다.

④ Contamination 판단 기준

오염 수준 설명 예시

High 정답 문장 또는 문제 전체가 훈련 데이터에 존재 "Q: What’s the capital of Canada?" → "A: Ottawa"가 그대로 있음
Medium 핵심 문장 또는 정답이 유사 표현으로 존재 같은 질문이 다른 포맷으로 존재
Low 유사 표현이 거의 없음 완전히 새로운 질문

연구진은 "High"로 판단된 경우, 해당 데이터셋의 결과는 논문 본문에서 공식적으로 제외하였다.

⑤ Contamination이 확인된 예시

  • LAMBADA: 일부 문장이 훈련 데이터에 거의 동일하게 포함되어 있음
  • TriviaQA: 웹 크롤 데이터에 정답 포함 문서가 크롤링된 사례 다수 발견

→ 따라서 공식 논문에서는 이들 contaminated 태스크의 결과를 표에서 배제하거나 별도 표시함

⑥ Contamination 방지 전략

GPT-3 연구진은 아래와 같은 조치를 통해 contamination을 최소화하고자 하였다:

전략 설명

벤치마크 정제 테스트셋이 훈련에 포함되었는지 사전 필터링
수동 검사 중요한 벤치마크는 사람의 눈으로 직접 훈련 데이터와 대조
결과 분리 contamination 의심이 있는 경우 해당 성능은 별도 구분하여 표시 또는 제외

 

⑦ 논문의 태도와 신뢰 확보 전략

연구진은 GPT-3 성능에 대해 과대평가되지 않도록 다음과 같이 보수적으로 논문을 설계했다:

  • "모든 벤치마크 성능은 훈련 데이터에 포함되지 않았음을 전제로 해석되어야 한다"
  • "contamination 의심이 있는 태스크는 결과표에서 별도로 표기하거나 제외한다"
  • "향후 공개되는 대형 모델은 더 엄격한 contamination 방지 시스템이 필요하다"

요약 정리

Contamination 정의 훈련 데이터와 테스트 데이터가 겹쳐서 성능 왜곡 가능성 발생
문제 인식 GPT-3의 데이터 규모가 워낙 커서 이 문제가 중요해짐
실험 방식 유사 문장 검색 + 수동 검사 + 유사도 분류
방지 노력 contaminated 태스크 결과 분리 및 분석 제외
시사점 대형 언어모델의 정확한 성능 평가에는 contamination 검증이 필수임을 강조

 

5. Limitations

GPT-3는 기존 모델보다 압도적으로 큰 규모와 강력한 few-shot 학습 능력을 보여주었지만, 여전히 다음과 같은 기술적, 윤리적, 실용적 한계점들을 가진다.

목차별 구조:

  1. Prompt 민감도
  2. 비효율적인 입력 처리
  3. 계산/논리 추론의 한계
  4. 제로샷 학습의 불안정성
  5. 파라미터 수와 성능 간의 비선형 관계
  6. 긴 맥락 유지의 어려움
  7. 사회적, 윤리적 위험

① Prompt에 매우 민감하다

  • GPT-3는 동일한 질문이라도 prompt 표현 방식이 조금만 달라져도 출력이 달라지는 현상이 자주 나타난다.
  • 예를 들어, 질문을 "Q:"로 시작할 때와 "Please answer the following:"으로 시작할 때 결과가 다르게 나올 수 있다.
  • 이는 모델이 task를 이해한다기보다 prompt의 패턴에 과하게 의존한다는 것을 시사한다.

예시:

  • Prompt: “Translate English to French: ‘apple’ →” → ‘pomme’
  • Prompt: “What is the French word for ‘apple’?” → ‘fruit’ 또는 오류 출력 가능

→ 이 문제는 실사용에서 일관성과 제어력 부족으로 이어질 수 있다.

② 비효율적인 정보 이용 구조

  • GPT-3는 훈련된 지식만을 사용하며, 외부 지식 소스(예: 검색 엔진, 데이터베이스 등)와 연결되어 있지 않다.
  • 따라서 최신 정보, 숫자 업데이트, 문서 기반 reasoning이 필요한 경우 제한적이다.
  • 인간은 모르면 검색하거나 참조하지만, GPT-3는 "이미 알고 있어야"만 답을 생성할 수 있다.

③ 계산 및 논리 추론 능력이 부족하다

  • GPT-3는 수학, 논리, 비교 같은 태스크에서 수치 계산이나 정확한 구조적 추론이 필요한 경우 자주 실패한다.
  • 예를 들어, “432 + 177 = ?” 같은 단순 연산조차 few-shot 설정에서는 정확히 풀지 못하는 경우가 많다.
  • 이는 GPT-3가 규칙 기반 시스템이 아니라 통계 기반 언어 예측 시스템이라는 점에서 기인한다.

예시:
Q: "If John has 3 brothers and each has 2 pets, how many total pets?"
A: 5 (오답. 사실은 3 x 2 = 6)

 

④ Zero-shot 성능은 불안정하다

  • Few-shot에서는 많은 태스크에서 우수한 성능을 보이지만, Zero-shot에서는 모델의 성능이 태스크에 따라 들쭉날쭉하다.
  • 특히 prompt에 task 설명만 포함되어 있는 경우, GPT-3는 task instruction을 잘 이해하지 못할 수 있다.
  • → 이는 task generalization capability가 여전히 불완전하다는 증거다.

⑤ 모델 크기와 성능은 반드시 비례하지 않는다

  • 성능이 모델 크기에 따라 선형적으로 늘어나는 것이 아니라 log 곡선처럼 둔화되는 양상을 보인다.
  • 예컨대, 13B 모델에서 175B 모델로 확장했을 때 성능이 반드시 극적으로 좋아지는 것은 아니다.
  • 더 큰 모델이 항상 더 좋은 답을 한다고 볼 수 없기 때문에 "규모의 한계"를 드러낸다.

⑥ 긴 문맥 유지의 한계

  • GPT-3의 최대 입력 길이는 2048 토큰이다.
  • 이 범위를 초과하면 이전 정보는 기억할 수 없으며, 장문 맥락 기반 reasoning에서 오답 가능성이 커진다.
  • 긴 문서를 요약하거나, 대화를 장시간 이어가야 하는 경우 중간에 맥락이 끊기거나 앞 내용을 잊는다.

예: 대화 초반에 말한 내용을 GPT-3가 후반부에 잘못 기억하고 반응

⑦ 사회적·윤리적 한계 (이후 6번 섹션에서 자세히 다룸)

  • 편향, 차별적 언어 생성, 허위 정보, 공격적인 표현 등을 생성할 가능성이 존재함
  • “아무 텍스트나 생성”할 수 있는 능력은 오히려 악용 가능성을 내포하고 있음
  • 이를 해결하기 위해 OpenAI는 RLHF (인간 피드백을 통한 강화학습)이나 필터링, 모니터링 등을 적용하기 시작했지만 완전하지 않다

시사점 요약

Prompt 민감성 작은 입력 차이가 결과에 큰 영향을 주며 실사용 시 예측 어려움 발생
지식 폐쇄성 훈련된 정보만 사용할 수 있어 실시간 정보나 외부 연결이 불가
추론력 부족 논리, 수학, 비교, 순서 같은 구조적 문제에서 성능 저조
크기 비효율성 모델을 키우는 것이 무조건 성능을 개선하진 않음
맥락 처리 한계 긴 문서, 긴 대화에는 구조적으로 취약
불확실한 Zero-shot Prompt가 없다면 task를 제대로 수행하지 못할 가능성 존재

GPT-3를 깊이 이해하기 위한 3가지 프레임워크

기술 구조 (Architecture) 왜 Transformer이고, 왜 Decoder-only인가?
학습 방식 (Learning Paradigm) 왜 Fine-tuning을 버리고 Prompting으로 갔는가?
철학적 전환 (AI Philosophy) 이 모델이 기존 언어이해 관점에서 무엇을 바꾸었는가? 인간 지능과 어떤 연관이 있는가?

 

1. 기술 구조의 본질 – GPT는 왜 Transformer Decoder인가?

Transformer의 구조 요약

"Attention is All You Need"는 기존 RNN/LSTM의 한계를 극복하고자 순차처리 없이 병렬 연산이 가능한 구조를 제안함.

Transformer는 크게 Encoder + Decoder 구조로 구성되지만, GPT는 Decoder만 사용한다.
이유는 간단하다:

  • GPT의 목표는 “다음 단어 생성(next token prediction)”이다.
  • 따라서 현재까지의 단어를 바탕으로 오직 오른쪽 방향으로 예측(causal) 하면 된다.
  • 인코더는 필요 없다. → Decoder-only

핵심 구성요소의 GPT-3 적용 방식

구성 요소 GPT-3에서의 사용 방식

Self-Attention 과거 단어만 참고하도록 causal masking 적용
Positional Encoding 위치 정보 보강 (sinusoidal 또는 learned)
Residual + LayerNorm 각 레이어에 그대로 적용
Feedforward Network 각 Attention 뒤에 독립적 2-layer FFN
Multi-head Attention 175B 모델에서는 96개 head 사용

즉, GPT는 Transformer의 핵심 구조를 거의 변경하지 않고, “규모를 극단적으로 키우는 방식”으로 승부를 본다.

2. 학습 방식 – 왜 Fine-tuning이 아니라 Prompting인가?

기존 Fine-tuning 방식의 한계

  • 각각의 태스크마다 모델을 다시 학습해야 함 → 데이터 수집 + 학습 비용 매우 큼
  • 파인튜닝된 모델은 특정 태스크에 최적화되어 범용성이 떨어짐

GPT-3의 철학: "문제 해결을 학습하는 것이 아니라, 문제 포맷에 맞게 언어를 재구성한다"

인간은 예시 몇 개만 보고도 새로운 문제를 해결할 수 있다.
GPT-3는 이걸 prompt라는 방식으로 흉내 낸다.

Prompting = 입력만 바꾸는 태스크 구성 방식

Example: 번역
Input: Translate English to French:
        cat → chat
        dog → chien
        apple → 
Output: pomme

→ 모델은 이 구조를 따라 학습한 적이 없음에도, 예제의 패턴을 보고 유사하게 출력할 수 있음

왜 이 방식이 대단한가?

  • 인간의 Few-shot learning을 모델 설계가 아닌 스케일링만으로 재현했다는 점에서 획기적임
  • 모델의 “지식”이 아니라 “문맥 이해력”과 “패턴 정렬 능력”이 작동함
  • 학습을 중단한 상태에서도 유연하게 다양한 태스크에 대응 가능함

3. 철학적 기조 – GPT-3는 인간 지능에 얼마나 가까운가?

GPT-3가 가져온 혁신은 단순히 “성능이 좋아졌다”가 아니다. 다음의 두 질문을 중심으로 보면 본질이 보인다.

질문 1: GPT-3는 ‘이해’를 하는가?

  • 아니다. GPT-3는 의미를 추론하지 않는다.
  • 다만, 통계적으로 가장 가능성 높은 단어를 다음에 생성할 뿐이다.
  • 하지만 이 단순한 규칙이 충분히 크고 정교한 모델과 데이터 위에선, 마치 이해한 듯한 결과를 만든다.

→ GPT-3는 “의미 없이도 의미처럼 보이는 것”을 만들어내는 최초의 강력한 증거

질문 2: GPT-3는 일반지능(AGI)의 전조인가?

  • GPT-3는 목적이 없고, 상황을 인식하지 못한다.
  • 그러나 **“일관된 문맥 유지, 상식 기반 생성, 추론된 결과 생산”**을 할 수 있다.
  • 이는 인간 지능의 표면적인 행동을 구조화 없이 복제할 수 있음을 증명한 것이다.

→ 즉, GPT-3는 “AI가 인간처럼 행동할 수 있음을 수학적으로 증명한 첫 사례”라고 할 수 있다.
그렇지만 인간처럼 사고하거나 목표를 가지진 않는다.

GPT-3 설계의 전략적 핵심 – “단순함 + 스케일링”

설계 전략 설명

구조는 단순하게 Transformer Decoder만 사용, 불필요한 실험은 배제
학습은 방대하게 3000억 토큰, 175B 파라미터, 2048 토큰 컨텍스트
사용은 간결하게 Fine-tuning 없이 Prompt만 변경
활용은 범용적으로 요약, 번역, Q&A, 추론, 시 쓰기, 코딩까지 모두 하나로 가능