
논문 원본: https://arxiv.org/abs/2005.14165
논문 한 줄 요약:
| 버전 | 연도 | 파라미터 수 | 학습 데이터 | 주요 특징 | 논문 |
| GPT-1 | 2018 | 1.17억 | BookCorpus (7천만 단어) | - 최초의 Transformer 기반 LM- Pretrain + Fine-tune 구조 | Improving Language Understanding by Generative Pre-Training |
| GPT-2 | 2019 | 15억 | WebText (8M 웹페이지) | - Zero-/One-/Few-shot 성능 강조- 처음에는 위험성 우려로 모델 미공개 | Language Models are Unsupervised Multitask Learners |
| GPT-3 | 2020 | 1,750억 | Common Crawl + 기타 | - Few-shot 능력 극대화- Fine-tuning 없이 다양한 작업 가능 | Language Models are Few-Shot Learners |
| GPT-3.5 | 2022 | ~1750억 (추정) | GPT-3 + Instruct tuning | - ChatGPT에 사용된 초기 모델- 대화형 fine-tuning 강화 (RLHF 포함) | (공식 논문 없음, OpenAI 블로그 참고) |
| GPT-4 | 2023 | 미공개 (수천억~1조 추정) | 다중 모달 (텍스트+이미지) | - 멀티모달 입력 지원 (Pro 한정)- 더 강력한 추론과 안정성 | GPT-4 Technical Report |
1. Introduction
개요
이 논문은 GPT-3라는 매우 큰 규모의 언어 모델을 제안하며, 기존 자연어처리(NLP) 방법론에서 학습 패러다임이 어떻게 바뀌어가는지를 설명한다. 특히 이 모델은 few-shot learning이라는 새로운 접근을 핵심으로 삼고 있다.
즉, 과거에는 특정 작업에 대해 모델을 별도로 학습(fine-tuning) 해야 했지만, GPT-3는 단지 예제 몇 개만 주어져도 높은 성능을 보이는 모델을 지향한다. 이것이 바로 GPT-3가 지닌 혁신이다.
전통적 NLP 학습 방식과의 비교
다음 표는 기존 방식과 GPT-3 방식의 차이를 비교한 것이다.
| 학습 방식 | 특징 | 예시 |
| Fine-tuning | 사전학습된 모델을 특정 작업에 맞게 추가 학습시킴 | 번역기 개발을 위해 기존 BERT 모델을 다시 학습 |
| Few-shot learning | 예시 몇 개만 제시하고, 모델을 추가 학습하지 않음 | "이런 식으로 번역해줘"라는 예시 3개만 입력 |
기존에는 감정 분석을 하려면 대량의 라벨링된 감정 데이터를 수집하고 모델을 학습시켜야 했지만, GPT-3는 감정 분석 예시 몇 개만 입력하면 바로 유사한 작업을 수행할 수 있게끔 설계되어 있다.
논문에서의 문제 제기와 동기
연구자들은 기존의 fine-tuning 방식이 몇 가지 한계를 가지고 있다고 말한다.
- 작업(task)마다 학습해야 하므로 비효율적이다.
예를 들어, 요약, 번역, 질문응답, 추론 등 다양한 작업이 있을 때, 각각에 대해 별도로 학습해야 한다. 이는 데이터 수집과 연산 비용이 크다는 단점을 가진다. - 범용적인 모델을 만들기 어렵다.
인간은 어떤 문제를 접했을 때, 예제를 몇 개만 보고도 일반화하여 문제를 해결한다. 하지만 기존 언어 모델은 그렇게 행동하지 못한다.
따라서 연구자들은 "사람처럼 새로운 작업을 빠르게 이해하고 해결할 수 있는 모델"을 만들고자 했고, 이것이 GPT-3의 출발점이 된다.
Few-shot learning의 핵심 아이디어
GPT-3는 단 하나의 모델로 수십 개의 작업을 해결할 수 있게 설계되었다. 훈련은 대량의 일반 텍스트 데이터로만 진행되며, 특정 작업을 위한 추가 학습은 하지 않는다. 대신 prompt(입력 예시)만 잘 설계하면, 그에 맞는 출력이 생성된다.
다음은 그 예시이다.
Prompt 입력:
영어 → 불어 번역
"cat" → "chat"
"house" → "maison"
"apple" →
GPT-3 출력:
"pomme"
이처럼, GPT-3는 몇 개의 예시를 통해 번역 작업을 이해하고, 그에 따른 적절한 결과를 낸다.
주요 주장
논문 저자들은 다음과 같은 주장을 펼친다.
- 파라미터 수를 급격히 늘릴수록, 모델은 few-shot learning 성능이 향상된다.
- Fine-tuning 없이도, 다양한 태스크에서 상당히 경쟁력 있는 성능을 보인다.
- 즉, 거대한 언어 모델 하나로 여러 작업을 동시에 처리할 수 있는 범용성이 나타난다.
2. Approach – 심화 구조화 정리
2.1 Model and Architectures
● 기본 아키텍처
GPT-3는 Transformer 기반의 Decoder-only 모델이다. 즉, 일반적인 Transformer 구조 중 자기회귀 방식만을 사용하며, 입력이 순차적으로 들어왔을 때 이전 단어들만을 기반으로 다음 단어를 예측하는 구조를 따른다.
- 입력: 최대 2048개의 토큰
- 출력: 항상 다음 토큰의 확률 분포
- 학습 목표:

● 모델 크기 스케일링
| 모델 이름 | 파라미터 수 | 레이어 수 | Hidden Dim | Attention Heads |
| GPT-3 Small | 1.25억 | 12 | 768 | 12 |
| GPT-3 Medium | 3.5억 | 24 | 1024 | 16 |
| GPT-3 Large | 7.74억 | 24 | 1536 | 20 |
| GPT-3 XL | 13억 | 24 | 2048 | 24 |
| GPT-3 2.7B | 27억 | 32 | 2560 | 32 |
| GPT-3 6.7B | 66억 | 32 | 4096 | 32 |
| GPT-3 13B | 130억 | 40 | 5120 | 40 |
| GPT-3 175B | 1,750억 | 96 | 12,288 | 96 |
→ 층 수, hidden dimension, head 수를 동시에 증가시키며, 규모의 힘(Scaling Law)을 실험한다.
● 왜 Decoder-only인가?
- Encoder-Decoder 구조는 번역처럼 입력/출력이 서로 다른 경우에 유리하지만,
- GPT-3는 언어 생성 및 범용 태스크 수행을 목표로 하므로 Decoder만으로 충분하다.
- 모든 태스크를 텍스트 생성으로 통일하여 표현할 수 있다는 점에서 일관성 있는 구조를 취한 것이다.
2.2 Training Dataset
● 전체 토큰 수: 약 3000억 개의 토큰
데이터셋 설명 비율
| Common Crawl | 웹에서 긁어온 대규모 데이터 (필터링함) | 약 60% |
| WebText2 | Reddit 기반 고품질 문장 | 약 22% |
| Books1 / Books2 | 전자책 기반 문어체 데이터 | 약 16% |
| Wikipedia | 영어 위키백과 전체 | 약 3% |
→ 중복 제거, 품질 평가 필터링, 비영어 비율 제거 등을 통해 고품질 자연어 입력만 선별하였다.
● Common Crawl 필터링 방식
Common Crawl은 노이즈가 많기 때문에 다음 기준을 적용한다.
필터 조건 설명
| text quality 점수 | 문법적 구조 분석 |
| 영어 단어 비율 | 영어 아닌 단어 비율 제거 |
| 중복률 | 유사 문장 필터링 (Near-duplicate removal) |
| 토픽 균형 | 특정 도메인 쏠림 제거 (예: 광고, 스팸) |
→ 이 과정을 통해 일반적인 인간 언어를 반영하는 고품질 데이터셋을 만들어냄.
2.3 Training Process
● 학습 목표
- Auto-regressive Language Modeling
- 다음 단어를 예측하도록 loss를 줄여나감
- GPT는 fine-tuning 없이 prompt로만 사용되므로 사전학습이 전부
● 최적화 세팅
| 항목 | 값 |
| Optimizer | Adam |
| Learning rate schedule | Cosine decay + Warm-up |
| Batch size | 3.2M tokens/batch (병렬 학습) |
| Training steps | 수천만 단계 |
| Mixed precision | 사용 (FP16) |
| Parallelism | 모델 병렬, 데이터 병렬 모두 적용 |
→ 175B 모델의 경우, 최대 10,000개 GPU에 걸친 분산 학습을 통해 수주간 학습하였다.
● 컴퓨팅 자원
- GPU 수: 수천 개 이상 (NVIDIA V100 기반)
- FLOPs 총량: ~3640 PF-days
- 전력 비용, 이산화탄소 배출량 등의 비용도 논란이 되었음
2.4 Evaluation Setup — 평가 방식과 전략
GPT-3는 fine-tuning 없이, 다양한 태스크에 prompt만 바꿔서 대응한다.
● 평가 유형
| 평가 방식 | 설명 | 예시 |
| Zero-shot | 예시 없이 질문만 | "Translate 'apple' to French." |
| One-shot | 예시 1개 제공 | "'cat' → 'chat', 'apple' → ?" |
| Few-shot | 예시 여러 개 제공 | "'cat'→'chat', 'dog'→'chien', 'apple'→?" |
→ GPT-3는 훈련된 태스크가 아님에도, 입력 문맥만으로 새로운 문제를 수행할 수 있다.
● 왜 이 평가가 중요한가?
- 기존 모델들은 각 태스크마다 학습 필요
- GPT-3는 학습하지 않은 태스크에 대해서도 단지 문맥 제공만으로 추론 가능
- 이 구조는 "AI의 일반화 능력"을 평가하는 새로운 기준을 제시함
핵심 요약: GPT-3 Approach 전략의 의의
| 구성 요소 | GPT-3의 전략 |
| 모델 구조 | Transformer Decoder만 사용. 단순하되 확장성 높음 |
| 학습 데이터 | 필터링된 웹 텍스트 기반. 다양한 도메인 포함 |
| 훈련 방식 | 완전 사전학습 기반. Fine-tuning 없이 사용 가능 |
| 평가 전략 | Zero/One/Few-shot 기반. 모델의 일반화 능력 검증 |
3. Results – GPT-3 성능 상세 분석
GPT-3의 평가 결과는 총 9가지 유형의 태스크에서 진행되며, 각 태스크는 Zero-shot, One-shot, Few-shot 세 가지 프롬프트 유형에 따라 수행되었다. 특히 모델 크기(예: 13B, 175B 등)와 성능 관계도 함께 관찰되었다.
3.1 Language Modeling, Cloze, and Completion Tasks
목적
- 문장의 다음 단어 또는 중간 단어 예측 능력 평가
- 인간 수준의 언어 흐름 이해 여부 측정
데이터셋
| Penn Treebank (PTB) | 고전적인 언어 모델 평가용 데이터 |
| LAMBADA | 긴 문맥 기반에서 마지막 단어 맞추기. 단순한 통계 예측이 아닌 문맥 이해 요구 |
GPT-3 성능
모델 LAMBADA 정확도 (%)
| GPT-2 (1.5B) | 18.0 |
| GPT-3 (13B) | 36.0 |
| GPT-3 (175B) | 76.2 |
→ GPT-3는 파라미터 수가 늘어날수록, 사람처럼 긴 문장을 기억하고 문맥상 적절한 단어를 예측할 수 있게 된다.
3.2 Closed Book Question Answering
목적
- 외부 지식 없이 모델 내부에 학습된 정보로만 질문에 답할 수 있는지 평가
- 즉, “암기력 + 일반 상식” 평가
데이터셋
| NaturalQuestions | 구글에서 수집한 실사용자 질문 |
| TriviaQA | 위키 기반 퀴즈형 질문 |
| WebQuestions | 웹 검색 로그 기반 질문 |
예시
Q: What is the capital of Canada?
A: Ottawa
GPT-3는 문서를 참고하지 않고 이와 같은 질문에 답변함.
모델 TriviaQA (zero-shot) 정확도 (%)
| T5-11B (fine-tuned) | 73.1 |
| GPT-3 (175B) | 68.0 |
→ 별도 학습 없이도 파인튜닝된 QA 모델 수준에 근접하는 성능을 보임
3.3 Translation
목적
- GPT-3가 다국어 번역을 이해하고 문법적으로 자연스러운 결과를 생성할 수 있는지 확인
데이터셋
| WMT14 | English ↔ French, English ↔ German |
평가 방식
- BLEU 점수: 예측된 번역문과 정답 번역문 간의 유사도를 정량화하는 지표 (높을수록 정확)
| 태스크 | GPT-3 (Few-shot) | SOTA supervised |
| EN → FR | 40.6 | 41.5 |
| EN → DE | 24.6 | 30.6 |
→ GPT-3는 별도 번역 학습 없이도, 전문 번역 모델에 근접한 성능을 보임. 특히 영→불에서는 매우 유사한 수준
3.4 Winograd-Style Tasks
목적
- 문맥 기반 상식 추론 수행 가능 여부 측정
예시 문제
The trophy doesn’t fit in the suitcase because it is too big. What is too big?
→ “The trophy”
→ 단어 “it”이 어떤 대상을 지칭하는지 추론해야 하며, 이는 단순한 문법 정보가 아닌 문맥 추론 능력이 필요하다.
GPT-3는 prompt 기반으로 이 문제에 접근하며, few-shot 설정에서 상당한 성능 향상을 보인다.
3.5 Common Sense Reasoning
목적
- 인간의 기본 상식을 바탕으로 추론 가능한가?
데이터셋 및 설명
| PIQA | 일상 생활에서의 물리 지식에 대한 선택 문제 (예: “컵을 기울일 때 어떤 결과가 생기나?”) |
| HellaSwag | 비상식적인 답을 제거하고, 가능한 후속 문장을 선택 (NLI+상식 복합형) |
| ARC | 초등학생 수준 과학 퀴즈 |
GPT-3는 학습된 언어 표현 속에 담긴 통계적 상식을 통해 상당히 일관된 정답을 도출함.
→ 인간 수준에는 아직 미치지 못하지만, 단순한 패턴 기억이 아닌 상황 기반 선택에서 진전된 결과를 보임
3.6 Reading Comprehension
목적
- GPT-3가 문단을 읽고 그 안의 정보를 이용해 질문에 답할 수 있는지 평가
데이터셋
| RACE | 중국 영어 시험 기반 고난이도 독해 문제 |
| DROP | 수치 기반 추론과 문단 분석을 포함한 질문들로 구성됨 |
→ RACE에서는 GPT-3가 사람이 읽고 푸는 것처럼 정답을 유도해냄
→ DROP에서는 수치 연산, 비교 추론 등에서 약점이 드러남
→ 즉, 단순 정보 회수에는 능하지만 계산 기반 reasoning에는 아직 미흡
3.7 SuperGLUE
목적
- 종합 언어 능력 평가. 단순 문장 이해를 넘어 다수의 복합 문제 해결 가능 여부 확인
| SuperGLUE 구성 | 태스크 과제 |
| BoolQ | 문장에 대해 참/거짓 추론 |
| WiC | 단어의 문맥 의미 비교 |
| ReCoRD | 문맥 기반 이름 대입 |
GPT-3는 Few-shot 설정에서 기존의 BERT, RoBERTa 등 fine-tuning된 모델 성능에 근접함. 하지만 zero-shot에서는 하락세가 있음 → prompt 구성의 민감도가 존재함
3.8 Natural Language Inference (NLI)
목적
- 전제문과 가설문이 주어졌을 때, 두 문장 간의 관계를 논리적으로 판단할 수 있는지 측정
| Entailment | 가설이 전제로부터 논리적으로 따라옴 |
| Contradiction | 가설이 전제와 모순 |
| Neutral | 가설이 전제로부터 추론될 수 없음 |
GPT-3는 prompt를 통해 관계 유형을 유도하는 방식으로 문제를 해결함. Few-shot일수록 높은 정확도 보이며, 논리 이해에 기반한 문장 판단이 가능한 수준까지 도달함
3.9 Synthetic and Qualitative Tasks
목적
- GPT-3의 창의적이고 질적인 생성 능력 평가
예시 태스크
- HTML 코드 생성
- 이야기 쓰기
- 시 쓰기
- 철학적 질문에 답하기
- 자기소개 생성 등
특징
- 정답이 없는 태스크에서 형식적 일관성과 창의성을 동시에 검토
- 예를 들어, 사용자가 “웹페이지에 파란 버튼과 로그인 창을 생성하라”고 prompt를 입력하면, GPT-3는 실제로 HTML/CSS 구조를 생성해낼 수 있다
종합 요약: GPT-3 결과가 의미하는 것
항목 의미
| 크기 증가 | 파라미터 수가 많을수록 전반적인 성능이 향상되며, 언어/논리/상식 영역 모두 개선됨 |
| Few-shot 성능 | prompt만으로도 대부분의 태스크에서 SOTA 수준 접근 가능 |
| 한계점 | 계산 추론, 다중 문서 기반 추론, 논리 정확성 등 일부 한계 존재 |
| 시사점 | 사전학습 하나로 수십 개 태스크를 처리하는 범용 AI 가능성 실현의 시작점 |
4. Measuring and Preventing Memorization of Benchmarks
핵심 질문
GPT-3의 평가 성능이 높다는 것은 진짜 학습 덕분일까, 아니면 테스트셋과 유사한 데이터를 훈련 중에 외운 결과일까?
이 물음에 답하기 위해, 연구진은 다음 두 가지를 수행하였다:
- Benchmark contamination의 가능성 측정
- Contamination을 방지하기 위한 실험 설계 및 정책 마련
① Benchmark Contamination이란?
Contamination이란, 평가에 사용되는 데이터(예: 문제, 문장, 정답 등)가 GPT-3의 훈련 데이터에 직접 포함되거나 유사한 형태로 포함되어 있는 경우를 말한다.
이는 마치 학생이 시험문제를 시험 전에 미리 봤던 것과 같은 효과를 낳게 되어, 성능의 신뢰도를 떨어뜨릴 수 있다.
② Contamination 발생 가능성
GPT-3는 3000억 개의 토큰을 포함한 웹 기반 데이터(Crawl, Wikipedia, Books 등)로 훈련되었기 때문에,
벤치마크 데이터셋이 이 웹에 이미 공개되어 있는 경우 contamination 가능성이 있다.
예를 들어:
- SuperGLUE, TriviaQA, LAMBADA, PIQA 같은 벤치마크들은 Github, 블로그, 공식 홈페이지, 논문 등을 통해 공개되어 있었고,
- Common Crawl 데이터에 이들 문서가 크롤링되어 있었을 가능성이 크다.
③ Contamination 측정 방법
연구진은 “Test 문제 유사도 검사”를 통해 contamination 여부를 평가했다.
구체적 절차
- Test셋의 각 문장을 훈련 데이터에서 검색
- 유사도 기준:
- 토큰 정확히 일치 여부
- 문장 구조 유사 여부 (n-gram 기반)
- 해당 문장이 training data에 포함되었는지 수동으로 점검
- 점수 부여:
- High overlap: 거의 동일
- Medium overlap: 부분적으로 겹침
- Low overlap: 거의 없음
→ 이 과정을 통해 데이터셋마다 contamination 가능성이 어느 정도인지를 평가하였다.
④ Contamination 판단 기준
오염 수준 설명 예시
| High | 정답 문장 또는 문제 전체가 훈련 데이터에 존재 | "Q: What’s the capital of Canada?" → "A: Ottawa"가 그대로 있음 |
| Medium | 핵심 문장 또는 정답이 유사 표현으로 존재 | 같은 질문이 다른 포맷으로 존재 |
| Low | 유사 표현이 거의 없음 | 완전히 새로운 질문 |
연구진은 "High"로 판단된 경우, 해당 데이터셋의 결과는 논문 본문에서 공식적으로 제외하였다.
⑤ Contamination이 확인된 예시
- LAMBADA: 일부 문장이 훈련 데이터에 거의 동일하게 포함되어 있음
- TriviaQA: 웹 크롤 데이터에 정답 포함 문서가 크롤링된 사례 다수 발견
→ 따라서 공식 논문에서는 이들 contaminated 태스크의 결과를 표에서 배제하거나 별도 표시함
⑥ Contamination 방지 전략
GPT-3 연구진은 아래와 같은 조치를 통해 contamination을 최소화하고자 하였다:
전략 설명
| 벤치마크 정제 | 테스트셋이 훈련에 포함되었는지 사전 필터링 |
| 수동 검사 | 중요한 벤치마크는 사람의 눈으로 직접 훈련 데이터와 대조 |
| 결과 분리 | contamination 의심이 있는 경우 해당 성능은 별도 구분하여 표시 또는 제외 |
⑦ 논문의 태도와 신뢰 확보 전략
연구진은 GPT-3 성능에 대해 과대평가되지 않도록 다음과 같이 보수적으로 논문을 설계했다:
- "모든 벤치마크 성능은 훈련 데이터에 포함되지 않았음을 전제로 해석되어야 한다"
- "contamination 의심이 있는 태스크는 결과표에서 별도로 표기하거나 제외한다"
- "향후 공개되는 대형 모델은 더 엄격한 contamination 방지 시스템이 필요하다"
요약 정리
| Contamination 정의 | 훈련 데이터와 테스트 데이터가 겹쳐서 성능 왜곡 가능성 발생 |
| 문제 인식 | GPT-3의 데이터 규모가 워낙 커서 이 문제가 중요해짐 |
| 실험 방식 | 유사 문장 검색 + 수동 검사 + 유사도 분류 |
| 방지 노력 | contaminated 태스크 결과 분리 및 분석 제외 |
| 시사점 | 대형 언어모델의 정확한 성능 평가에는 contamination 검증이 필수임을 강조 |
5. Limitations
GPT-3는 기존 모델보다 압도적으로 큰 규모와 강력한 few-shot 학습 능력을 보여주었지만, 여전히 다음과 같은 기술적, 윤리적, 실용적 한계점들을 가진다.
목차별 구조:
- Prompt 민감도
- 비효율적인 입력 처리
- 계산/논리 추론의 한계
- 제로샷 학습의 불안정성
- 파라미터 수와 성능 간의 비선형 관계
- 긴 맥락 유지의 어려움
- 사회적, 윤리적 위험
① Prompt에 매우 민감하다
- GPT-3는 동일한 질문이라도 prompt 표현 방식이 조금만 달라져도 출력이 달라지는 현상이 자주 나타난다.
- 예를 들어, 질문을 "Q:"로 시작할 때와 "Please answer the following:"으로 시작할 때 결과가 다르게 나올 수 있다.
- 이는 모델이 task를 이해한다기보다 prompt의 패턴에 과하게 의존한다는 것을 시사한다.
예시:
- Prompt: “Translate English to French: ‘apple’ →” → ‘pomme’
- Prompt: “What is the French word for ‘apple’?” → ‘fruit’ 또는 오류 출력 가능
→ 이 문제는 실사용에서 일관성과 제어력 부족으로 이어질 수 있다.
② 비효율적인 정보 이용 구조
- GPT-3는 훈련된 지식만을 사용하며, 외부 지식 소스(예: 검색 엔진, 데이터베이스 등)와 연결되어 있지 않다.
- 따라서 최신 정보, 숫자 업데이트, 문서 기반 reasoning이 필요한 경우 제한적이다.
- 인간은 모르면 검색하거나 참조하지만, GPT-3는 "이미 알고 있어야"만 답을 생성할 수 있다.
③ 계산 및 논리 추론 능력이 부족하다
- GPT-3는 수학, 논리, 비교 같은 태스크에서 수치 계산이나 정확한 구조적 추론이 필요한 경우 자주 실패한다.
- 예를 들어, “432 + 177 = ?” 같은 단순 연산조차 few-shot 설정에서는 정확히 풀지 못하는 경우가 많다.
- 이는 GPT-3가 규칙 기반 시스템이 아니라 통계 기반 언어 예측 시스템이라는 점에서 기인한다.
예시:
Q: "If John has 3 brothers and each has 2 pets, how many total pets?"
A: 5 (오답. 사실은 3 x 2 = 6)
④ Zero-shot 성능은 불안정하다
- Few-shot에서는 많은 태스크에서 우수한 성능을 보이지만, Zero-shot에서는 모델의 성능이 태스크에 따라 들쭉날쭉하다.
- 특히 prompt에 task 설명만 포함되어 있는 경우, GPT-3는 task instruction을 잘 이해하지 못할 수 있다.
- → 이는 task generalization capability가 여전히 불완전하다는 증거다.
⑤ 모델 크기와 성능은 반드시 비례하지 않는다
- 성능이 모델 크기에 따라 선형적으로 늘어나는 것이 아니라 log 곡선처럼 둔화되는 양상을 보인다.
- 예컨대, 13B 모델에서 175B 모델로 확장했을 때 성능이 반드시 극적으로 좋아지는 것은 아니다.
- 더 큰 모델이 항상 더 좋은 답을 한다고 볼 수 없기 때문에 "규모의 한계"를 드러낸다.
⑥ 긴 문맥 유지의 한계
- GPT-3의 최대 입력 길이는 2048 토큰이다.
- 이 범위를 초과하면 이전 정보는 기억할 수 없으며, 장문 맥락 기반 reasoning에서 오답 가능성이 커진다.
- 긴 문서를 요약하거나, 대화를 장시간 이어가야 하는 경우 중간에 맥락이 끊기거나 앞 내용을 잊는다.
예: 대화 초반에 말한 내용을 GPT-3가 후반부에 잘못 기억하고 반응
⑦ 사회적·윤리적 한계 (이후 6번 섹션에서 자세히 다룸)
- 편향, 차별적 언어 생성, 허위 정보, 공격적인 표현 등을 생성할 가능성이 존재함
- “아무 텍스트나 생성”할 수 있는 능력은 오히려 악용 가능성을 내포하고 있음
- 이를 해결하기 위해 OpenAI는 RLHF (인간 피드백을 통한 강화학습)이나 필터링, 모니터링 등을 적용하기 시작했지만 완전하지 않다
시사점 요약
| Prompt 민감성 | 작은 입력 차이가 결과에 큰 영향을 주며 실사용 시 예측 어려움 발생 |
| 지식 폐쇄성 | 훈련된 정보만 사용할 수 있어 실시간 정보나 외부 연결이 불가 |
| 추론력 부족 | 논리, 수학, 비교, 순서 같은 구조적 문제에서 성능 저조 |
| 크기 비효율성 | 모델을 키우는 것이 무조건 성능을 개선하진 않음 |
| 맥락 처리 한계 | 긴 문서, 긴 대화에는 구조적으로 취약 |
| 불확실한 Zero-shot | Prompt가 없다면 task를 제대로 수행하지 못할 가능성 존재 |
GPT-3를 깊이 이해하기 위한 3가지 프레임워크
| 기술 구조 (Architecture) | 왜 Transformer이고, 왜 Decoder-only인가? |
| 학습 방식 (Learning Paradigm) | 왜 Fine-tuning을 버리고 Prompting으로 갔는가? |
| 철학적 전환 (AI Philosophy) | 이 모델이 기존 언어이해 관점에서 무엇을 바꾸었는가? 인간 지능과 어떤 연관이 있는가? |
1. 기술 구조의 본질 – GPT는 왜 Transformer Decoder인가?
Transformer의 구조 요약
"Attention is All You Need"는 기존 RNN/LSTM의 한계를 극복하고자 순차처리 없이 병렬 연산이 가능한 구조를 제안함.
Transformer는 크게 Encoder + Decoder 구조로 구성되지만, GPT는 Decoder만 사용한다.
이유는 간단하다:
- GPT의 목표는 “다음 단어 생성(next token prediction)”이다.
- 따라서 현재까지의 단어를 바탕으로 오직 오른쪽 방향으로 예측(causal) 하면 된다.
- 인코더는 필요 없다. → Decoder-only
핵심 구성요소의 GPT-3 적용 방식
구성 요소 GPT-3에서의 사용 방식
| Self-Attention | 과거 단어만 참고하도록 causal masking 적용 |
| Positional Encoding | 위치 정보 보강 (sinusoidal 또는 learned) |
| Residual + LayerNorm | 각 레이어에 그대로 적용 |
| Feedforward Network | 각 Attention 뒤에 독립적 2-layer FFN |
| Multi-head Attention | 175B 모델에서는 96개 head 사용 |
즉, GPT는 Transformer의 핵심 구조를 거의 변경하지 않고, “규모를 극단적으로 키우는 방식”으로 승부를 본다.
2. 학습 방식 – 왜 Fine-tuning이 아니라 Prompting인가?
기존 Fine-tuning 방식의 한계
- 각각의 태스크마다 모델을 다시 학습해야 함 → 데이터 수집 + 학습 비용 매우 큼
- 파인튜닝된 모델은 특정 태스크에 최적화되어 범용성이 떨어짐
GPT-3의 철학: "문제 해결을 학습하는 것이 아니라, 문제 포맷에 맞게 언어를 재구성한다"
인간은 예시 몇 개만 보고도 새로운 문제를 해결할 수 있다.
GPT-3는 이걸 prompt라는 방식으로 흉내 낸다.
Prompting = 입력만 바꾸는 태스크 구성 방식
Example: 번역
Input: Translate English to French:
cat → chat
dog → chien
apple →
Output: pomme
→ 모델은 이 구조를 따라 학습한 적이 없음에도, 예제의 패턴을 보고 유사하게 출력할 수 있음
왜 이 방식이 대단한가?
- 인간의 Few-shot learning을 모델 설계가 아닌 스케일링만으로 재현했다는 점에서 획기적임
- 모델의 “지식”이 아니라 “문맥 이해력”과 “패턴 정렬 능력”이 작동함
- 학습을 중단한 상태에서도 유연하게 다양한 태스크에 대응 가능함
3. 철학적 기조 – GPT-3는 인간 지능에 얼마나 가까운가?
GPT-3가 가져온 혁신은 단순히 “성능이 좋아졌다”가 아니다. 다음의 두 질문을 중심으로 보면 본질이 보인다.
질문 1: GPT-3는 ‘이해’를 하는가?
- 아니다. GPT-3는 의미를 추론하지 않는다.
- 다만, 통계적으로 가장 가능성 높은 단어를 다음에 생성할 뿐이다.
- 하지만 이 단순한 규칙이 충분히 크고 정교한 모델과 데이터 위에선, 마치 이해한 듯한 결과를 만든다.
→ GPT-3는 “의미 없이도 의미처럼 보이는 것”을 만들어내는 최초의 강력한 증거
질문 2: GPT-3는 일반지능(AGI)의 전조인가?
- GPT-3는 목적이 없고, 상황을 인식하지 못한다.
- 그러나 **“일관된 문맥 유지, 상식 기반 생성, 추론된 결과 생산”**을 할 수 있다.
- 이는 인간 지능의 표면적인 행동을 구조화 없이 복제할 수 있음을 증명한 것이다.
→ 즉, GPT-3는 “AI가 인간처럼 행동할 수 있음을 수학적으로 증명한 첫 사례”라고 할 수 있다.
그렇지만 인간처럼 사고하거나 목표를 가지진 않는다.
GPT-3 설계의 전략적 핵심 – “단순함 + 스케일링”
설계 전략 설명
| 구조는 단순하게 | Transformer Decoder만 사용, 불필요한 실험은 배제 |
| 학습은 방대하게 | 3000억 토큰, 175B 파라미터, 2048 토큰 컨텍스트 |
| 사용은 간결하게 | Fine-tuning 없이 Prompt만 변경 |
| 활용은 범용적으로 | 요약, 번역, Q&A, 추론, 시 쓰기, 코딩까지 모두 하나로 가능 |