본문 바로가기
Paper review/NLP

T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

by 오서영 2025. 5. 9.

논문 원본: https://arxiv.org/abs/1910.10683

논문 요약: 모든 자연어처리 작업을 텍스트-입력과 텍스트-출력 형태로 통일하여 처리하는 T5 모델을 제안하고, 전이학습의 성능 한계와 가능성을 대규모 실험으로 탐구한 논문

 


최근 NLP는 거대한 unlabeled 데이터로 사전학습(pre-training)한 후, 이를 다양한 downstream task에 파인튜닝(fine-tuning)하는 전이학습(transfer learning) 방식이 대세가 되었다.

하지만 지금까지는 각 태스크마다 모델 구조, objective, 학습 방법이 달라서 비교나 재사용이 어려웠다. T5 논문은 이에 대한 해답으로:

“모든 NLP 작업을 텍스트 입력 → 텍스트 출력(Text-to-Text) 문제로 통합하자”

라는 간단하지만 혁신적인 아이디어를 제시한다.

 

1. 개요

이 논문은 구글 브레인의 Colin Raffel 외 연구진이 발표한 것으로, 자연어처리(NLP) 작업을 하나의 통합된 틀에서 처리하는 방법을 제시한다. 기존에는 분류, 요약, 번역, 질의응답 등의 작업을 각각 별도의 모델이나 아키텍처로 처리했지만, T5(Text-to-Text Transfer Transformer)는 이 모든 작업을 텍스트 입력 → 텍스트 출력의 형태로 통일하여 처리한다.

2. 핵심 아이디어: Text-to-Text 프레임워크

기존 Transformer 기반 모델들은 보통 특정 작업에 최적화되어 설계되었고, 입력과 출력의 형태도 작업마다 달랐다. 예를 들어, 번역은 문장을 입력받아 다른 언어의 문장을 출력하지만, 분류는 레이블 값을 숫자 형태로 출력한다.

하지만 T5에서는 모든 작업을 아래처럼 텍스트로 정의한다:

예시:

태스크 입력 출력
번역 translate English to German: That is good. Das ist gut.
문장 유사도 stsb sentence1: A man is running. sentence2: A person runs. 4.8
분류 cola sentence: The boat sailed. acceptable
요약 summarize: The fox jumps over... A fox jumps over a dog.
 

이러한 접근 덕분에 하나의 모델 구조, 학습 절차, 디코딩 방식으로 모든 NLP 태스크를 처리할 수 있다.

3. 사전학습 방식: Denoising Span Objective

T5는 일반적인 언어모델과 달리 BERT와 유사한 마스킹 방식의 사전학습(objective)을 사용한다. 하지만 기존 BERT가 단일 토큰을 마스킹한 반면, T5는 연속된 단어 구간(span)을 마스킹한다. 이를 “span corruption”이라고 한다.

수식 표현:

사전학습 목표는 다음과 같이 정의된다:

여기서:

  • x는 마스킹된 입력 문장
  • 는 마스킹된 부분을 텍스트로 나타낸 출력 정답
  • 는 학습 데이터셋

 

4. 모델 구조: 원형 Transformer (Encoder-Decoder)

T5는 BERT처럼 encoder-only 또는 GPT처럼 decoder-only가 아닌, 기존 Transformer의 원형 구조인 encoder-decoder를 그대로 사용한다.

구조 요약:

  • Encoder: 입력 텍스트를 임베딩 후 인코딩
  • Decoder: 마스킹된 토큰을 autoregressive하게 생성
  • Position Embedding: 상대 위치(relative position)
  • Layer Norm: Bias 제거된 간소화된 레이어 정규화
  • Parameter Sharing: 포지션 임베딩은 전체 레이어에서 공유

주요 하이퍼파라미터:

모델 이름 파라미터 수
T5-Small 60M
T5-Base 220M
T5-Large 770M
T5-3B 3B
T5-11B 11B
 

이 중 T5-11B는 당시 가장 큰 Transformer 중 하나였으며, 다양한 벤치마크에서 최고 성능을 기록하였다.

5. 학습 데이터: C4 (Colossal Clean Crawled Corpus)

T5는 학습을 위해 웹에서 수집한 대규모 말뭉치인 C4를 사용한다. 이는 Common Crawl을 기반으로 불필요한 데이터(욕설, 자바스크립트, lorem ipsum 등)를 필터링하여 만든 고품질 코퍼스이다.

필터링 예시:

6. Multi-task Learning과 Fine-tuning

T5는 두 가지 접근을 실험한다:

  1. 각 태스크에 대해 pretrain → fine-tune
  2. 여러 태스크를 동시에 학습 (multi-task pretraining) → fine-tune

실험 결과는 multi-task + fine-tuning이 가장 좋은 성능을 보였다.

비교 실험 그래프:

7. 모델 크기와 성능

T5는 다양한 크기의 모델을 실험하며 다음과 같은 경향을 관찰한다:

  • 모델이 클수록 성능이 좋아짐 (T5-11B 최고 성능)
  • ensemble보다 큰 모델 하나가 더 효율적임

성능 그래프:

8. Final T5 모델 구성

최종적으로 T5는 다음과 같은 구성으로 사전학습 및 파인튜닝을 수행한다:

모델 구조 Original Transformer (Encoder-Decoder)
사전학습 목표 Span Corruption
데이터 C4
학습 방식 Multi-task Pretraining + Fine-tuning
디코딩 Beam Search
최대 모델 T5-11B (11억 개 파라미터)

9. 요약

T5 논문은 모든 자연어처리 작업을 하나의 통일된 텍스트-입력 → 텍스트-출력 문제로 다루자는 접근에서 출발한다. 이로 인해 모델 구조가 간단해지고, 다양한 작업을 하나의 모델에서 해결할 수 있게 된다.

논문은 매우 방대한 실험을 통해 모델 크기, 사전학습, 파인튜닝 전략 등이 NLP 성능에 어떻게 영향을 주는지를 명확하게 보여준다.

그 결과, T5는 이후 대부분의 대형 언어모델에 큰 영향을 주는 기념비적인 논문이 되었으며, 오늘날 ChatGPT, Gemini 등에서도 이 구조의 철학이 이어지고 있다.