BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

논문 원본: https://arxiv.org/abs/1910.13461

논문 한 줄 요약: BART는 BERT의 양방향 인코더와 GPT의 자기회귀 디코더를 결합한 디노이징 시퀀스-투-시퀀스 사전학습 모델

1. BART란 무엇인가?

BART(Bidirectional and Auto-Regressive Transformers)는 Facebook AI 연구소가 발표한 모델로, 자연어 처리에서 흔히 필요한 텍스트 생성과 텍스트 이해를 모두 아우르는 강력한 사전학습 언어 모델이다.

기존 모델들이 한쪽 작업에 특화된 반면, BART는 양방향 이해와 왼쪽에서 오른쪽 순차적 생성을 모두 수행할 수 있도록 설계되었다.

BERT는 문장의 의미를 깊게 이해하지만 문장을 ‘생성’하지는 못한다.
GPT는 문장을 자연스럽게 이어서 ‘생성’하지만, 입력 전체 문맥을 완전히 이해하긴 어렵다.
BART

BART는 이 둘의 장점을 결합하여, Transformer 인코더-디코더 구조로 구성된다.
그 중심에는 ‘디노이징 오토인코더’ 학습이 있으며, 망가진 문장을 원래대로 복원하는 학습 방식을 사용한다.

→ 요약하면, 이해도 잘하고 생성도 잘하는 범용 모델이라는 점에서 큰 의의가 있다.

2. 왜 BART가 필요한가?

기존 언어모델들은 특정 작업에 특화된 형태였다.

BERT는 문장 분류나 문맥 이해, 질의응답에는 탁월하지만, 텍스트 생성이 어렵다. [MASK] 방식의 한계 때문이다.
GPT는 텍스트 생성에는 탁월하지만, 입력을 한 방향으로만 읽기 때문에 복잡한 문맥 이해에는 취약하다.

이러한 모델의 한계를 극복하기 위해, BART는 입력은 BERT처럼 양방향 인코딩하고, 출력은 GPT처럼 자기회귀 방식으로 생성하는 구조를 채택했다.

즉, 입력 문장은 전체 문맥을 고려해 이해하고, 출력 문장은 자연스럽게 왼쪽부터 순차적으로 생성할 수 있도록 설계된 것이다.

이로 인해 다양한 NLP 작업에서 유연하게 활용 가능하며, 특히 요약, 번역, 질문 생성과 같은 복잡한 작업에 강하다.

3. BART의 사전학습 방식: 디노이징 오토인코더 기반의 언어 표현 학습

BART(Bidirectional and Auto-Regressive Transformers)는 입력 문장을 있는 그대로 학습하는 것이 아니라, 문장에 다양한 종류의 인위적인 손상을 가한 후, 이를 원래의 문장으로 복원하는 과정을 통해 사전학습을 진행한다. 이와 같은 학습 방식은 디노이징 오토인코더(denoising autoencoder)의 개념에서 출발한다. 디노이징 오토인코더는 손상된 입력을 복원하는 과정에서 데이터의 본질적인 패턴을 학습할 수 있다는 전제 위에 설계되며, BART는 이 개념을 자연어 처리 모델에 확장 적용하였다.

기존의 오토인코더는 입력 데이터를 압축(latent representation)하고 다시 원래대로 복원하는 과정에서 주로 저차원 표현을 학습하였다. 반면 BART는 문장을 구성하는 단어, 구, 문장 등의 수준에서 노이즈를 삽입하고, 이를 복원하는 복잡한 과제를 통해 더욱 일반화된 언어 표현을 습득하도록 한다.

이러한 사전학습 전략은 BERT가 사용하는 마스킹 기반의 자기지도학습(self-supervised learning) 방식과 GPT가 사용하는 오토리그레시브 언어 생성 방식의 장점을 결합하여, 모델이 문맥의 이해와 생성 양쪽에 모두 강건한 성능을 갖도록 설계되었다.

사전학습에 사용되는 노이즈 삽입 기법

BART는 단순히 하나의 노이즈 방식이 아니라, 총 다섯 가지 서로 다른 유형의 노이즈 전략을 사용하여 모델의 일반화 능력을 극대화한다.

Token Masking
입력 문장의 일부 단어를 [MASK] 토큰으로 치환한 후, 모델이 해당 위치에 어떤 단어가 있었는지를 예측하게 한다. 이는 BERT의 MLM(Masked Language Modeling) 방식과 유사하나, BART는 이 외에도 다양한 노이즈를 함께 사용한다.
Token Deletion
입력 문장에서 특정 단어를 아예 제거하여 문장의 흐름을 인위적으로 붕괴시킨다. 이 방식은 단어 간 연결성과 문맥적 복원 능력을 높이는 데 효과적이다.
Text Infilling
문장 내 연속된 단어 구간을 하나의 [MASK]로 대체한다. 예를 들어 "he is very tall"이라는 문장에서 "is very"를 제거하고 "he [MASK] tall"로 만들면, 모델은 해당 위치에 어떤 단어들이 들어갔는지 복원해야 한다. 이 방식은 문장의 일부가 완전히 손실되었을 때의 복원 능력을 강화한다.
Sentence Permutation
여러 개의 문장으로 이루어진 문단에서 문장의 순서를 섞어버린다. 예를 들어 "A. 그는 아침에 일어났다. B. 이를 닦았다. C. 출근을 했다."라는 문장을 "B → C → A"로 섞은 뒤, 모델이 이를 원래 순서대로 복원하게 한다. 이는 문장 간의 논리적 연결성과 전개 구조를 학습하는 데 효과적이다.
Document Rotation
전체 문장의 시작 지점을 임의로 설정하여 문서의 앞뒤 구성을 바꾼다. 예를 들어 "문장 A → 문장 B → 문장 C"가 있을 때, "문장 C → 문장 A → 문장 B"로 입력한 뒤 원래 순서를 복원하게 한다. 이는 장문 구조에서 서론, 본론, 결론 등을 식별하고 연결하는 능력을 강화한다.

이와 같은 다양한 노이즈 삽입 전략은 단순히 단어 수준의 정보 복원이 아니라, 문장과 문단 수준에서의 의미 구조, 논리 흐름, 문맥적 정보까지 복원하도록 유도한다. 이를 통해 BART는 텍스트의 표면적 표현을 넘어서, 의미론적 복원 능력을 동시에 학습하게 된다.

4. BART의 모델 구조: Transformer 기반 인코더-디코더 아키텍처

BART는 전통적인 Transformer 구조를 기반으로 하되, BERT와 GPT의 설계를 통합한 형태로 구성된다. 전체 구조는 인코더(Encoder)와 디코더(Decoder)로 구성된 Seq2Seq(Sequence-to-Sequence) 아키텍처를 따른다.

인코더: 양방향 문맥 인코딩

BART의 인코더는 BERT처럼 입력 문장을 양방향으로 인코딩한다. 이는 입력의 각 단어를 기준으로 좌우 문맥을 모두 고려하여 토큰 수준의 표현을 생성한다. 이때 삽입된 노이즈가 포함된 문장을 입력으로 사용하며, 이 손상된 입력으로부터 문장의 의미를 파악하는 능력을 학습한다.

양방향 인코딩은 단어의 앞과 뒤 모두를 고려함으로써, 단어의 다의성과 문맥적 의미를 정밀하게 추론할 수 있게 한다. 이는 추후 디코더가 더 정확하고 자연스러운 문장을 생성하는 데 기여한다.

디코더: 자기회귀적 문장 생성

디코더는 GPT와 동일하게 자기회귀 방식(autoregressive generation)을 따른다. 즉, 디코더는 이전에 생성된 단어들만을 참고하여 다음 단어를 순차적으로 예측한다. 학습 시에는 정답 시퀀스를 입력하여 교사 강제(teacher forcing) 방식으로 학습하며, 추론 시에는 하나씩 생성된 출력을 다시 입력으로 넣는 방식으로 동작한다.

디코더는 인코더로부터 받은 문장의 의미 정보를 바탕으로, 원래 문장을 순차적으로 복원하는 문장 생성을 수행한다. 이 구조는 요약, 번역, 질의응답 등 다양한 자연어 생성 과제에 적합하다.

인코더-디코더 결합의 장점

BART의 구조는 인코더와 디코더 각각의 강점을 모두 통합한다. 인코더는 문맥에 대한 풍부한 이해를 제공하고, 디코더는 문법적으로 자연스러운 문장 생성을 가능하게 한다. 이러한 구조는 다음과 같은 자연어 처리 과제에서 높은 성능을 보인다.

추출적 또는 생성적 텍스트 요약
문장 복원 및 디노이징
기계 번역
질문 생성 및 자동 응답 생성
문서 완성 및 재구성

또한, Transformer 기반이기 때문에 사전학습 후 파인튜닝을 통해 다양한 태스크에 쉽게 적용할 수 있으며, 특히 입력과 출력이 모두 존재하는 Seq2Seq 과제에 최적화되어 있다.

5. 실험 결과 및 성능

BART는 다양한 벤치마크 실험에서 기존 모델들과 비교해 뛰어난 성능을 입증했다.
대표적으로 사용된 데이터셋은 다음과 같다.

XSum: 한 문장으로 뉴스 기사 요약
CNN/DailyMail: 긴 뉴스 문서를 여러 문장으로 요약
GLUE: 문장 분류, 유사도, 문장 추론 등 다양한 이해 태스크
SQuAD: 문맥을 읽고 질문에 답하는 질의응답 태스크

➤ 대표 성능 정리 :

Task 비교 모델 성능 개선

Text Summarization (XSum)	PEGASUS, T5	ROUGE 점수 기준으로 업계 최고 성능 기록
Machine Translation (Ro-En)	기존 역번역 모델	BLEU +1.1 이상 개선
QA, NLI 등 GLUE 태스크	RoBERTa 등	대부분의 태스크에서 유사하거나 더 높은 점수 기록

6. BART의 응용 예시

BART는 fine-tuning을 통해 다양한 실제 응용에 사용할 수 있다.
특히 아래 작업에서 널리 쓰인다:

텍스트 요약: 기사, 회의록, 리포트 요약 등
기계 번역: 언어 간 번역 (예: 영어 ↔ 한국어)
질문 생성 및 질의응답: 교육용 문항 자동 생성, 챗봇 등
문장 재작성 및 오류 수정: 문장을 더 매끄럽게, 문법 오류를 수정

실제로 HuggingFace의 facebook/bart-large-cnn 모델은
CNN/DailyMail 요약 작업에 최적화되어 많은 서비스에서 사용되고 있다.

7. 마무리: BART의 의의

BART는 단일 모델로 생성과 이해를 모두 수행할 수 있는 첫 시도 중 하나이다.
이는 후속 모델인 T5, mBART, BARTpho, ProphetNet 등의 탄생에 큰 영향을 주었다.

또한, '노이즈 복원 학습'이라는 개념을 대중화시켰고, 이는 이후의 수많은 멀티태스크 프리트레이닝 방식의 핵심 기법이 되었다.

BART의 구조는 아직도 다양한 변형 모델에 응용되고 있으며, 실시간 챗봇, 자동 문서 생성, 자동 뉴스 요약 등
AI 기반 정보 요약 및 생산 도구의 핵심으로 널리 활용된다.

'Paper review > NLP' 카테고리의 다른 글

GPT-3:Language Models are Few-Shot Learners (3)	2025.05.21
T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (1)	2025.05.09
BERT: Pre-training of Deep Bidrectional Transformers for Language Understanding (0)	2025.04.04
GPT-1: Improving Language Understanding (5)	2025.04.04
Transformer: Attention Is All You Need (0)	2025.03.28

5seoyoung

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

1. BART란 무엇인가?

2. 왜 BART가 필요한가?