
논문 원본: https://arxiv.org/abs/1704.04861
논문 간단 요약:
기존 모델과의 차이점
| 기존 모델 (ELMo, GPT 등) | BERT | |
| 학습 방향 | 단방향 또는 얕은 양방향 | 깊은 양방향(Deep Bidirectional) |
| 전이 학습 방식 | 특정 태스크를 위한 추가 네트워크 필요 | Fine-tuning만으로 적용 가능 |
| 문맥 이해 능력 | 제한적 | 강력한 문맥 표현력 |

Abstract
BERT(Bidirectional Encoder Representations from Transformers)는 Transformer 구조를 활용한 언어 표현 모델로, 대규모 비지도 학습을 통해 강력한 문맥적 이해 능력을 갖춘다. 이전 모델(ELMo, OpenAI GPT 등)은 단방향 또는 얕은 양방향 학습을 수행했으나, BERT는 deep bidirectional representations을 강조하며 기존 접근 방식의 한계를 극복했다.
BERT의 핵심은 비지도 학습(Unsupervised Pre-training)과 지도 학습(Fine-tuning) 기반의 전이 학습(Transfer Learning) 전략이다. 대량의 위키백과 및 서적 데이터를 활용해 사전 훈련을 진행한 후, 별도의 추가 네트워크 없이 미세 조정을 수행하여 다양한 자연어 처리(NLP) 태스크에서 최첨단(SOTA) 성능을 달성했다. 특히, Question Answering, Language Inference 등 11개의 주요 NLP 태스크에서도 기존 모델을 뛰어넘는 성과를 보였다.
BERT는 단순한 구조 변경 없이도 뛰어난 성능을 발휘할 수 있으며, NLP 모델의 새로운 패러다임을 제시한 혁신적인 접근법으로 평가된다.
1 Introduction
자연어 처리(NLP)에서 사전 훈련된 언어 모델(Pre-trained Language Model) 은 다양한 태스크의 성능을 크게 향상시키는 것으로 알려져 있다. 대표적인 접근 방식은 두 가지가 있다.
- Feature-based Approach : ELMo처럼 사전 훈련된 언어 표현을 추가적인 피처(feature)로 활용하는 방식
- Fine-tuning Approach : OpenAI GPT처럼 사전 훈련된 모델을 활용하되, 다운스트림 태스크에서 미세 조정(fine-tuning)을 최소화하는 방식
그러나 기존의 모델들은 언어 표현을 학습할 때 단방향(Unidirectional) 또는 얕은 양방향(Shallow Bidirectional) 모델을 사용한다는 한계가 있다. 예를 들어, OpenAI GPT는 좌에서 우(Left-to-Right) 방향의 Transformer 구조를 사용하여 이전 토큰 정보만을 활용한다. 이는 문장 수준 태스크에서는 비효율적이며, 토큰 수준 태스크에서도 양방향 문맥을 활용하는 데 제약이 있다.
BERT의 새로운 접근법
본 논문에서는 BERT(Bidirectional Encoder Representations from Transformers) 를 제안하며, 기존 fine-tuning 접근 방식을 개선한다. BERT는 완전한 양방향(Deep Bidirectional) 문맥 학습이 가능하도록 Masked Language Model(MLM) 을 사용하여 사전 훈련을 진행한다.
- Masked Language Model (MLM)
- 입력 문장에서 일부 토큰을 무작위로 마스킹하고, 나머지 단어의 문맥 정보를 활용해 마스킹된 단어를 예측하는 방식
- 기존 언어 모델이 좌→우 또는 우→좌 방향성을 강제하는 것과 달리, BERT는 양방향 문맥을 동시에 고려할 수 있도록 학습
- Next Sentence Prediction (NSP)
- 두 개의 문장이 실제 연속된 문장인지 여부를 맞히는 태스크
- 문장 간 관계를 학습하여, 자연어 추론(NLI) 및 문장 이해가 필요한 태스크에서 성능을 향상
BERT의 기여
- 양방향(Deep Bidirectional) 언어 표현의 중요성을 실험적으로 증명
- MLM을 활용한 Pre-training 기법 을 통해, 기존 단방향(Unidirectional) 모델의 한계를 극복
- Pre-trained 모델을 직접 Fine-tuning 함으로써, 복잡한 Task-specific 구조 없이도 SOTA(State-of-the-art) 성능 달성
- 광범위한 NLP 태스크(문장 수준, 토큰 수준) 에서 기존 모델을 뛰어넘는 성과를 보이며, Task-specific 구조보다 범용성이 뛰어난 모델 임을 입증
BERT는 기존 Feature-based 및 Fine-tuning 모델들의 단점을 보완하며, Transformer 기반의 언어 모델 학습 방법론을 새롭게 정의한 모델로 평가된다.
2 Related Work
자연어 처리(NLP)에서 사전 훈련(Pre-training)된 언어 표현(Language Representation) 은 다양한 연구가 진행되어 왔으며, 크게 세 가지 접근법으로 나뉜다.
2.1 Unsupervised Feature-based Approaches
(비지도 특징 기반 접근 방식)
단어 수준의 표현을 사전 훈련(pre-training)해 NLP 모델의 성능을 높이려는 시도는 오랫동안 활발히 이어져 왔다. 대표적으로 Word2Vec, GloVe처럼 고정된 단어 임베딩 벡터를 학습하는 방식이 있으며, 이들은 지금도 많은 NLP 시스템의 기본 구성 요소로 사용되고 있다.
이후 연구들은 단어를 넘어서 문장이나 단락 수준의 표현까지 확장하고자 했다. 문장 임베딩을 학습하기 위한 다양한 objective들이 등장했으며, 예를 들어:
- 다음 문장 후보 중 맞는 것을 고르는 순위화(rank) 방식
- 이전 문장의 표현을 입력으로 다음 문장을 왼쪽→오른쪽으로 생성
- 노이즈를 제거하는 오토인코더 방식 등이 사용되었다.
그 중 대표적인 사례는 ELMo로, 이 모델은 단어의 고정 벡터가 아닌 문맥에 따라 달라지는 표현(contextualized representation)을 생성했다. ‘왼쪽에서부터 오른쪽으로’와 ‘오른쪽에서부터 왼쪽으로’ 각각의 언어 모델에서 추출된 표현을 합쳐서 사용한다.
이러한 방식은 문맥을 반영할 수 있다는 점에서 기존 정적 임베딩보다 훨씬 강력했고, ELMo는 여러 NLP 태스크에서 성능을 크게 향상시켰다.
→ 핵심 요약
- 초기에는 고정된 단어 임베딩 중심
- 이후 문장 수준 임베딩, 문맥 기반 표현으로 확장
- 대표: ELMo, context2vec → 양방향 LSTM 기반 문맥 표현
2.2 Unsupervised Fine-tuning Approaches
(비지도 미세조정 접근 방식)
이 접근법은 사전 학습(pre-training)된 모델을 미세 조정(fine-tuning)하여 특정 과제에 적용하는 방식이다. 주요 특징은 다음과 같다:
- 처음에는 단어 임베딩만 사전 학습해 사용하는 수준이었다.
- 이후에는 문장/문서 인코더 전체를 비지도 학습 후, 다운스트림 과제에 맞게 전체 파라미터를 함께 fine-tune하는 방식이 등장했다.
대표적인 예는 OpenAI GPT다. 이 모델은 레이블 없는 대규모 텍스트로 ‘왼쪽에서 오른쪽’ 언어 모델링 방식으로 사전 학습한 뒤, 이를 다양한 다운스트림 작업에 fine-tuning하여 GLUE 벤치마크의 여러 작업에서 최고 성능을 기록했다.
다른 관련된 모델들도 이러한 접근을 공유하고 있다:
- ULMFiT (Universal Language Model Fine-tuning)
- Semi-supervised sequence learning 등
→ 핵심 요약
- ELMo와 달리 전체 모델을 end-to-end fine-tune
- GPT가 대표적인 성공 사례
- 기존 objective: left-to-right LM, 오토인코더
2.3 Transfer Learning from Supervised Data
(지도 데이터 기반 전이 학습)
지금까지 소개한 방식이 비지도 사전 학습이었다면, 이번에는 대규모 지도 데이터로부터의 전이 학습에 관한 내용이다.
자연어 추론(NLI), 기계 번역 같은 방대한 지도 학습 데이터셋을 이용하면 일반적인 언어 능력을 모델이 학습할 수 있으며, 이를 다른 작업에 잘 전이할 수 있음이 확인되었다.
컴퓨터 비전 분야의 ImageNet 사전 학습 모델을 사용하는 전이 학습 기법도 NLP에 큰 영감을 주었다. 실제로, ImageNet → 다양한 비전 작업으로의 전이는 현재 딥러닝의 표준 전략이다.
→ 핵심 요약
- 지도 학습 기반 사전 훈련도 효과적
- 대규모 태스크(NLI, 번역)에서 학습된 모델은 전이 성능이 좋음
- 컴퓨터 비전의 ImageNet 사전학습이 NLP에도 유사하게 적용됨
3. BERT
BERT는 자연어 이해에서 강력한 성능을 보여준 모델로, 사전 훈련(Pre-training)과 미세 조정(Fine-tuning)이라는 두 단계를 기반으로 동작한다.
- 사전 훈련 단계에서는 레이블이 없는 대규모 텍스트 데이터를 사용해 범용 언어 능력을 학습하고,
- 미세 조정 단계에서는 특정 과제에 맞게 다운스트림 작업용으로 파인튜닝한다.
BERT의 큰 장점은 여러 과제를 위해 구조를 별도로 바꾸지 않아도 된다는 것. 동일한 사전 훈련 모델이 각 작업마다 입력/출력만 다르게 구성되고, 전체 모델을 그대로 미세 조정한다.

모델 구조
BERT는 다층 양방향 트랜스포머 인코더로 구성된다. OpenAI GPT와는 달리, BERT는 한 방향(왼쪽 → 오른쪽) 대신 양방향 컨텍스트를 동시에 학습하는 것이 핵심이다.
| BERTBASE | 12 | 768 | 12 | 110M |
| BERTLARGE | 24 | 1024 | 16 | 340M |
GPT는 Transformer 구조를 사용하되 왼쪽 컨텍스트만 활용하는 반면, BERT는 완전한 양방향 셀프 어텐션을 사용해 문맥을 더 깊이 이해한다.
입력/출력 표현 방식
BERT는 문장 하나 또는 문장 두 개(예: 질문-답변)를 하나의 입력 시퀀스로 통합하여 처리할 수 있다.
- 모든 입력은 [CLS] 토큰으로 시작하며, 이 토큰의 마지막 은닉 상태는 분류 작업의 대표 벡터로 사용된다.
- 두 문장 사이에는 [SEP] 토큰으로 구분하며, 각 토큰에는 세그먼트 임베딩을 추가하여 문장 A/B를 구분한다.
- 최종 입력 표현 = 토큰 임베딩 + 세그먼트 임베딩 + 위치 임베딩의 합

3.1 Pre-training BERT
사전 학습 단계에서는 BERT의 양방향성을 활용할 수 있는 두 가지 과제를 설정한다.
1) Masked Language Model (MLM)
전통적인 LM처럼 왼쪽 또는 오른쪽 방향만 사용하는 것이 아니라, 문맥 양방향 정보를 모두 활용하는 LM을 만들기 위해, 입력 시퀀스의 15% 토큰을 마스킹하고 이 토큰을 예측하도록 학습한다.
하지만 [MASK] 토큰은 실제 다운스트림 작업에는 존재하지 않기 때문에, 이를 완화하기 위해 아래와 같이 처리한다:
- 80% 확률로 [MASK]로 바꾸고,
- 10%는 랜덤 토큰으로 바꾸고,
- 10%는 원래 토큰 그대로 사용
이 방식은 깊은 양방향 모델을 효과적으로 훈련할 수 있게 한다.
2) Next Sentence Prediction (NSP)
두 문장 사이의 관계를 이해하는 능력을 학습하기 위해, 다음 문장이 실제로 이어지는 문장인지 아닌지를 이진 분류하는 NSP 태스크를 추가한다.
- 입력 문장 B가 문장 A의 다음 문장일 확률 50% (IsNext)
- 무작위로 추출된 문장일 확률 50% (NotNext)
이 과제는 QA, 자연어 추론 등 문장 간 관계가 중요한 태스크에 특히 효과적이다.
사전 학습 데이터
- BooksCorpus (8억 단어)
- Wikipedia (영어) (25억 단어)
→ 문서 단위로 구성된 데이터이기 때문에 긴 문맥 정보를 반영할 수 있다는 점에서 중요하다.
3.2 Fine-tuning BERT
사전 학습된 BERT는 다양한 다운스트림 작업에 쉽게 활용 가능하다.
- 입력 구조만 해당 작업에 맞게 조정하고,
- 출력층만 바꿔서 전체 모델을 엔드-투-엔드로 미세 조정한다.
예시:
- 문장 분류 → [CLS] 토큰 벡터를 분류기에 연결
- 토큰 분류 (개체명 인식 등) → 각 토큰 벡터를 시퀀스 태깅 레이어에 연결
- 질문 응답 → 시작/끝 위치를 예측하는 포인터 구조 활용
이 모든 작업은 사전 훈련된 동일한 모델에서 시작하며, 별도의 구조 변경 없이 미세 조정만 수행하면 된다.
추가로, 파인튜닝 과정은 비교적 계산량이 적고 빠르며, TPU 또는 GPU 환경에서 수 시간 이내에 완료 가능하다.
5.1 Effect of Pre-Training Tasks
실험 목적
두 가지 주요 사전 훈련 방식인 Masked LM (MLM)과 Next Sentence Prediction (NSP)이 실제로 성능에 어떤 영향을 주는지 확인한다.
비교 모델 세 가지
- BERT (MLM + NSP): 기본 구조
- No NSP: NSP 없이 MLM만 사용
- LTR & No NSP: 좌→우 방향의 일반 LM + NSP 제거 (GPT 스타일)
결과 요약
- NSP가 없으면 QNLI, MNLI, SQuAD에서 큰 성능 하락이 나타남
- LTR & No NSP (GPT 스타일)는 모든 다운스트림 작업에서 성능이 낮음
- 특히 SQuAD에서는 양방향 문맥을 활용하지 못한 LTR 모델이 토큰 예측에서 큰 약점을 보임
추가 실험
- LTR 모델의 성능을 보완하기 위해 BiLSTM을 추가했지만, 양방향 사전 학습 모델에는 미치지 못함
- ELMo처럼 LTR/RTL을 따로 훈련한 후 합치는 방식도 있지만, 계산량 증가, 직관성 부족, 성능 저하로 인해 BERT의 양방향 모델이 더 효과적
5.2 Effect of Model Size
실험 목적
레이어 수, 은닉 크기, 어텐션 헤드 수 등 모델 크기를 확장했을 때 성능이 어떻게 달라지는지 측정한다.
실험 구성
- 같은 사전 학습 데이터와 미세 조정 방식을 사용하고, 모델 규모만 달리함
- GLUE 벤치마크 내 여러 작업을 기준으로 5번 재시작해 평균 정확도 측정
결과 요약
- 큰 모델일수록 작은 데이터셋에서도 일관된 성능 향상을 보임 (ex. MRPC 같은 3천 샘플짜리 태스크에서도 정확도 상승)
- BERTLARGE (340M)는 BERTBASE (110M)보다 대부분의 작업에서 성능이 좋음
기존 연구와의 차별점
- 과거 연구는 feature-based 방식이 많아, 모델이 커질수록 성능 개선이 제한적이었음
- 하지만 BERT는 모델 전체를 fine-tune하기 때문에 작은 데이터셋에서도 큰 모델의 장점을 효과적으로 활용 가능
5.3 Feature-based Approach with BERT
실험 목적
BERT를 반드시 fine-tune 하지 않고, 기존의 방식처럼 특징 기반(feature-based) 접근으로도 쓸 수 있는지를 검토한다.
실험 과제: NER (Named Entity Recognition)
- CoNLL-2003 데이터셋
- CRF 레이어 없이 일반 토큰 분류 방식 적용
- WordPiece 토큰화 후 첫 번째 서브 토큰 벡터만 사용
두 가지 방식 비교
- Fine-tuning: 전체 BERT 모델을 다운스트림 작업에 맞게 학습
- Feature-based: BERT의 출력 중간 결과를 고정된 특징으로 사용 + 그 위에 BiLSTM 분류기 추가
결과 요약
- BERTLARGE를 사용하면 feature-based 접근만으로도 최신 성능에 근접한 결과 달성
- 가장 좋은 결과는 마지막 4개 층의 출력을 연결한 feature 기반 모델이었고, fine-tuning에 비해 성능 차는 0.3 F1밖에 나지 않음
6. Conclusion
언어 모델과의 전이 학습으로 인한 최근의 경험적 개선은 풍부하고 지도하지 않는(비지도) 사전 훈련이 많은 언어 이해 시스템에 필수적인 부분을 보여주었다. 특히, 이러한 결과를 통해 낮은 수준의 작업도 깊은 단방향 아키텍처로부터 이익을 얻을 수 있다. 우리의 가장 큰 공헌은 이러한 연구 결과를 깊은 양방향 구조로 일반화하여 동일한 사전훈련 모델이 광범위한 NLP 과제를 성공적으로 처리할 수 있도록 하는 것이다.