본문 바로가기
개인 프로젝트/[LLM] 논문리뷰

[논문리뷰] BERT-RoBERTa

by 응_비 2025. 4. 1.

BERT_2019_RoBERTa_A Robustly Optimized BERT Pretraining Approach.pdf
0.20MB



- BERT-RoBERTa

 

https://chanmuzi.tistory.com/163

 

BERT와 BERT 파생모델 비교(BERT, ALBERT, RoBERTa, ELECTRA, SpanBERT)

자연어처리 분야에서 아주 큰 입지를 차지하고 있는 모델인 BERT와 BERT 기반의 파생모델들에 대해 공부한 내용을 정리해봤습니다. 구글 BERT의 정석(한빛미디어)라는 책과 각 모델 관련 논문, 그리

chanmuzi.tistory.com

https://hryang06.github.io/nlp/BERT/

 

https://www.youtube.com/watch?v=30SvdoA6ApE

* Bert : 문맥을 양방향으로 이해해서, 숫자의 형태로 바꿔주는 딥러닝 모델 / 양방향 인코더 형태

 

https://www.youtube.com/watch?v=riGc8z3YIgQ

 

 

BERT (Bidirectional Encoder Representations from Transformers)는 구글이 개발한 언어 이해를 위한 사전 훈련(pre-trained) 모델입니다(https://arxiv.org/pdf/1810.04805.pdf). 이 모델이 노블했던 점은 텍스트의 양방향 context를 동시에 고려한다는 것이며, 이를 통해 단어의 의미를 보다 정확하게 이해할 수 있습니다. 

 

BERT 구조


- 인코더 아키텍처: BERT는 Transformer 모델의 인코더 아키텍처를 사용합니다. Transformer의 인코더는 멀티-헤드 어텐션과 position-wise feedforward network로 구성된 여러 레이어를 포함합니다. BERT는 일반적으로 12개(소규모 모델인 BERT-Base) 또는 24개(대규모 모델인 BERT-Large)의 인코더 레이어를 사용합니다.

- 포지셔널 인코딩: BERT는 순차적 데이터를 처리하지만, Transformer 아키텍처는 기본적으로 순서를 고려하지 않습니다. 따라서 입력 데이터에 포지셔널 인코딩을 추가하여 각 단어의 위치 정보를 모델에 제공합니다.

- 입력 표현: BERT는 단어 단위로 토큰화된 입력을 받으며, 각 토큰은 WordPiece 임베딩을 통해 벡터로 변환됩니다. 이 벡터에는 포지셔널 인코딩과 세그먼트 인코딩이 결합되어 있습니다. 세그먼트 인코딩은 두 개의 다른 문장을 구분하는 데 사용됩니다.

https://arxiv.org/pdf/1810.04805.pdf



- 사전 훈련 task: BERT는 두 가지 주요 사전 훈련 태스크를 통해 학습됩니다:
   - Masked Language Model (MLM): 훈련 데이터의 일부 단어를 마스킹하고, 모델이 이 마스킹된 단어를 예측하도록 합니다. 이를 통해 모델은 단어의 양방향 컨텍스트를 고려할 수 있습니다.
   - Next Sentence Prediction (NSP): 두 개의 문장이 주어졌을 때, 한 문장이 다른 문장 바로 다음에 오는지를 예측합니다. 이를 통해 문장 간 관계를 이해할 수 있습니다.

 



- 사전 훈련과 파인 튜닝: BERT는 대규모의 텍스트 코퍼스에서 사전 훈련된 후, 특정 작업에 맞게 추가로 파인 튜닝됩니다. 파인 튜닝은 작업 관련 데이터셋을 사용하여 수행되며, 이 단계에서 모델은 특정 자연어 처리(NLP) 작업에 최적화됩니다.

https://arxiv.org/pdf/1810.04805.pdf



- 출력: BERT의 출력은 다양한 작업에 사용될 수 있는 특징 벡터입니다. 예를 들어, 문장 분류 작업에서는 첫 번째 토큰(일반적으로 [CLS]라고 표시됨)의 최종 레이어 표현을 사용하여 분류를 수행할 수 있습니다. 다른 작업에서는 다른 전략을 사용할 수 있습니다.

BERT는 이러한 구조를 통해 문맥적으로 풍부한 단어 임베딩을 생성할 수 있습니다.

 


 

RoBERTa (Robustly optimized BERT approach)는 BERT (Bidirectional Encoder Representations from Transformers) 모델을 개선한 버전으로, Facebook AI가 개발했습니다 (https://arxiv.org/pdf/1907.11692.pdf). BERT 모델의 변형인 RoBERTa는 원래 BERT의 기본 아키텍처를 유지하면서 몇 가지 중요한 변경 사항을 적용하여 성능을 향상시켰습니다.

 

RoBERTa 구조


- 인코더 기반 아키텍처: RoBERTa는 Transformer의 인코더 레이어를 사용합니다. 이 레이어는 멀티-헤드 어텐션과 position-wise feedforward network로 구성되어 있습니다. RoBERTa는 디코더 부분을 사용하지 않으며, BERT와 마찬가지로 오직 인코더 레이어만을 쌓아서 만듭니다.

- 양방향 컨텍스트 학습: RoBERTa는 입력의 왼쪽과 오른쪽 컨텍스트를 모두 고려하는 양방향 학습을 통해 단어의 임베딩을 생성합니다. 이는 문맥을 효과적으로 파악할 수 있도록 돕습니다.

 



- 다이내믹 마스킹: BERT에서 사용된 정적 마스킹 대신(BERT에서는 훈련 데이터의 15%의 토큰을 무작위로 마스킹하고, 이 마스킹된 토큰을 예측하도록 합니다. 그러나 이 마스킹 패턴은 훈련 데이터 전체에 걸쳐 고정되어 있습니다.), RoBERTa는 훈련 데이터를 여러 번 복사하여 각 복사본에 다른 마스킹 패턴을 적용합니다. 즉, 데이터의 다른 복사본에 대해 마스킹 패턴을 변경하여 모델이 같은 문장을 여러번 보더라도 다른 토큰을 예측하도록 합니다.

- 큰 배치 사이즈와 더 많은 데이터: RoBERTa는 BERT에 비해 훨씬 더 큰 배치 크기로 훈련되며, 더 많은 데이터를 사용합니다. 이로 인해 일반화 능력이 향상됩니다.

 



- 훈련 과정 최적화: BERT는 'Next Sentence Prediction' 태스크를 포함하여 모델이 두 문장 사이의 관계를 학습할 수 있도록 했습니다. 연구 결과에 따르면, NSP task는 특정 경우에만 유용하고, 대부분의 경우 모델 성능에 큰 영향을 주지 않거나 심지어 해를 끼칠 수도 있다는 것이 밝혀졌습니다. 그래서 RoBERTa는 BERT의 'Next Sentence Prediction' (NSP) 태스크를 제거하고, 더 긴 시퀀스와 더 오랜 시간 동안 모델을 학습시킵니다. 이는 모델이 더 복잡한 언어 구조를 이해하도록 만듭니다.

- 하이퍼파라미터 조정: RoBERTa는 BERT의 하이퍼파라미터를 다시 조정하여 최적화합니다. 학습률과 같은 파라미터들을 세밀하게 조정하여 모델의 성능을 향상시킵니다. 또한 RoBERTa는 BERT와 다른 하이퍼파라미터를 사용하는데 그 예시로 학습률 스케줄링과 관련하여 RoBERTa는 Byte-Pair Encoding(BPE)을 사용하는 등 최적화 방법을 적용했습니다.

 

 


 

BigBird는 Google Research와 Toyota Technological Institute at Chicago의 연구자들에 의해 개발된 언어 모델로, Transformer 기반의 BERT 모델을 확장한 버전입니다(https://arxiv.org/pdf/2007.14062.pdf). BigBird의 핵심 혁신은 대규모의 문서나 긴 시퀀스를 효과적으로 처리할 수 있는 어텐션 메커니즘의 확장입니다. 

Transformer 모델은 일반적으로 문장 내 모든 단어 쌍 사이의 관계를 계산하는데, 이는 시퀀스의 길이가 길어질수록 계산량이 제곱으로 증가하여 비효율적입니다. BigBird는 이 문제를 해결하기 위해 sparse attention mechanism을 도입했습니다.

 

BigBird의 주요 구성 요소

 

-sparse attention mechanism: BigBird는 전체 어텐션 매트릭스를 계산하는 대신, 특정한 패턴을 사용하여 어텐션을 계산합니다. 이 패턴은 글로벌 어텐션, 슬라이딩 윈도우 어텐션, 그리고 랜덤 어텐션을 포함합니다. 이러한 sparse 연결 구조는 메모리 사용량을 크게 줄이면서도 문맥을 효과적으로 포착할 수 있게 해줍니다.

https://arxiv.org/pdf/2007.14062.pdf



- global attention node: 글로벌 어텐션 노드(Global Attention Nodes) 개념은 특정 중요한 토큰이 전체 시퀀스에 걸쳐 다른 모든 토큰과 상호 작용할 수 있도록 하는 메커니즘입니다. 전통적인 Transformer 모델에서는 모든 토큰이 서로 어텐션을 계산합니다. 즉, 모든 토큰 쌍 사이의 관계가 고려됩니다. 하지만 이는 시퀀스 길이에 따라 계산 복잡도가 제곱으로 증가하는 문제를 야기합니다. 긴 문서를 처리할 때 이는 매우 비효율적이 될 수 있습니다. 특정 토큰들이 글로벌 어텐션 노드로 선택됩니다. 이들은 일반적으로 문서의 의미를 포착하는 데 중요한 토큰들입니다. 예를 들어, 문서의 시작을 나타내는 [CLS] 토큰이 이에 해당할 수 있습니다. 글로벌 어텐션 노드는 문서 내의 모든 다른 토큰들과 어텐션을 계산합니다. 이를 통해, 모델은 전체 문서의 컨텍스트를 글로벌 어텐션 노드에 통합할 수 있습니다.

글로벌 어텐션을 통해, 모델은 특정 중요한 정보를 전체 문서에 걸쳐 유지하고 전파할 수 있습니다. 이는 모델이 전체 문서의 구조와 흐름을 더 잘 이해하도록 돕습니다.
글로벌 어텐션 노드는 모든 토큰이 아닌 중요한 토큰에만 전체적인 어텐션을 계산하기 때문에, 계산 비용을 절감하면서도 긴 시퀀스의 문맥을 효과적으로 처리할 수 있게 합니다.


- 슬라이딩 윈도우: 일반적인 Transformer 어텐션과 유사하지만, 각 토큰은 고정된 크기의 이웃과만 상호 작용합니다. 이는 계산 복잡성을 줄이면서도 local context을 효과적으로 포착할 수 있게 해줍니다.

- 랜덤 어텐션: 토큰들의 작은 무작위 집합에 대해서만 어텐션을 계산하여, 더 넓은 문맥을 포착할 수 있도록 합니다.

- 확장된 시퀀스 처리 능력: sparse attention 기법을 통해 BigBird는 BERT와 같은 모델보다 훨씬 긴 시퀀스를 효과적으로 처리할 수 있습니다. 이는 특히 자연어 처리에서 긴 문서를 다루는 경우 유용합니다.

BigBird는 BERT와 동일한 사전 훈련 및 파인튜닝 프로세스를 사용할 수 있으며, 다양한 NLP 작업에서 BERT의 성능을 뛰어넘는 것으로 나타났습니다.

 

[논문요약]

 

초록

우리는 BERT라는 새로운 언어 표현 모델을 소개합니다. BERT는 Bidirectional Encoder Representations from Transformers의 약자입니다. 최근의 언어 표현 모델들(Peters et al., 2018a; Radford et al., 2018)과 달리, BERT는 모든 계층에서 좌우 문맥을 함께 조건부로 하여 레이블이 없는 텍스트에서 깊은 양방향 표현을 사전 학습하도록 설계되었습니다. 그 결과, 사전 학습된 BERT 모델은 단 하나의 추가 출력 계층만으로 미세 조정되어 질문 응답 및 언어 추론과 같은 광범위한 작업에 대한 최첨단 모델을 만들 수 있으며, 이는 작업별 아키텍처 수정이 크게 필요하지 않습니다. BERT는 개념적으로 단순하면서도 경험적으로 강력합니다. GLUE 점수를 80.5%(절대적으로 7.7% 포인트 향상)로 끌어올리고, MultiNLI 정확도를 86.7%(절대적으로 4.6% 향상), SQuAD v1.1 질문 응답 테스트 F1을 93.2(절대적으로 1.5 포인트 향상), SQuAD v2.0 테스트 F1을 83.1(절대적으로 5.1 포인트 향상)으로 끌어올리는 등 자연어 처리 작업 11개에서 새로운 최첨단 결과를 얻었습니다.

 

1 서론

언어 모델 사전 학습은 많은 자연어 처리 작업을 개선하는 데 효과적인 것으로 나타났습니다(Dai and Le, 2015; Peters et al., 2018a; Radford et al., 2018; Howard and Ruder, 2018). 여기에는 자연어 추론(Bowman et al., 2015; Williams et al., 2018)과 의역(Dolan and Brockett, 2005)과 같은 문장 수준 작업이 포함되며, 이는 문장을 전체적으로 분석하여 문장 간의 관계를 예측하는 것을 목표로 합니다. 또한 개체명 인식 및 질문 응답과 같은 토큰 수준 작업도 포함되는데, 이는 모델이 토큰 수준에서 세밀한 출력을 생성해야 합니다(Tjong Kim Sang and De Meulder, 2003; Rajpurkar et al., 2016).

 

사전 학습된 언어 표현을 다운스트림 작업에 적용하는 두 가지 기존 전략이 있습니다: 특성 기반(feature-based)과 미세 조정(fine-tuning)입니다. ELMo(Peters et al., 2018a)와 같은 특성 기반 접근법은 사전 학습된 표현을 추가 특성으로 포함하는 작업별 아키텍처를 사용합니다. Generative Pre-trained Transformer(OpenAI GPT)(Radford et al., 2018)와 같은 미세 조정 접근법은 작업별 매개변수를 최소화하고, 모든 사전 학습된 매개변수를 간단히 미세 조정하여 다운스트림 작업을 학습합니다.

 

두 접근법은 사전 학습 중에 동일한 목적 함수를 공유하며, 일반적인 언어 표현을 학습하기 위해 단방향 언어 모델을 사용합니다. 우리는 현재 기술이 사전 학습된 표현의 힘을 제한한다고 주장하며, 특히 미세 조정 접근법에서 더욱 그렇습니다. 주요 제한점은 표준 언어 모델이 단방향이라는 것이며, 이로 인해 사전 학습 중에 사용할 수 있는 아키텍처 선택이 제한됩니다. 예를 들어, OpenAI GPT에서 저자들은 왼쪽에서 오른쪽으로의 아키텍처를 사용하며, 각 토큰은 Transformer의 자기 주의 계층에서 이전 토큰에만 주의를 기울일 수 있습니다(Vaswani et al., 2017). 이러한 제한은 문장 수준 작업에 최적이 아니며, 질문 응답과 같은 토큰 수준 작업에 미세 조정 기반 접근법을 적용할 때 매우 해롭습니다. 이러한 작업에서는 양방향 컨텍스트를 통합하는 것이 중요합니다.

 

이 논문에서 우리는 BERT(Bidirectional Encoder Representations from Transformers)를 제안함으로써 미세 조정 기반 접근법을 개선합니다. BERT는 Cloze 작업(Taylor, 1953)에서 영감을 받은 "마스크드 언어 모델"(MLM) 사전 학습 목표를 사용하여 이전에 언급한 단방향성 제약을 완화합니다. 마스크드 언어 모델은 입력에서 일부 토큰을 무작위로 마스킹하고, 목표는 마스킹된 토큰의 원래 어휘 ID를 예측하는 것입니다.

 

단어는 문맥에만 기반하여 예측합니다. 왼쪽에서 오른쪽으로 읽는 언어 모델 사전 학습과 달리, MLM 목표는 표현이 좌우 문맥을 융합할 수 있게 하여 깊은 양방향 Transformer를 사전 학습할 수 있게 합니다. 마스크드 언어 모델 외에도, 우리는 텍스트 쌍 표현을 공동으로 사전 학습하는 "다음 문장 예측" 작업도 사용합니다.

우리 논문의 기여는 다음과 같습니다:

  • 언어 표현을 위한 양방향 사전 학습의 중요성을 증명합니다. 사전 학습에 단방향 언어 모델을 사용하는 Radford et al. (2018)과 달리, BERT는 마스크드 언어 모델을 사용하여 사전 학습된 깊은 양방향 표현을 가능하게 합니다. 이는 또한 독립적으로 학습된 왼쪽에서 오른쪽 및 오른쪽에서 왼쪽 LM의 얕은 연결을 사용하는 Peters et al. (2018a)와도 대조됩니다.
  • 사전 학습된 표현이 많은 복잡하게 설계된 작업별 아키텍처의 필요성을 줄인다는 것을 보여줍니다. BERT는 많은 작업별 아키텍처를 능가하며, 문장 수준 및 토큰 수준 작업의 대규모 스위트에서 최첨단 성능을 달성하는 최초의 미세 조정 기반 표현 모델입니다.
  • BERT는 11개의 NLP 작업에서 최신 기술 수준을 발전시킵니다. 코드와 사전 학습된 모델은 https://github.com/google-research/bert에서 사용할 수 있습니다.

2 관련 연구

일반적인 언어 표현을 사전 학습하는 긴 역사가 있으며, 이 섹션에서는 가장 널리 사용되는 접근 방식을 간략히 검토합니다.

 

2.1 비지도 특성 기반 접근법

단어의 광범위하게 적용 가능한 표현을 학습하는 것은 수십 년 동안 활발한 연구 영역이었으며, 비신경망(Brown et al., 1992; Ando and Zhang, 2005; Blitzer et al., 2006) 및 신경망(Mikolov et al., 2013; Pennington et al., 2014) 방법을 포함합니다. 사전 학습된 단어 임베딩은 현대 NLP 시스템의 필수적인 부분으로, 처음부터 학습한 임베딩보다 상당한 개선을 제공합니다(Turian et al., 2010). 단어 임베딩 벡터를 사전 학습하기 위해 왼쪽에서 오른쪽으로의 언어 모델링 목표가 사용되었으며(Mnih and Hinton, 2009), 좌우 문맥에서 올바른 단어와 잘못된 단어를 구별하는 목표도 사용되었습니다(Mikolov et al., 2013).

이러한 접근법은 문장 임베딩(Kiros et al., 2015; Logeswaran and Lee, 2018) 또는 단락 임베딩(Le and Mikolov, 2014)과 같은 더 큰 단위로 일반화되었습니다. 문장 표현을 학습하기 위해, 이전 연구들은 다음 문장 후보를 순위화하는 목표(Jernite et al., 2017; Logeswaran and Lee, 2018), 이전 문장의 표현이 주어진 다음 문장 단어의 왼쪽에서 오른쪽으로의 생성(Kiros et al., 2015), 또는 디노이징 오토인코더에서 파생된 목표(Hill et al., 2016)를 사용했습니다.

 

ELMo와 그 전신(Peters et al., 2017, 2018a)은 전통적인 단어 임베딩 연구를 다른 차원으로 일반화합니다. 그들은 왼쪽에서 오른쪽 및 오른쪽에서 왼쪽 언어 모델에서 문맥에 민감한 특성을 추출합니다. 각 토큰의 문맥적 표현은 왼쪽에서 오른쪽 및 오른쪽에서 왼쪽 표현의 연결입니다. 기존 작업별 아키텍처에 문맥적 단어 임베딩을 통합할 때, ELMo는 질문 응답(Rajpurkar et al., 2016), 감정 분석(Socher et al., 2013), 개체명 인식(Tjong Kim Sang and De Meulder, 2003)을 포함한 여러 주요 NLP 벤치마크에서 최첨단 성능을 발전시킵니다(Peters et al., 2018a).

 

Melamud et al. (2016)은 LSTM을 사용하여 좌우 문맥에서 단일 단어를 예측하는 작업을 통해 문맥적 표현을 학습하는 것을 제안했습니다. ELMo와 유사하게, 그들의 모델은 특성 기반이며 깊은 양방향이 아닙니다. Fedus et al. (2018)은 클로즈 작업이 텍스트 생성 모델의 견고성을 향상시키는 데 사용될 수 있음을 보여줍니다.

 

2.2 비지도 미세 조정 접근법

특성 기반 접근법과 마찬가지로, 이 방향의 초기 연구는 레이블이 없는 텍스트에서 단어 임베딩 매개변수만 사전 학습했습니다(Collobert and Weston, 2008). 최근에는 문맥적 토큰 표현을 생성하는 문장 또는 문서 인코더가 레이블이 없는 텍스트에서 사전 학습되고 지도 다운스트림 작업에 대해 미세 조정되었습니다(Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018). 이러한 접근법의 장점은 처음부터 학습해야 하는 매개변수가 적다는 것입니다. 적어도 부분적으로 이러한 장점 때문에, OpenAI GPT(Radford et al., 2018)는 GLUE 벤치마크(Wang et al., 2018a)의 많은 문장 수준 작업에서 이전의 최첨단 결과를 달성했습니다. 왼쪽에서 오른쪽 언어 모델 및 오토인코더 목표는 이러한 모델을 사전 학습하는 데 사용되었습니다(Howard and Ruder, 2018; Radford et al., 2018; Dai and Le, 2015).

 

2.3 지도 데이터에서의 전이 학습

자연어 추론(Conneau et al., 2017)과 기계 번역(McCann et al., 2017)과 같은 대규모 데이터셋을 가진 지도 작업에서의 효과적인 전이를 보여주는 연구도 있었습니다. 컴퓨터 비전 연구도 대규모 사전 학습 모델에서의 전이 학습의 중요성을 입증했으며, 효과적인 방법은 ImageNet(Deng et al., 2009; Yosinski et al., 2014)으로 사전 학습된 모델을 미세 조정하는 것입니다.

3 BERT

이 섹션에서는 BERT와 그 상세한 구현을 소개합니다.

우리의 프레임워크에는 사전 학습과 미세 조정이라는 두 단계가 있습니다.

 

사전 학습 중에는 모델이 다양한 사전 학습 작업을 통해 레이블이 없는 데이터로 학습됩니다. 미세 조정을 위해서는 BERT 모델이 먼저 사전 학습된 매개변수로 초기화되고, 모든 매개변수는 다운스트림 작업의 레이블이 있는 데이터를 사용하여 미세 조정됩니다. 각 다운스트림 작업은 동일한 사전 학습된 매개변수로 초기화되더라도 별도의 미세 조정된 모델을 가집니다. 그림 1의 질문-응답 예제는 이 섹션의 계속되는 예시로 사용될 것입니다.

 

BERT의 특징적인 특성은 다양한 작업에 걸친 통합된 아키텍처입니다. 사전 학습된 아키텍처와 최종 다운스트림 아키텍처 간에는 최소한의 차이만 있습니다.

 

모델 아키텍처

BERT의 모델 아키텍처는 Vaswani et al. (2017)에서 설명되고 tensor2tensor 라이브러리에서 공개된 원본 구현을 기반으로 한 다층 양방향 Transformer 인코더입니다. Transformer의 사용이 일반화되었고 우리의 구현이 원본과 거의 동일하기 때문에, 모델 아키텍처에 대한 철저한 배경 설명은 생략하고 독자들에게 Vaswani et al. (2017)과 "The Annotated Transformer"와 같은 우수한 가이드를 참조하도록 안내합니다.

이 연구에서, 우리는 레이어(즉, Transformer 블록)의 수를 L, 숨겨진 크기를 H, 자기 주의 헤드의 수를 A로 표시합니다. A우리는 주로 두 가지 모델 크기의 결과를 보고합니다: BERTBASE (L=12, H=768, A=12, 총 매개변수=110M)와 BERTLARGE (L=24, H=1024, A=16, 총 매개변수=340M). BERTBASE는 비교 목적으로 OpenAI GPT와 동일한 모델 크기를 갖도록 선택되었습니다. 그러나 중요한 점은 BERT Transformer는 양방향 자기 주의를 사용하는 반면, GPT Transformer는 모든 토큰이 왼쪽 문맥에만 주의를 기울일 수 있는 제약된 자기 주의를 사용한다는 것입니다.

 

입력/출력 표현

BERT가 다양한 다운스트림 작업을 처리할 수 있도록, 우리의 입력 표현은 단일 문장과 문장 쌍(예: ⟨질문, 답변⟩)을 하나의 토큰 시퀀스로 명확하게 표현할 수 있습니다. 이 연구 전체에서 "문장"은 실제 언어적 문장이 아닌, 연속된 텍스트의 임의의 범위를 의미할 수 있습니다. "시퀀스"는 BERT에 대한 입력 토큰 시퀀스를 의미하며, 이는 단일 문장이거나 함께 묶인 두 문장일 수 있습니다.

우리는 30,000 토큰 어휘로 WordPiece 임베딩(Wu et al., 2016)을 사용합니다. 모든 시퀀스의 첫 번째 토큰은 항상 특별한 분류 토큰([CLS])입니다. 이 토큰에 해당하는 최종 은닉 상태는 분류 작업을 위한 집계된 시퀀스 표현으로 사용됩니다.

문장 쌍은 단일 시퀀스로 함께 묶입니다. 우리는 두 가지 방식으로 문장을 구별합니다. 첫째, 특별한 토큰([SEP])으로 문장들을 분리합니다. 둘째, 각 토큰이 문장 A 또는 문장 B에 속하는지를 나타내는 학습된 임베딩을 추가합니다. 그림 1에서 보듯이, 우리는 입력 임베딩을 E, 특별한 [CLS] 토큰의 최종 은닉 벡터를 C ∈ R^H, 그리고 i번째 입력 토큰의 최종 은닉 벡터를 T_i ∈ R^H로 표시합니다. 주어진 토큰에 대해, 그 입력 표현은 해당 토큰, 세그먼트, 위치 임베딩을 합산하여 구성됩니다. 이 구성의 시각화는 그림 2에서 볼 수 있습니다.

 

3.1 BERT 사전 학습

Peters et al. (2018a)과 Radford et al. (2018)과 달리, 우리는 BERT를 사전 학습하기 위해 전통적인 왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽 언어 모델을 사용하지 않습니다. 대신, 우리는 이 섹션에서 설명하는 두 가지 비지도 작업을 사용하여 BERT를 사전 학습합니다. 이 단계는 그림 1의 왼쪽 부분에 제시되어 있습니다.

 

작업 #1: 마스크드 LM

직관적으로, 깊은 양방향 모델이 왼쪽에서 오른쪽 모델이나 왼쪽에서 오른쪽 및 오른쪽에서 왼쪽 모델의 얕은 연결보다 엄격하게 더 강력하다고 믿는 것이 합리적입니다. 불행하게도, 표준 조건부 언어 모델은 왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽으로만 학습될 수 있습니다. 양방향 조건화는 각 단어가 간접적으로 "자신을 볼 수" 있게 하여 모델이 다층 문맥에서 대상 단어를 쉽게 예측할 수 있기 때문입니다. 전자는 종종 "Transformer 인코더"라고 불리며, 왼쪽 문맥만 사용하는 버전은 텍스트 생성에 사용될 수 있기 때문에 "Transformer 디코더"라고 불립니다.

깊은 양방향 표현을 학습하기 위해, 우리는 단순히 입력 토큰의 일부 비율을 무작위로 마스킹한 다음, 그 마스킹된 토큰을 예측합니다. 우리는 이 절차를 "마스크드 LM"(MLM)이라고 부르지만, 문헌에서는 종종 Cloze 작업이라고 불립니다(Taylor, 1953). 이 경우, 마스크 토큰에 해당하는 최종 은닉 벡터는 표준 LM에서와 같이 어휘에 대한 출력 소프트맥스에 입력됩니다.

모든 실험에서, 우리는 각 시퀀스에서 모든 WordPiece 토큰의 15%를 무작위로 마스킹합니다. 디노이징 오토인코더(Vincent et al., 2008)와 달리, 우리는 전체 입력을 재구성하는 대신 마스킹된 단어만 예측합니다. 이를 통해 양방향 사전 학습 모델을 얻을 수 있지만, 단점은 [MASK] 토큰이 미세 조정 중에 나타나지 않기 때문에 사전 학습과 미세 조정 사이에 불일치가 생긴다는 것입니다.

이를 완화하기 위해, 우리는 "마스킹된" 단어를 항상 실제 [MASK] 토큰으로 대체하지는 않습니다. 학습 데이터 생성기는 예측을 위해 무작위로 토큰 위치의 15%를 선택합니다. i번째 토큰이 선택되면, 우리는 i번째 토큰을: (1) 80%의 경우 [MASK] 토큰으로 대체 (2) 10%의 경우 무작위 토큰으로 대체 (3) 10%의 경우 변경되지 않은 i번째 토큰으로 유지

그런 다음, Ti는 교차 엔트로피 손실로 원래 토큰을 예측하는 데 사용됩니다. 우리는 부록 C.2에서 이 절차의 변형들을 비교합니다.

 

작업 #2: 다음 문장 예측(NSP)

질문 응답(QA)과 자연어 추론(NLI)과 같은 많은 중요한 다운스트림 작업은 두 문장 간의 관계를 이해하는 것에 기반하며, 이는 언어 모델링에 의해 직접적으로 포착되지 않습니다. 문장 관계를 이해하는 모델을 학습하기 위해, 우리는 모든 단일 언어 코퍼스에서 쉽게 생성할 수 있는 이진화된 다음 문장 예측 작업을 위해 사전 학습합니다.

구체적으로, 각 사전 학습 예제에 대한 문장 A와 B를 선택할 때, 50%의 경우 B는 A 다음에 오는 실제 다음 문장(IsNext로 레이블 지정)이고, 50%의 경우 코퍼스에서 무작위로 선택된 문장(NotNext로 레이블 지정)입니다. 그림 1에서 보여주듯이, C는 다음 문장 예측(NSP)에 사용됩니다.

단순함에도 불구하고, 우리는 5.1절에서 이 작업을 향한 사전 학습이 QA와 NLI 모두에 매우 유익하다는 것을 보여줍니다.

 

NSP 작업은 Jernite et al. (2017)과 Logeswaran 및 Lee (2018)에서 사용된 표현 학습 목표와 밀접하게 관련이 있습니다. 그러나 이전 작업에서는 문장 임베딩만 다운스트림 작업에 전이되었으나, BERT는 모든 매개변수를 전이하여 최종 작업 모델 매개변수를 초기화합니다.

 

사전 훈련 데이터
사전 훈련 절차는 언어 모델 사전 훈련에 관한 기존 문헌을 따릅니다. 사전 훈련에 사용되는 말뭉치는 BooksCorpus(8억 단어) (Zhu et al., 2015)와 영어 위키백과(25억 단어)입니다. 위키백과에서는 텍스트 부분만 추출하고, 목록, 표, 헤더는 제외합니다. 중요한 점은 문장 수준의 말뭉치인 Billion Word Benchmark (Chelba et al., 2013)와 같은 데이터셋보다 문서 수준의 말뭉치를 사용하는 것이 필수적이라는 것입니다. 이는 긴 연속적인 시퀀스를 추출하기 위함입니다.

 

BERT의 미세 조정
BERT의 미세 조정은 직관적입니다. Transformer의 자기 주의 메커니즘 덕분에 BERT는 많은 다운스트림 작업을 모델링할 수 있습니다. 작업에 따라 단일 텍스트 또는 텍스트 쌍을 처리하는데, 텍스트 쌍을 처리하는 일반적인 방법은 텍스트 쌍을 독립적으로 인코딩한 후 양방향 교차 주의를 적용하는 것입니다(예: Parikh et al., 2016; Seo et al., 2017). 그러나 BERT는 자기 주의 메커니즘을 사용하여 이 두 단계를 통합합니다. 즉, 연결된 텍스트 쌍을 자기 주의 방식으로 인코딩하면 두 문장 간의 양방향 교차 주의가 포함됩니다. 각 작업에 대해 우리는 작업별 입력과 출력을 BERT에 맞춰 넣고 모든 매개변수를 엔드-투-엔드로 미세 조정합니다. 입력에서는 사전 훈련에서의 문장 A와 문장 B가 (1) 패러프레이징의 문장 쌍, (2) 전제-가설 쌍, (3) 질문-지문 쌍, (4) 텍스트 분류나 시퀀스 태깅에서의 텍스트-∅ 쌍에 해당합니다. 출력에서는 토큰 수준의 작업(예: 시퀀스 태깅이나 질문 응답)에는 토큰 표현이 출력 계층으로 입력되고, 분류 작업(예: 전제 관계나 감정 분석)에는 [CLS] 표현이 출력 계층으로 입력됩니다.

사전 훈련과 비교했을 때 미세 조정은 상대적으로 비용이 적게 듭니다. 이 논문에서의 모든 결과는 단일 Cloud TPU에서 최대 1시간 이내, 또는 GPU에서 몇 시간 이내에 정확히 동일한 사전 훈련된 모델에서 복제할 수 있습니다. 작업별 세부 사항은 섹션 4의 해당 하위 섹션에서 설명합니다. 더 자세한 사항은 부록 A.5에 나와 있습니다.

 

4. 실험
이번 섹션에서는 11개의 NLP 작업에 대한 BERT 미세 조정 결과를 제시합니다.

4.1 GLUE
General Language Understanding Evaluation (GLUE) 벤치마크 (Wang et al., 2018a)는 다양한 자연어 이해 작업의 모음입니다. GLUE 데이터셋에 대한 자세한 설명은 부록 B.1에 포함되어 있습니다. GLUE에서 미세 조정할 때, 입력 시퀀스(단일 문장 또는 문장 쌍)는 섹션 3에서 설명한 대로 표현하며, 첫 번째 입력 토큰([CLS])에 해당하는 최종 은닉 벡터 C ∈ R^H를 집합적 표현으로 사용합니다. 미세 조정 중 새로 도입되는 매개변수는 분류 계층 가중치 W ∈ R^K×H이며, 여기서 K는 레이블의 수입니다. 우리는 C와 W를 사용하여 표준 분류 손실을 계산합니다. 즉, log(softmax(CW^T))입니다.

 

우리는 배치 크기를 32로 설정하고, GLUE 작업에 대해 3 에포크 동안 데이터를 미세 조정합니다. 각 작업에 대해 최적의 미세 조정 학습률(5e-5, 4e-5, 3e-5, 2e-5 중)을 Dev 세트에서 선택했습니다. 또한, BERTLARGE는 작은 데이터셋에서 미세 조정이 불안정할 수 있다는 것을 발견했기 때문에, 여러 번의 랜덤 리스타트를 실행하고 Dev 세트에서 최상의 모델을 선택했습니다. 랜덤 리스타트를 사용할 때, 동일한 사전 훈련된 체크포인트를 사용하되, 미세 조정 데이터 셔플링과 분류 계층 초기화를 다르게 수행합니다. 결과는 표 1에 제시되어 있습니다. BERTBASE와 BERTLARGE는 모든 작업에서 모든 시스템을 상당한 차이로 능가하며, 각각 4.5%와 7.0%의 평균 정확도 향상을 기존의 최첨단 시스템과 비교해 얻었습니다. BERTBASE와 OpenAI GPT는 모델 아키텍처 면에서 거의 동일하지만, 주의 마스킹에서 차이가 있다는 점을 유의해야 합니다. 가장 크고 널리 보고된 GLUE 작업인 MNLI에서는 BERT가 4.6%의 절대 정확도 향상을 달성했습니다. 공식 GLUE 리더보드에서는 BERTLARGE가 80.5점을 기록하며, OpenAI GPT는 작성 시점에서 72.8점을 기록하고 있습니다. 우리는 BERTLARGE가 BERTBASE를 모든 작업에서, 특히 학습 데이터가 매우 적은 작업에서 상당히 능가한다는 것을 발견했습니다. 모델 크기의 효과는 섹션 5.2에서 더 자세히 탐구됩니다.

 

4.2 SQuAD v1.1
Stanford Question Answering Dataset(SQuAD v1.1)은 100k개의 크라우드소싱된 질문/답변 쌍(rajpurkar et al., 2016)으로 구성되어 있습니다. 이 데이터셋에서 주어진 질문과 지문을 기반으로 답변을 도출하는 작업을 다룹니다.

 

위키백과에서 답변을 포함한 텍스트를 기반으로, 이 작업은 지문에서 답변의 텍스트 범위를 예측하는 것입니다. 그림 1에서 볼 수 있듯이, 질문 응답 작업에서는 입력 질문과 지문을 하나의 패킹된 시퀀스로 나타냅니다. 질문은 A 임베딩을 사용하고, 지문은 B 임베딩을 사용합니다. 미세 조정 동안 우리는 시작 벡터 S ∈ R^H와 끝 벡터 E ∈ R^H만 도입합니다. 단어 i가 답변 범위의 시작일 확률은 Ti와 S의 내적을 계산하고, 이를 지문 내 모든 단어에 대해 소프트맥스를 적용하여 구합니다:
Pi = e^(S·Ti) / Σ_j e^(S·Tj).


끝 위치에 대해서도 유사한 공식이 사용됩니다. 후보 범위가 i에서 j까지일 때의 점수는 S·Ti + E·Tj로 정의되며, j ≥ i인 최대 점수 범위가 예측으로 사용됩니다. 훈련 목표는 정확한 시작 위치와 끝 위치에 대한 로그 우도(log-likelihood)의 합입니다. 우리는 3 에포크 동안 학습률 5e-5와 배치 크기 32로 미세 조정합니다.

표 2는 상위 리더보드 항목들과 최신 발표된 시스템들(Seo et al., 2017; Clark and Gardner, 2018; Peters et al., 2018a; Hu et al., 2018)의 결과를 보여줍니다. SQuAD 리더보드의 상위 결과는 최신 공개 시스템 설명이 없으며, 시스템 훈련 시 공개 데이터를 사용할 수 있습니다. 따라서 우리는 시스템에서 적당한 데이터 증강을 사용하여, 먼저 TriviaQA(Joshi et al., 2017)에서 미세 조정한 후 SQuAD에서 미세 조정합니다.

 

우리는 최종적으로 최고 성능을 보인 시스템을 +1.5 F1 점수로 앙상블로, +1.3 F1 점수로 단일 시스템으로 능가했습니다. 사실, 우리의 단일 BERT 모델은 F1 점수 측면에서 최고 앙상블 시스템을 능가합니다. TriviaQA 없이도

튜닝 데이터를 사용할 때, 우리는 0.1-0.4 F1 점수만 손실되며, 여전히 모든 기존 시스템을 큰 차이로 능가합니다.

 

4.3 SQuAD v2.0
SQuAD 2.0 작업은 SQuAD 1.1 문제 정의를 확장하여 제공된 지문에서 짧은 답변이 존재하지 않을 가능성을 허용합니다. 이로 인해 문제는 더 현실적이 됩니다. 우리는 이 작업을 위해 SQuAD v1.1 BERT 모델을 확장하는 간단한 접근 방식을 사용합니다. 답이 없는 질문은 시작과 끝이 [CLS] 토큰인 답변 범위가 있다고 간주합니다. 시작과 끝의 답변 범위 위치에 대한 확률 공간은 [CLS] 토큰 위치를 포함하도록 확장됩니다. 예측 시, 우리는 답이 없는 범위의 점수인 snull = S·C + E·C를 가장 좋은 비-널(non-null) 범위의 점수와 비교합니다.

 

sˆi,j = maxj≥iS·Ti + E·Tj
우리는 sˆi,j가 snull + τ보다 클 때 비-널(non-null) 정답을 예측합니다. 여기서 임계값 τ는 개발 세트(dev set)에서 F1 점수를 최대화하도록 선택됩니다.
이 모델에는 TriviaQA 데이터를 사용하지 않았습니다.
2 에폭(epoch) 동안 파인튜닝을 진행했고, 학습률(learning rate)은 5e-5, 배치 사이즈는 48로 설정했습니다.

이전 리더보드 상위 항목들과 Sun et al., 2018 및 Wang et al., 2018b와 같은 주요 공개 연구들과의 비교 결과는 표 3에 나와 있으며, BERT를 구성 요소로 사용하는 시스템은 제외되었습니다.
이전 최고 성능 시스템 대비 F1 점수가 5.1점 향상된 것을 확인할 수 있습니다.

 

 

4.4 SWAG

Situations With Adversarial Generations (SWAG) 데이터셋은 113,000개의 문장쌍 완성 예제를 포함하고 있으며, 현실적인 상식 추론 능력을 평가하기 위해 설계되었습니다 (Zellers et al., 2018).
주어진 문장에 대해, 가장 그럴듯한 문장 이어쓰기 선택지 4개 중 하나를 고르는 것이 과제입니다.

SWAG 데이터셋에 대해 파인튜닝할 때는 다음과 같이 처리했습니다:
주어진 문장(A)과 가능한 이어지는 문장(B)을 각 선택지마다 연결(concatenate) 하여 총 4개의 입력 시퀀스를 생성했습니다.
이 때 도입된 과제 특화 파라미터는 [CLS] 토큰 표현 C와 내적(dot product)을 수행하는 벡터 하나뿐이며, 이 값은 softmax를 통해 정규화됩니다.

파인튜닝은 3 에폭 동안 수행되었고, 학습률은 2e-5, 배치 사이즈는 16으로 설정했습니다.
결과는 표 4에 제시되어 있으며, BERTLARGE는 기존의 ESIM+ELMo 시스템 대비 27.1%, OpenAI GPT 대비 8.3% 더 높은 성능을 보였습니다.

 

5. Ablation 연구
이 섹션에서는 BERT의 다양한 구성 요소들의 상대적 중요성을 이해하기 위해 Ablation 실험(구성 요소 제거 실험) 을 수행했습니다.

 

5.1 사전 학습 과제(Pre-training Tasks)의 영향

우리는 BERT의 깊은 양방향성(deep bidirectionality) 이 얼마나 중요한지를 보여주기 위해, 동일한 사전 학습 데이터, 파인튜닝 방식, 하이퍼파라미터를 사용하여 두 가지 사전 학습 목표를 비교했습니다:

  • No NSP: "마스킹된 언어 모델링(Masked LM, MLM)"만 사용하고 문장 간 관계 예측(Next Sentence Prediction, NSP) 은 제외한 양방향 모델입니다.
  • LTR & No NSP: "왼쪽 맥락만 사용하는 전통적인 Left-to-Right(LTR) 언어 모델"이며, MLM 대신 사용됩니다. 또한 NSP 없이 사전 학습되며, 파인튜닝 시에도 LTR 제약을 유지해야 성능 저하를 막을 수 있었습니다. 이 모델은 OpenAI GPT와 유사하지만, BERT의 더 큰 데이터셋, 입력 표현, 파인튜닝 기법을 사용한 점이 다릅니다.

우리는 먼저 NSP 제거의 영향을 살펴봤습니다.
표 5에서 알 수 있듯, NSP를 제거하면 QNLI, MNLI, SQuAD 1.1에서 성능이 크게 저하됩니다.

다음으로, "No NSP"와 "LTR & No NSP"를 비교함으로써 양방향 표현 학습의 중요성을 평가했습니다. LTR 모델은 모든 과제에서 MLM 모델보다 낮은 성능을 보였고, 특히 MRPC와 SQuAD에서 큰 폭으로 하락했습니다.

SQuAD의 경우, 단어 수준의 예측을 할 때 오른쪽 문맥이 없는 LTR 모델은 직관적으로 성능이 낮을 수밖에 없습니다.
LTR 시스템을 보완하기 위해 무작위로 초기화된 BiLSTM을 추가했더니 성능이 개선되긴 했지만, 여전히 사전 학습된 양방향 모델에는 크게 미치지 못했습니다.
더 나아가, BiLSTM은 GLUE 태스크들에서 오히려 성능을 저하시켰습니다.

물론, ELMo처럼 LTR과 RTL 모델을 따로 학습한 후 토큰별로 두 표현을 결합하는 방식도 가능합니다. 하지만 이는
(a) 계산 비용이 2배이며,
(b) 질의응답(QA)처럼 질문-응답 연관성이 중요한 과제에서는 비직관적이고,
(c) BERT의 레이어 단위 양방향 모델보다 표현력이 떨어진다는 단점이 있습니다.

 

5.2 모델 크기의 영향

이 절에서는 BERT 모델의 크기가 파인튜닝 정확도에 어떤 영향을 미치는지를 분석했습니다.
층 수(L), 은닉 유닛 수(H), 어텐션 헤드 수(A)를 다르게 하여 다양한 BERT 모델을 훈련했고, 나머지 하이퍼파라미터와 훈련 절차는 동일하게 유지했습니다.

선택된 GLUE 과제에 대한 결과는 표 6에 요약되어 있으며, 각 모델에 대해 파인튜닝을 5번 랜덤으로 재시작한 평균 Dev Set 정확도를 보고합니다.

분석 결과, 모델이 커질수록 정확도는 꾸준히 향상되었고, MRPC처럼 훈련 샘플이 3,600개에 불과한 소규모 데이터셋에서도 성능 향상이 뚜렷했습니다.
이미 큰 모델임에도 불구하고 성능이 지속적으로 향상된다는 점은 놀라운 결과입니다.

예를 들어, Vaswani et al. (2017)에서 사용한 가장 큰 Transformer는

  • (L=6, H=1024, A=16), 파라미터 수는 약 1억 개였습니다.
    또한, Al-Rfou et al. (2018)에서 사용한 최대 모델은
  • (L=64, H=512, A=2), 파라미터는 약 2억 3천 5백만 개였습니다.

이에 비해 BERTBASE는 1억 1천만 개, BERTLARGE는 무려 3억 4천만 개의 파라미터를 가지고 있습니다.

기존에도 대규모 태스크(예: 번역, 언어 모델링)에서 모델 크기가 커지면 성능이 향상된다는 사실은 잘 알려져 있었지만,
이번 연구는 충분히 사전 학습된 모델이 있다면, 소규모 과제에서도 극단적인 모델 확장이 유효하다는 점을 처음으로 명확히 증명했다는 점에서 의의가 큽니다.

 

사전 학습된 양방향 LM 크기 증가에 따른 다운스트림 태스크 성능의 혼재된 결과

사전 학습된 양방향 언어 모델(bi-LM)의 층 수를 2층에서 4층으로 늘리는 것이 다운스트림 태스크에 어떤 영향을 미치는지에 대한 이전 연구들에서는 혼재된 결과가 보고되었습니다.
Melamud et al. (2016)은 은닉 차원 크기를 200에서 600으로 늘렸을 때는 도움이 되었지만, 1,000까지 증가시키는 것은 추가적인 성능 향상을 주지 않았다고 언급했습니다.

이들 선행 연구는 feature-based 방식을 사용했습니다.
우리는 BERT처럼 사전 학습된 모델을 다운스트림 태스크에 직접 파인튜닝하고, 랜덤으로 초기화된 파라미터를 매우 소량만 사용하는 경우,
모델이 제공하는 더 크고 표현력이 풍부한 사전 학습 표현(representation) 으로 인해 적은 양의 태스크 데이터에서도 더 큰 이득을 볼 수 있다고 가정합니다.


5.3 BERT의 Feature-based 접근 방식

지금까지 소개된 BERT의 모든 결과는 파인튜닝 기반 접근법을 사용한 것입니다.
즉, 사전 학습된 모델 위에 간단한 분류 레이어(classification layer)를 추가하고,
전체 파라미터를 다운스트림 태스크에 대해 공동으로 학습(joint fine-tuning) 하는 방식입니다.

하지만 feature-based 접근법, 즉 사전 학습된 모델에서 고정된 피처를 추출해 사용하는 방식은 몇 가지 장점이 있습니다:

  1. 모든 태스크가 Transformer 인코더 구조에 적합한 것은 아니기 때문에,
    특정 태스크에는 별도의 구조가 필요할 수 있습니다.
  2. 계산 효율성 측면에서도 큰 이점이 있습니다.
    한 번 고비용 표현을 사전 계산해두면, 이후에는 이를 바탕으로 가볍고 빠른 모델을 여러 번 실험해볼 수 있습니다.

이 절에서는 BERT를 CoNLL-2003 명명 엔티티 인식(NER) 태스크에 적용하여,
fine-tuning 방식과 feature-based 방식을 비교했습니다
(Tjong Kim Sang and De Meulder, 2003).

입력에는 대소문자를 보존하는 WordPiece 모델을 사용했고,
데이터가 제공하는 최대 문서 맥락(document context) 을 반영했습니다.

관례에 따라 이 문제는 태깅(tagging) 태스크로 구성했으며,
추가적으로 CRF(조건부 무작위장 필터)를 사용하지 않았습니다.

 

출력 레이어에서는 토큰 수준 분류기에 입력으로 첫 번째 서브토큰의 표현을 사용했습니다.
Fine-tuning 방식을 분석하기 위해, 우리는 BERT의 파라미터를 전혀 파인튜닝하지 않고,
하나 이상의 레이어에서의 활성값(activation) 을 추출하여 feature-based 접근을 수행했습니다.

이러한 문맥 임베딩(contextual embeddings)768차원의 BiLSTM 2층 구조에 입력으로 사용되며,
이 BiLSTM은 랜덤 초기화되었고, 그 뒤에 분류 레이어가 위치합니다.

결과는 표 7에 제시되어 있습니다.
BERTLARGE는 최신(state-of-the-art) 성능을 가진 방법들과 견줄 만한 수준의 성능을 보였습니다.

가장 좋은 성능을 낸 방식은 사전 학습된 Transformer의 상위 4개 은닉층(hidden layer)에서 나온 토큰 표현을 연결(concatenate) 한 것입니다.
이는 전체 모델을 파인튜닝했을 때와 비교하여 F1 점수가 단 0.3 낮을 뿐입니다.

이러한 결과는 BERT가 fine-tuning 방식뿐 아니라 feature-based 방식에서도 매우 효과적이라는 점을 보여줍니다.


6 결론 (Conclusion)

최근 전이학습(transfer learning)이 언어 모델을 통해 실현한 경험적 성능 향상은,
풍부한 비지도 사전학습이 다양한 언어 이해 시스템의 핵심 요소임을 증명하고 있습니다.

특히, 이러한 성과는 저자원(low-resource) 태스크조차도 깊은 단방향 구조(deep unidirectional architectures)의 도움을 받을 수 있음을 보여주었습니다.

이번 연구의 가장 큰 공헌은 이러한 발견을 깊은 양방향 구조(deep bidirectional architectures)일반화한 것입니다.
이로써 하나의 사전 학습 모델로 매우 다양한 NLP 과제를 성공적으로 처리할 수 있게 되었습니다

댓글