본문 바로가기
개인 프로젝트/[LLM] 논문리뷰

[논문] BERT : Bidirectional Encoder Representations from Transformers

by 응_비 2025. 3. 31.

BERT_2018_BERT_Pre-training of Deep Bidirectional Transformers for Language Understanding (1).pdf
0.74MB

 

(과거)

RNN, LSTM, GRU 등

기존의 자연어 처리 모들 : 순환 신경망 기반 (Recursive)

LSTM, GRU 같은 접근이 있었지만 한계가 존재함.

순차처리 -> 병렬처리 어려움.

 

Word2Vec : 비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다.

biLMs - biELMo - biLSTM : Language Model (ElMo representation + Embedding vector) : 정방향, 역방향 분리, 약하게 연결

 

Bert = Encoder only transformers : 전체적인 양방향성을 갖기 위해서

- WordPiece embeddings > 3만개의 토큰 vocabulary 사용

- 스페셜 토큰 사용 : [CLS][EOS][MASK][PAD] 등

 

Bert 중요 개념 : Self Attention

- Query, Key : 두 벡터 사이의 유사성

- Scale : QK 내적 결과로 커져버린 벡터 값을 스케일링

- Softmax : 계산된 attention score를 합이 1이 되게 변화

- Value : attention을 각 토큰에 부여하기 위해 내적

 

* Sparse Attention : attention의 희소한 부분 집합만을 계산하는 접근

* Group Query Attention : Multi head에서 query head를 그룹으로 분할

 

- Bidirectional : Bert - 양방향성 모델

- Pretraining : 양방향성 이해를 높이기 위해 도입 (Masked Language Model, Mask 처리된 단어를 복원하는 Task)

 

Fine - tuning

Ablation Studies 

 

 

- Encoder-only : BERT, 압축만 하는 상태

- Decoder-only : GPT*

- Transformer : Input과 Output 크기가 동일.

 

 

BERT : 생성형 GPT에 사용되지 않는 이유는 전체 토큰이 다 맞아야 되기 때문에, 생성형에 적합하진 않은 모델임.

GPT : 다음 토큰에 대한 범위를 맞출 수 있어서, 생성형에 적합.

 

Next Sentence Prediction : 문장과 문장 사이의 관계를 도입하기 위해 사용

댓글