본문 바로가기
개인 프로젝트/[LLM] 논문리뷰

[논문] Attention - Neural Machine Translation by Jointly Learning to Align and Translate (2014)

by 응_비 2025. 3. 19.

Attention_2014_NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE.pdf
0.42MB
Attention_2017_Attention is all you need.pdf
2.11MB
Transformer.pdf
0.82MB

 

자연어 처리 : 트랜스포머 (Transformer : Attention Is All You Need)

 

GRT : Transformer의 디코더(Decoder) 아키텍처 활용

BERT : Transformer의 인코더(Encoder) 아키텍처 활용

 

RNN(86) - LSTM(97) - Seq2Seq(NIPS 2014) - [고정된 크기의 Context Vector 사용] - Attention(ICLR 2015) -

Transformer(NIPS 2017) - GPT-1(2018) - BERT(NAACL 2019) - GPT-3(2020)

 

Seq2Seq - Attention

 

고정된 크기의 Context Vector 사용 : 병목(bottleneck)이 발생하여 성능하락의 원인

인코더 - [ 고정된 크기의 Context Vector 사용] - 디코더

 

 

NMT(신경망 기계 번역, Neural Machine Translation)

: 단일 신경망으로, 크고 복합적인 신경망을 만들어, 문장을 읽고 정확한 해석을 출력하고자 함.

 

신경망 기계 번역 모델의 대부분은 "인코더-디코더" 구조에 기반

Background – 인코더, 디코더란?

 

인코더(Encoder)

 

  • 인코더는 입력 시퀀스를 처리하여 정보를 압축
  • 입력을 고정된 길이의 벡터로 압축
  • Feature Extractor 역할을 하여 입력 데이터의 특징을 추출

디코더(Decoder)

 

  • 디코더는 인코더가 압축한 정보를 바탕으로 출력 시퀀스를 생성
  • 인코더에 의해 변경된 정보(벡터)를 다른 형태의 데이터로 변환
  • 인코더로부터 축약된 정보들을 풀어서 반환/생성

 

* Self Attention 사용 *

 

CPU : 순차적으로 동그라미 그림, 교수님 1명이 여러번 등

GPU : 한꺼번에 찍어누르듯 그림을 만들어냄 (병렬처리의 GPU), 초등학생 100명이서 한번에

 

Mulsti-head Attention : 매우 쉬운 병렬화

https://computing-jhson.tistory.com/57

 

Transformer 정리 (2) : Attention Is All You Need (attention의 의미, transformer는 왜 병렬화가 쉬운지)

Transformer 정리 두 번째 순서로 Transformer 개념을 처음 제안한 논문 [1]을 바탕으로 Transformer 개념에 대하여 정리하고자 한다. Machine translation task에서 RNN 개념을 완전히 제거하고 오로지 attention mechan

computing-jhson.tistory.com

 

댓글