본문 바로가기

개인 프로젝트/[LLM] 논문리뷰4

[논문리뷰] BERT-RoBERTa 발표예정- BERT-RoBERTa- GPT_2020- GPT_2023 or DeepSeek 2025. 4. 1.
[논문] BERT : Bidirectional Encoder Representations from Transformers (과거)RNN, LSTM, GRU 등기존의 자연어 처리 모들 : 순환 신경망 기반 (Recursive)LSTM, GRU 같은 접근이 있었지만 한계가 존재함.순차처리 -> 병렬처리 어려움. Word2Vec : 비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다.biLMs - biELMo - biLSTM : Language Model (ElMo representation + Embedding vector) : 정방향, 역방향 분리, 약하게 연결 Bert = Encoder only transformers : 전체적인 양방향성을 갖기 위해서- WordPiece embeddings > 3만개의 토큰 vocabulary 사용- 스페셜 토큰 사용 : [CLS][EOS][MASK][PAD] 등 Bert 중요 개념 .. 2025. 3. 31.
[논문] RNN_2014_Sequence to Sequence Learning with Neural Networks CNN  : 합성곱 신경RNN : 시계열 데이터를 처리하기에 좋은 뉴럴 네트워크 구조 First Order System : 현재 시간의 상태가 이전 시간의 상태와 관련이 있따고 가정X0 - X1 - X2 - X3 ...외부 입력 없이 자기 혼자 돌아가는 시스템입력 있을 경우 : 현재 시간의 상태가 이전 시간의 상태와, 현재의 입력에 관계가 있는 경우 State-Space Model관측 가능한 상태의 모음 : 출력어떤 시스템을 해석하기 위한 3요소 : 입력, 상태, 출력ANN : 입력 - 히든 레이어 - 출력RNN : 입력 - 히든 레이어 - 한번 더 재귀(R) - 출력 X(t) : 앞에서 표현한 것의 압축본First-order Mark (한번만 건너감) Sequencet - to - sequence (s.. 2025. 3. 24.
[논문] Attention - Neural Machine Translation by Jointly Learning to Align and Translate (2014) 자연어 처리 : 트랜스포머 (Transformer : Attention Is All You Need) GRT : Transformer의 디코더(Decoder) 아키텍처 활용BERT : Transformer의 인코더(Encoder) 아키텍처 활용 RNN(86) - LSTM(97) - Seq2Seq(NIPS 2014) - [고정된 크기의 Context Vector 사용] - Attention(ICLR 2015) -Transformer(NIPS 2017) - GPT-1(2018) - BERT(NAACL 2019) - GPT-3(2020)  고정된 크기의 Context Vector 사용 : 병목(bottleneck)이 발생하여 성능하락의 원인인코더 - [ 고정된 크기의 Context Vector 사용] - 디코.. 2025. 3. 19.