개인 프로젝트/[LLM] 논문리뷰7 [논문리뷰] GPT-1 unlabel 된 데이터로는 단어 수준의 정보밖에 얻지 못하고, 2가지의 문제점이 항상 존재함. 1. pretrained model을 학습하는데 무엇이 optimization 최적화이고 효과적인지가 불분명함.2. pretrained model을 fine-tuning 하는데 무엇이 가장 효과적인지 알 수 없음. 조금의 변경으로 fine-tuning이 가능하게 만들었다는 점. Attention, Bert 신경망 구조 사진그 중간 구조를 뺴서, GPT-1을 구성 (Decoder 부분) 비유와 실제 예제를 통해 설명하기. Fine-Tuning에서 가중치를 바꾸는게 주력인데, 아키텍처를 바꾼다는 것이 무엇인지. Q[유사도] 인풋이 바뀌는 것인가?문장 자체가 인풋으로 들어감.인풋이 좀 나눠져 있나 하는 궁금증.GP.. 2025. 4. 7. [논문리뷰] RoBERT 언어모델 발표자료 기존까지 핵심을 잘 설명해준 영상 -> 이 영상에서 개념을 한번 잡아볼게요.인코딩 -> '이해'를 목적으로 언어가 서로를 바라보는 언어들. -> 0000, 4글자. Bert디코딩 -> 새로운 개념이 '생성' -> 000 000, 6글자. Chat gpt1. 전체 개념들의 연결성과 흐름 2. 각 개념을 시각적으로 전달. 3. Bert vs RoBert 슬라이드 7: 전체 개념 정리“지금까지 언어 모델의 발전부터 BERT와 RoBERTa까지 핵심 개념을 정리해봤습니다.BERT는 이해 중심, 양방향, Encoder 기반입니다.GPT는 생성 중심, 단방향, Decoder 기반입니다.Self-Attention은 문맥을 반영해 중요한 정보를 뽑아냅니다.RoBERTa는 BERT를 개선한 모델로, NSP 제거와 동적 .. 2025. 4. 6. [논문리뷰] 기계 번역 모델의 발전방향 및 비교 Transformer는 GPT나 BERT보다도 더 먼저 등장했고, 사실 이 두 모델의 출발점이자 핵심 구조야.GPT와 BERT는 Transformer를 기반으로 각각 다른 목적에 맞게 커스터마이징된 후속 모델 Transformer의 탄생과 핵심발표 시기2017년, Google의 논문→ "Attention Is All You Need" (Vaswani et al.)목표기존의 RNN, LSTM 기반 번역 모델보다 빠르고 더 정확한 기계 번역 모델을 만들기 위해 Transformer의 핵심 아이디어핵심 요소설명Self-Attention문장 내 단어들이 서로 어떤 관계를 맺고 있는지를 학습하여 문맥을 반영병렬 처리RNN은 순차적으로 학습해야 하지만, Transformer는 동시에 학습 가능Position Enc.. 2025. 4. 6. [논문리뷰] BERT-RoBERTa - BERT-RoBERTa https://chanmuzi.tistory.com/163 BERT와 BERT 파생모델 비교(BERT, ALBERT, RoBERTa, ELECTRA, SpanBERT)자연어처리 분야에서 아주 큰 입지를 차지하고 있는 모델인 BERT와 BERT 기반의 파생모델들에 대해 공부한 내용을 정리해봤습니다. 구글 BERT의 정석(한빛미디어)라는 책과 각 모델 관련 논문, 그리chanmuzi.tistory.comhttps://hryang06.github.io/nlp/BERT/ https://www.youtube.com/watch?v=30SvdoA6ApE* Bert : 문맥을 양방향으로 이해해서, 숫자의 형태로 바꿔주는 딥러닝 모델 / 양방향 인코더 형태 https://www.youtube... 2025. 4. 1. 이전 1 2 다음