본문 바로가기

분류 전체보기451

[논문리뷰] GPT-1 unlabel 된 데이터로는 단어 수준의 정보밖에 얻지 못하고, 2가지의 문제점이 항상 존재함. 1. pretrained model을 학습하는데 무엇이 optimization 최적화이고 효과적인지가 불분명함.2. pretrained model을 fine-tuning 하는데 무엇이 가장 효과적인지 알 수 없음. 조금의 변경으로 fine-tuning이 가능하게 만들었다는 점. Attention, Bert 신경망 구조 사진그 중간 구조를 뺴서, GPT-1을 구성 (Decoder 부분) 비유와 실제 예제를 통해 설명하기. Fine-Tuning에서 가중치를 바꾸는게 주력인데, 아키텍처를 바꾼다는 것이 무엇인지. Q[유사도] 인풋이 바뀌는 것인가?문장 자체가 인풋으로 들어감.인풋이 좀 나눠져 있나 하는 궁금증.GP.. 2025. 4. 7.
논문 보고서 제작 1. Title (논문 제목) BERT와 RoBERTa의 구조적 차이에 따른 문맥 이해 성능 비교: NSP 제거의 영향에 대한 고찰2. Abstract (500단어 이하) 본 연구는 사전학습 기반 언어 모델인 BERT(Bidirectional Encoder Representations from Transformers)의 구조적 특징을 분석하고, 이를 개선한 RoBERTa(Robustly Optimized BERT Approach)의 설계 방식과 차별점을 비교 고찰하는 데 목적이 있다. BERT는 Transformer 인코더 구조를 기반으로, 입력 문장 내 단어의 일부를 마스킹하고 이를 예측하는 방식(MLM: Masked Language Modeling)과 문장 간 연결성을 학습하는 NSP(Next Sen.. 2025. 4. 7.
[논문리뷰] RoBERT 언어모델 발표자료 🎤 슬라이드 1: 언어 모델 발전 역사“자, 먼저 자연어처리에서 언어 모델이 어떻게 발전해왔는지를 간단히 살펴보겠습니다.초기에는 RNN, LSTM 같은 순차적인 구조가 주로 사용되었습니다. 이들은 단어를 한 개씩 시간 순서대로 처리해서, 마치 책을 처음부터 한 장씩 읽는 독자처럼 문장을 이해합니다. 하지만 이런 구조는 문장이 길어질수록 앞의 정보가 점점 사라지는 문제가 있었죠.이후 Transformer 구조가 등장하면서 병렬처리가 가능해졌고, 모든 단어가 동시에 서로의 중요도를 계산하는 Self-Attention 방식이 도입되었습니다. 이 구조를 기반으로 BERT와 GPT가 탄생했습니다.”🎤 슬라이드 2: BERT의 개요“이번 슬라이드부터는 본격적으로 BERT에 대해 살펴보겠습니다.BERT는 Tran.. 2025. 4. 6.
[논문리뷰] 기계 번역 모델의 발전방향 및 비교 Transformer는 GPT나 BERT보다도 더 먼저 등장했고, 사실 이 두 모델의 출발점이자 핵심 구조야.GPT와 BERT는 Transformer를 기반으로 각각 다른 목적에 맞게 커스터마이징된 후속 모델 Transformer의 탄생과 핵심발표 시기2017년, Google의 논문→ "Attention Is All You Need" (Vaswani et al.)목표기존의 RNN, LSTM 기반 번역 모델보다 빠르고 더 정확한 기계 번역 모델을 만들기 위해 Transformer의 핵심 아이디어핵심 요소설명Self-Attention문장 내 단어들이 서로 어떤 관계를 맺고 있는지를 학습하여 문맥을 반영병렬 처리RNN은 순차적으로 학습해야 하지만, Transformer는 동시에 학습 가능Position Enc.. 2025. 4. 6.