스킬캠퍼스
Day 11 · GPT 아키텍처
강의

오늘 끝나면

GPT 아키텍처

  • GPT 아키텍처의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 GPT이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

Decoder-only · Causal Mask · BPE — 한 글자씩 미래를 예측 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

AI · Day 11 / 지도학습 · 생성 DL

미래를
가린다

2018년, 길이 두 갈래로 갈림. BERT는 "이해", GPT는 "생성"을 택함.
7년 뒤 세상은 GPT 길로 감.
비결은 다음 단어 맞추기 하나뿐임.

P.01AI · Day 11

2018년, 두 갈래 길

Day 10 원본 Transformer는 Encoder + Decoder 붙은 번역기였음.
2018년, 두 팀이 이 구조를 반대로 잘라 씀.

Google BERT는 Encoder만 쌓음. 문장 15%를 [MASK]로 가리고 앞뒤를 동시에 보며 맞춤. "이해"에 강해서 학회를 휩씀.

OpenAI GPT는 Decoder만 쌓음. "나는 오늘 학교에" 다음 단어를 왼쪽부터 하나씩 예측함.

당시 학계는 GPT를 반쪽짜리라 비웃음. 한쪽만 보니까.
근데 2020년 GPT-3, 2022년 ChatGPT가 나오며 판이 뒤집힘.

BERT vs GPT
Transformer 2017BERTEncoder만양방향[MASK] 채우기이해GPTDecoder만단방향다음 단어 예측생성→ 세상이 택한 길

같은 Transformer에서 갈라진 두 길 — 이해 vs 생성

P.02AI · Day 11

미래를 못 보게 하는 마스크

"다음 단어 예측" 학습엔 치명적 함정이 있음.
Self-Attention은 모든 위치가 모든 위치를 봄.

"나는" 다음을 맞춰야 하는데, Attention이 이미 "오늘", "학교에", "갔다"를 다 보고 있음.
정답 보고 정답 쓰는 컨닝임. Loss는 0으로 떨어지지만 배운 건 없음.

해법은 Causal Mask임. 위치 i가 자기보다 뒤쪽(j 초과)을 못 보게 함.

점수 행렬 위 삼각형에 -∞를 더함. softmax 통과하면 그 자리는 0이 됨.
이 한 줄짜리 제약이 모델에게 "생성"을 가르침.

CAUSAL MASK
Causal Mask 놀이터 · 미래를 가리면 정직, 열면 컨닝
나는오늘학교에갔다key (보려는 단어)나는-∞-∞-∞오늘-∞-∞학교에0.100.320.58-∞갔다◀ 예측 중query (예측 위치)
위치 3/4
현재 위치가 각 단어를 보려는 raw 점수
볼 수 있는 칸
3
미래 누출
0.00
상태
정직
과거 3칸만 보고 "갔다"를 맞히는 중 — 정직한 학습
P.03AI · Day 11

왜 한국어가 더 비쌀까

단어 단위로 자르면 사전이 폭발하고, 모르는 단어는 전부 UNK가 됨.
글자 단위로 가면 시퀀스가 너무 길어짐. 그 중간이 BPE임.

BPE는 자주 같이 나오는 두 조각을 하나로 병합하는 걸 반복하는 것. l + l → ll, h + e → he.

그래서 흔한 패턴은 토큰 하나로 압축됨.
처음 보는 단어는 글자로 쪼개짐 / UNK가 사라짐.

여기서 비즈니스 포인트가 나옴. GPT 토크나이저는 영어 위주로 학습돼서 한국어는 글자 하나가 2~3 토큰으로 잘게 쪼개짐.
같은 내용인데 한국어가 1.5~2배 비쌈. API 비용 최적화는 토크나이저 이해에서 시작됨.

BPE 토큰화
초기: 글자 단위lowest병합: e+s → eslowest병합: l+o → lo, es+t → estlowestlowest → lo · w · est (3 토큰)

자주 나오는 쌍을 반복 병합 — UNK 없음, 흔한 패턴은 압축됨

P.04AI · Day 11

ChatGPT의 3층 구조

ChatGPT가 나오기까지 세 단계가 필요했음.
각 단계는 서로 다른 시험을 푸는 것.

Pre-training은 인터넷을 통째로 읽으며 다음 단어를 맞추는 것. GPT-3는 약 500B 토큰, 책 500만 권 분량임.
근데 이 모델은 질문에 대답할 줄 모름.

그래서 Fine-tuning(SFT)으로 "질문-답변" 형식을 가르침.
마지막 RLHF는 사람이 "이 답이 더 좋다"고 순위를 매겨 가치관을 정렬하는 것.

충격적 결과 하나. InstructGPT 13B가 정렬만으로 GPT-3 175B를 사람 선호도에서 이김.
크기가 아니라 정렬(alignment)이 답이었음.

PRE-TRAIN → SFT → RLHF
Pre-training다음 단어 맞추기~500B 토큰1SFT질문-답변 형식13k 예시2RLHF사람 선호 정렬보상 모델3무엇을 아는가 → 어떻게 답하는가 → 어떤 답이 좋은가InstructGPT 13B 가 GPT-3 175B 를 선호도로 이김

크기가 아니라 정렬이 답이었음 — 3층을 쌓아 ChatGPT가 됨

P.05AI · Day 11

기업은 RAG부터

GPT-3의 진짜 마법은 In-context Learning임.
파라미터는 전혀 안 바꾸고, 프롬프트에 예시 몇 개만 넣으면 모델이 "학습한 것처럼" 행동함.

그래서 기업 단골 질문 "우리 데이터로 GPT 파인튜닝하고 싶어요"에 답은 거의 항상 RAG부터 해보자임.

최신 정보가 자주 바뀌거나 출처 표시가 필요하면 RAG가 유리함.
일관된 말투·형식이 핵심일 때만 Fine-tuning을 봄.
순서는 늘 프롬프트 → RAG → Fine-tuning / 80%는 RAG에서 끝남.

Q. In-context Learning은 실제로 gradient를 업데이트할까?아님. 모델 파라미터는 전혀 안 바뀜. 오직 입력 프롬프트 맥락만으로 학습한 것처럼 행동함. Attention이 내부적으로 "암묵적 gradient descent"와 비슷한 계산을 한다는 게 주류 가설임. 100B 이상 스케일에서 창발적으로 나타남.
RAG vs FINE-TUNING
질문RAGFine-tune
최신 정보유리재학습
출처 표시쉬움어려움
말투·형식중간유리
구축 비용낮음높음
환각 위험낮음중간

프롬프트 → RAG → Fine-tuning 순서로 / 80%는 RAG에서 끝남

3줄 요약

  1. 1Decoder-only · Causal Mask · BPE — 한 글자씩 미래를 예측
  2. 2GPT 아키텍처은 준비운동 → 지도학습 → 시퀀스 → 생성모델 → 실무 적용 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

GPT

Decoder-only · Causal Mask · BPE — 한 글자씩 미래를 예측

모델

입력을 받아 예측이나 출력을 만드는 계산 규칙

손실

예측이 정답에서 얼마나 빗나갔는지 재는 숫자