Day 22 · Model Efficiency — 졸업편

오늘 끝나면

Model Efficiency — 졸업편

✓Model Efficiency — 졸업편의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 Model이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

Quantization·Distillation·MoE — 모델을 가볍게 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

AI · Day 22 / 실무

작게, 빠르게,
싸게

22일의 마지막 퍼즐.
지금까지는 모델 만드는 법 배웠음.
오늘은 그 모델을 실전에 돌리는 법임.
양자화·증류·가지치기·MoE — 큰 모델을 손바닥 위로 끌어내림.

P.01AI · Day 22

시간당 3,000만 원짜리 청구서

어느 금요일 밤, 대기업 AI팀장에게 청구서 날아옴.
OpenAI 월 사용료 3억 원.
임원이 "ChatGPT 업무에 쓰라" 한 지 석 달 만임.

직원 1만 명이 하루 100번씩 GPT-4 호출 → 토큰 비용 눈덩이 됨.
CIO가 물음. "자체 서버에 오픈소스 LLM 돌리면 얼마야?"

답이 놀라웠음.
H100 서버에 Llama 3 70B를 4bit로 올리고 vLLM으로 서빙함.
비용 83% 줄었음.

왜 됨? 핵심은 추론이 학습보다 비쌈이라는 거임.
학습은 한 번, 추론은 매일임.
그래서 2026년 AI 회사 승부처는 모델 품질이 아님. 초당 토큰 수·토큰당 전력임.
Model Efficiency는 학문이 아니라 기업 생존 기술임.

GPT-4 API vs 자체 호스팅 손익분기

호출 많아질수록 API는 선형으로 폭발 — 일정 지점부터 자체 호스팅이 싸짐

P.02AI · Day 22

정밀도는 사치다

숫자 하나를 32비트로 저장하던 시절 있었음.
2022년 Tim Dettmers가 충격적인 말 함.
"LLM은 INT8로 줄여도 성능 손실 거의 0임."

원리는 단순함.
가중치 분포는 대체로 정규분포 → 실제 쓰이는 범위가 좁음.
그 좁은 범위를 256칸(INT8)·16칸(INT4)으로 나눠도 충분히 복원됨.
공식은 x_q = round(x / s) + z 하나뿐임.

효과 큼.
70B 모델이 FP32에선 280GB, INT4로 내리면 35GB임.
8배 작아지고 속도 2배, 성능 손실은 1~2%뿐임.

Day 21에서 썼던 load_in_4bit=True가 바로 이 NF4 양자화임.
한 줄이 모델을 8배 가볍게 만든 거임.

FP32 → INT4 · 비트 수와 모델 크기

양자화 · x_q = round(x / s) + z 를 비트 수로 손수 조절

가중치 분포 — 칸(레벨)에 가장 가까운 값으로 스냅

격자 16칸 · 좁은 분포가 적은 칸에 들어감

비트 수 b — 왼쪽으로 끌수록 작고 빠르지만 거칠어짐4 bit2bit · 4칸8bit · 256칸 (INT8)

실용 구간 — 작아지고 빨라지는데 손실은 작음

레벨 수 2^b

모델 크기 (70B)

35GB

압축률

8배

복원 충실도

96%

평균 오차 RMSE

0.0277

충실도 (100 = 무손실 복원)

INT4(NF4): 4배 작고 2배 빠른데 손실 1~2%. load_in_4bit=True가 바로 이것.

한 줄 공식 x_q = round(x / s) + z 가 모델을 8배 가볍게 만든다

P.03AI · Day 22

어두운 지식을 물려주다

2015년 Geoffrey Hinton이 말함.
"softmax 출력의 확률 분포는 정답 라벨보다 훨씬 많은 정보를 담음."
이게 Dark Knowledge의 시작임.

개 사진 넣으면 출력이 개 0.9, 고양이 0.08, 자동차 0.001로 나옴.
정답 라벨은 그저 [0,0,1,0] 원-핫임.
근데 저 0.08 안에 "개와 고양이는 닮았다"는 의미론적 지식 숨어 있음.
큰 Teacher만 아는 미묘한 관계임.

이 부드러운 확률을 작은 Student가 흉내 내게 함.
그럼 작은 모델도 큰 모델 지혜를 물려받음.

DistilBERT가 그 증거임.
BERT의 40%만 남기고도 성능 97% 유지, 속도 60% 빨라짐.
온도 T로 분포를 부드럽게 만드는 게 비결임.

파이썬 코드 보기

def distill_loss(s_logits, t_logits, y, T=4.0, a=0.3):
    hard = F.cross_entropy(s_logits, y)        # 정답 라벨
    soft = F.kl_div(                            # Teacher 분포 흉내
        F.log_softmax(s_logits / T, dim=1),
        F.softmax(t_logits / T, dim=1),
        reduction="batchmean") * (T * T)
    return a * hard + (1 - a) * soft
# 온도 T가 작은 확률까지 살려 어두운 지식을 전한다

TEACHER → STUDENT · soft label 전이

정답 한 칸이 아니라 부드러운 확률 분포를 흉내 — 작은 모델이 큰 지혜를 물려받음

P.04AI · Day 22

신경망 속에 숨은 복권

2018년 MIT의 Frankle·Carbin이 충격적인 가설 냄.
복권 가설(Lottery Ticket Hypothesis).
큰 신경망 안에 이미 이길 운명인 작은 서브네트워크가 숨어 있다는 주장임.

가중치 절댓값 작은 것부터 0으로 만드는 게 magnitude pruning임.
놀랍게도 90% 잘라낸 뒤, 남은 서브넷을 원래 초기값으로 되돌려 다시 학습시킴.
그럼 원본과 같은 성능 나옴.
신경망이 왜 그렇게 과하게 큰지 설명해 주는 결과임.

다만 현장엔 함정 있음.
개별 weight만 0으로 만드는 unstructured 방식은 압축률만 높고 속도는 그대로임. 0을 곱하는 연산도 그대로 하기 때문임.
채널·뉴런을 통째로 들어내는 structured 방식이라야 진짜 빨라짐.

자른 뒤엔 반드시 재학습으로 보정해야 함.
자르고, 보정하고, 또 자르고.

PRUNING · 90% 잘라도 살아남는 서브넷

복권 가설 — 초기값으로 되돌려 재학습하면 원본과 동급 성능 나옴

P.05AI · Day 22

다 알지만, 한 번에 일부만

마지막 아이디어는 구조 자체를 바꾸는 거임.
Mixture of Experts(MoE).
전문가를 여러 명 두되, 토큰마다 몇 명만 골라서 일 시킴.

2023년 Mistral의 Mixtral 8x7B가 이 구조 증명함.
전문가는 8명, 토큰마다 라우터가 Top-2만 깨움.
총 47B 파라미터지만 한 번에 쓰는 건 12.9B뿐임.
그래서 Llama 2 70B급 성능을 4배 빠르게 냄.
파라미터는 수십억, 계산은 수백만인 셈임.

여기에 BitNet 1.58bit, Speculative Decoding, Flash Attention, vLLM의 PagedAttention까지 더해짐.

핵심 교훈은 하나임. 효율화는 곱셈임.
증류 × 양자화 × 가지치기 = 80배.
이걸 조합하면 iPhone에서 돌아가는 ChatGPT 만들어짐.

22일의 여정이 여기서 끝남.
이제 AI 만들고, 튜닝하고, 배포할 수 있음.

Q. Mixtral 8x7B는 왜 8×7=56B가 아니라 47B임?

Attention 레이어·임베딩 같은 공유 부분은 expert마다 복제 안 됨.
각 expert는 FeedForward만 독립임 → 8개 합쳐도 56B가 아니라 약 47B임.
게다가 한 번에 활성화되는 건 Top-2, 약 12.9B뿐임 → 계산 효율은 7B 수준임.

MoE ROUTER · Top-2 expert 선택

총 47B 파라미터, 한 번에 쓰는 건 12.9B — 크게 가지되 일부만 계산함