오늘 끝나면
오픈소스 셀프호스팅
- ✓오픈소스 셀프호스팅의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 오픈소스이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
Llama 등 사내 서버에 — GPU 요건 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
Enterprise LLM · 03
오픈소스
셀프호스팅
Llama 같은 모델을 사내 GPU 서버에 직접 올림.
데이터가 회사 밖으로 안 나감 — 완전한 통제.
대가는 GPU·운영 비용·전문 인력임.
왜 셀프호스팅을 하나
API로 외부 모델을 부르면 프롬프트가 회사 밖으로 나감. 셀프호스팅은 그 경계를 사내로 당기는 선택임.
오픈소스 모델은 가중치가 공개돼 있음. Llama · Mistral · Qwen 같은 모델을 내려받아 우리 GPU 서버에 올림.
요청도 응답도 사내망 안에서만 돎. 외부 API 호출이 없음.
그래서 규제가 센 곳이 이 길을 고름.
금융 · 의료 · 공공 · 국방 — 데이터 반출 자체가 막힌 산업임.
모델·버전을 우리가 고정하니 외부 업데이트로 동작이 바뀔 일도 없음.
데이터가 경계 밖으로 나감
사내망 안에서만 돎
통제의 4가지 축
셀프호스팅의 진짜 값어치는 ‘통제’임. 무엇을 통제하게 되는지 네 축으로 나눠봄.
데이터는 사내에 머묾 — 프롬프트도 로그도 밖으로 안 감.
모델 버전을 우리가 고정함 — 공급사 업데이트에 흔들리지 않음.
토큰당 과금이 없음 — 한 번 사면 호출량만큼 추가비가 안 붙음.
파인튜닝·검열 정책을 우리 손으로 바꿈 — 도메인에 맞게 깎음.
이 네 가지가 외부 API로는 못 쥐는 통제권임.
GPU·VRAM 요건 — 직접 계산
셀프호스팅의 첫 관문은 ‘이 모델이 우리 GPU에 올라가나’임. 오른쪽에서 직접 가늠해 봄.
핵심 어림셈은 단순함.
가중치 VRAM ≈ 파라미터 수 × 정밀도 바이트임.
FP16은 1개당 2바이트, INT8은 1바이트, INT4는 0.5바이트.
그래서 70B 모델을 FP16으로 올리면 가중치만 약 140GB.
여기에 추론용 KV캐시·활성값 여유를 더하면 GPU 80GB 한 장으로는 부족함.
정밀도를 INT4로 낮추면 같은 모델이 절반 이하로 줄어 한 장에 들어가기도 함.
Llama 8B · 70B · 405B 등 — B = 10억 개
원본 정밀도
가중치 140GB + 추론 오버헤드(KV캐시·활성값) ×1.2
INT8이면 절반 · INT4면 1/4로 줄어듦
양자화 — 경량화의 핵심
큰 모델을 작은 GPU에 욱여넣는 기술이 양자화임. 가중치를 더 적은 비트로 표현해 메모리를 줄임.
원본은 보통 FP16(16비트)임. 이걸 INT8(8비트)·INT4(4비트)로 낮추면 가중치 크기가 절반 · 1/4로 줆.
GPTQ · AWQ · GGUF 같은 방식이 실무에서 많이 쓰임.
공짜는 아님. 비트를 줄이면 정밀도 손실로 품질이 조금 떨어질 수 있음.
INT8까지는 체감 차이가 거의 없는 편, INT4부터는 작업에 따라 검증이 필요함.
그래서 ‘얼마나 줄여도 우리 작업이 버티나’를 평가셋으로 재고 결정함.
원본
체감 차이 거의 없음
작업 따라 검증
GPTQ · AWQ · GGUF — 줄일수록 GPU 한 장에 가까워짐
운영 부담 — 진짜 비용
GPU만 사면 끝이 아님. 셀프호스팅은 운영 책임을 통째로 떠안는 일임.
GPU 서버 구매·임대비, 전력·냉각, 추론 서버(vLLM·TGI) 세팅과 튜닝, 오토스케일링, 장애 대응 — 외부 API였으면 공급사가 지던 짐임.
여기에 ML 엔지니어 인건비가 가장 큰 숨은 비용임.
그래서 의사결정은 단순한 단가 비교가 아님.
호출량이 충분히 크고 · 데이터 통제가 필수고 · 운영할 사람이 있을 때 셀프호스팅이 유리함.
그 조건이 안 맞으면 Bedrock·Azure 같은 매니지드가 총비용이 더 쌈 — 다음 강에서 다룸.
Q. 셀프호스팅의 가장 큰 장점은? (저렴한 GPU · 데이터 완전 통제 · 무조건 빠른 속도 · 자동 업데이트)
정답은 데이터 완전 통제임.모델을 사내 서버에 올리니 프롬프트도 로그도 회사 밖으로 안 나감.
GPU는 오히려 비싸고, 속도·운영은 우리가 직접 책임져야 함.
규제 산업이 셀프호스팅을 택하는 진짜 이유가 이 통제권임.
| 운영 항목 | 외부 API | 셀프호스팅 |
|---|---|---|
| GPU 서버·전력·냉각 | 공급사 | 우리 |
| 추론 서버 세팅 (vLLM) | 공급사 | 우리 |
| 오토스케일·장애 대응 | 공급사 | 우리 |
| 보안 패치·모델 갱신 | 공급사 | 우리 |
| ML 엔지니어 인건비 | 공급사 | 우리 |