3강 · 오픈소스 셀프호스팅

오늘 끝나면

오픈소스 셀프호스팅

✓오픈소스 셀프호스팅의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 오픈소스이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

Llama 등 사내 서버에 — GPU 요건 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

Enterprise LLM · 03

오픈소스
셀프호스팅

Llama 같은 모델을 사내 GPU 서버에 직접 올림.
데이터가 회사 밖으로 안 나감 — 완전한 통제.
대가는 GPU·운영 비용·전문 인력임.

P.01Enterprise LLM · 03

왜 셀프호스팅을 하나

API로 외부 모델을 부르면 프롬프트가 회사 밖으로 나감. 셀프호스팅은 그 경계를 사내로 당기는 선택임.

오픈소스 모델은 가중치가 공개돼 있음. Llama · Mistral · Qwen 같은 모델을 내려받아 우리 GPU 서버에 올림.
요청도 응답도 사내망 안에서만 돎. 외부 API 호출이 없음.

그래서 규제가 센 곳이 이 길을 고름.
금융 · 의료 · 공공 · 국방 — 데이터 반출 자체가 막힌 산업임.
모델·버전을 우리가 고정하니 외부 업데이트로 동작이 바뀔 일도 없음.

데이터가 머무는 경계선

프롬프트가 어디까지 가나

외부 API

사내 앱→외부 서버

데이터가 경계 밖으로 나감

셀프호스팅

사내 앱→사내 GPU

사내망 안에서만 돎

금융·의료·공공 — 반출이 막힌 곳이 이 길을 택함

P.02Enterprise LLM · 03

통제의 4가지 축

셀프호스팅의 진짜 값어치는 ‘통제’임. 무엇을 통제하게 되는지 네 축으로 나눠봄.

데이터는 사내에 머묾 — 프롬프트도 로그도 밖으로 안 감.
모델 버전을 우리가 고정함 — 공급사 업데이트에 흔들리지 않음.

토큰당 과금이 없음 — 한 번 사면 호출량만큼 추가비가 안 붙음.
파인튜닝·검열 정책을 우리 손으로 바꿈 — 도메인에 맞게 깎음.
이 네 가지가 외부 API로는 못 쥐는 통제권임.

셀프호스팅이 쥐는 통제권

데이터

사내에 머묾

프롬프트·로그 반출 없음

버전

우리가 고정

공급사 업데이트 무관

비용

토큰 과금 없음

호출량 추가비 없음

정책

직접 파인튜닝

도메인 맞춤·검열 조정

P.03Enterprise LLM · 03

GPU·VRAM 요건 — 직접 계산

셀프호스팅의 첫 관문은 ‘이 모델이 우리 GPU에 올라가나’임. 오른쪽에서 직접 가늠해 봄.

핵심 어림셈은 단순함.
가중치 VRAM ≈ 파라미터 수 × 정밀도 바이트임.
FP16은 1개당 2바이트, INT8은 1바이트, INT4는 0.5바이트.

그래서 70B 모델을 FP16으로 올리면 가중치만 약 140GB.
여기에 추론용 KV캐시·활성값 여유를 더하면 GPU 80GB 한 장으로는 부족함.
정밀도를 INT4로 낮추면 같은 모델이 절반 이하로 줄어 한 장에 들어가기도 함.

모델 크기·정밀도 → 필요 VRAM

GPU 요건 계산기 · 추론 기준

모델 크기 — 파라미터70B

Llama 8B · 70B · 405B 등 — B = 10억 개

정밀도 — 양자화 단계

원본 정밀도

추정 필요 VRAM

168GB

가중치 140GB + 추론 오버헤드(KV캐시·활성값) ×1.2

가중치 크기 — FP16 대비

140GB

INT8이면 절반 · INT4면 1/4로 줄어듦

GPU 1장 기준 (80GB)H100/A100 80GB 기준

GPU 3장 필요여러 장으로 분산 적재

P.04Enterprise LLM · 03

양자화 — 경량화의 핵심

큰 모델을 작은 GPU에 욱여넣는 기술이 양자화임. 가중치를 더 적은 비트로 표현해 메모리를 줄임.

원본은 보통 FP16(16비트)임. 이걸 INT8(8비트)·INT4(4비트)로 낮추면 가중치 크기가 절반 · 1/4로 줆.
GPTQ · AWQ · GGUF 같은 방식이 실무에서 많이 쓰임.

공짜는 아님. 비트를 줄이면 정밀도 손실로 품질이 조금 떨어질 수 있음.
INT8까지는 체감 차이가 거의 없는 편, INT4부터는 작업에 따라 검증이 필요함.
그래서 ‘얼마나 줄여도 우리 작업이 버티나’를 평가셋으로 재고 결정함.

FP16 → INT8 → INT4 비교

양자화 — 70B 모델 가중치 기준

FP1616bit140GB

원본

INT88bit70GB

체감 차이 거의 없음

INT44bit35GB

작업 따라 검증

GPTQ · AWQ · GGUF — 줄일수록 GPU 한 장에 가까워짐

P.05Enterprise LLM · 03

운영 부담 — 진짜 비용

GPU만 사면 끝이 아님. 셀프호스팅은 운영 책임을 통째로 떠안는 일임.

GPU 서버 구매·임대비, 전력·냉각, 추론 서버(vLLM·TGI) 세팅과 튜닝, 오토스케일링, 장애 대응 — 외부 API였으면 공급사가 지던 짐임.
여기에 ML 엔지니어 인건비가 가장 큰 숨은 비용임.

그래서 의사결정은 단순한 단가 비교가 아님.
호출량이 충분히 크고 · 데이터 통제가 필수고 · 운영할 사람이 있을 때 셀프호스팅이 유리함.
그 조건이 안 맞으면 Bedrock·Azure 같은 매니지드가 총비용이 더 쌈 — 다음 강에서 다룸.

Q. 셀프호스팅의 가장 큰 장점은? (저렴한 GPU · 데이터 완전 통제 · 무조건 빠른 속도 · 자동 업데이트)

정답은 데이터 완전 통제임.
모델을 사내 서버에 올리니 프롬프트도 로그도 회사 밖으로 안 나감.
GPU는 오히려 비싸고, 속도·운영은 우리가 직접 책임져야 함.
규제 산업이 셀프호스팅을 택하는 진짜 이유가 이 통제권임.

API vs 셀프호스팅 운영 책임

운영 책임 — 누가 지나

운영 항목	외부 API	셀프호스팅
GPU 서버·전력·냉각	공급사	우리
추론 서버 세팅 (vLLM)	공급사	우리
오토스케일·장애 대응	공급사	우리
보안 패치·모델 갱신	공급사	우리
ML 엔지니어 인건비	공급사	우리

가장 큰 숨은 비용은 사람 — ML 엔지니어