스킬캠퍼스
3강 · 오픈소스 셀프호스팅
강의

오늘 끝나면

오픈소스 셀프호스팅

  • 오픈소스 셀프호스팅의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 오픈소스이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

Llama 등 사내 서버에 — GPU 요건 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

Enterprise LLM · 03

오픈소스
셀프호스팅

Llama 같은 모델을 사내 GPU 서버에 직접 올림.
데이터가 회사 밖으로 안 나감 — 완전한 통제.
대가는 GPU·운영 비용·전문 인력임.

P.01Enterprise LLM · 03

왜 셀프호스팅을 하나

API로 외부 모델을 부르면 프롬프트가 회사 밖으로 나감. 셀프호스팅은 그 경계를 사내로 당기는 선택임.

오픈소스 모델은 가중치가 공개돼 있음. Llama · Mistral · Qwen 같은 모델을 내려받아 우리 GPU 서버에 올림.
요청도 응답도 사내망 안에서만 돎. 외부 API 호출이 없음.

그래서 규제가 센 곳이 이 길을 고름.
금융 · 의료 · 공공 · 국방 — 데이터 반출 자체가 막힌 산업임.
모델·버전을 우리가 고정하니 외부 업데이트로 동작이 바뀔 일도 없음.

데이터가 머무는 경계선
프롬프트가 어디까지 가나
외부 API
사내 앱외부 서버

데이터가 경계 밖으로 나감

셀프호스팅
사내 앱사내 GPU

사내망 안에서만 돎

금융·의료·공공 — 반출이 막힌 곳이 이 길을 택함
P.02Enterprise LLM · 03

통제의 4가지 축

셀프호스팅의 진짜 값어치는 ‘통제’임. 무엇을 통제하게 되는지 네 축으로 나눠봄.

데이터는 사내에 머묾 — 프롬프트도 로그도 밖으로 안 감.
모델 버전을 우리가 고정함 — 공급사 업데이트에 흔들리지 않음.

토큰당 과금이 없음 — 한 번 사면 호출량만큼 추가비가 안 붙음.
파인튜닝·검열 정책을 우리 손으로 바꿈 — 도메인에 맞게 깎음.
이 네 가지가 외부 API로는 못 쥐는 통제권임.

셀프호스팅이 쥐는 통제권
셀프호스팅이 쥐는 통제권
데이터
사내에 머묾
프롬프트·로그 반출 없음
버전
우리가 고정
공급사 업데이트 무관
비용
토큰 과금 없음
호출량 추가비 없음
정책
직접 파인튜닝
도메인 맞춤·검열 조정
P.03Enterprise LLM · 03

GPU·VRAM 요건 — 직접 계산

셀프호스팅의 첫 관문은 ‘이 모델이 우리 GPU에 올라가나’임. 오른쪽에서 직접 가늠해 봄.

핵심 어림셈은 단순함.
가중치 VRAM ≈ 파라미터 수 × 정밀도 바이트임.
FP16은 1개당 2바이트, INT8은 1바이트, INT4는 0.5바이트.

그래서 70B 모델을 FP16으로 올리면 가중치만 약 140GB.
여기에 추론용 KV캐시·활성값 여유를 더하면 GPU 80GB 한 장으로는 부족함.
정밀도를 INT4로 낮추면 같은 모델이 절반 이하로 줄어 한 장에 들어가기도 함.

모델 크기·정밀도 → 필요 VRAM
GPU 요건 계산기 · 추론 기준
모델 크기 — 파라미터70B

Llama 8B · 70B · 405B 등 — B = 10억 개

정밀도 — 양자화 단계

원본 정밀도

추정 필요 VRAM
168GB

가중치 140GB + 추론 오버헤드(KV캐시·활성값) ×1.2

가중치 크기 — FP16 대비
140GB

INT8이면 절반 · INT4면 1/4로 줄어듦

GPU 1장 기준 (80GB)H100/A100 80GB 기준
GPU 3장 필요여러 장으로 분산 적재
P.04Enterprise LLM · 03

양자화 — 경량화의 핵심

큰 모델을 작은 GPU에 욱여넣는 기술이 양자화임. 가중치를 더 적은 비트로 표현해 메모리를 줄임.

원본은 보통 FP16(16비트)임. 이걸 INT8(8비트)·INT4(4비트)로 낮추면 가중치 크기가 절반 · 1/4로 줆.
GPTQ · AWQ · GGUF 같은 방식이 실무에서 많이 쓰임.

공짜는 아님. 비트를 줄이면 정밀도 손실로 품질이 조금 떨어질 수 있음.
INT8까지는 체감 차이가 거의 없는 편, INT4부터는 작업에 따라 검증이 필요함.
그래서 ‘얼마나 줄여도 우리 작업이 버티나’를 평가셋으로 재고 결정함.

FP16 → INT8 → INT4 비교
양자화 — 70B 모델 가중치 기준
FP1616bit140GB

원본

INT88bit70GB

체감 차이 거의 없음

INT44bit35GB

작업 따라 검증

GPTQ · AWQ · GGUF — 줄일수록 GPU 한 장에 가까워짐

P.05Enterprise LLM · 03

운영 부담 — 진짜 비용

GPU만 사면 끝이 아님. 셀프호스팅은 운영 책임을 통째로 떠안는 일임.

GPU 서버 구매·임대비, 전력·냉각, 추론 서버(vLLM·TGI) 세팅과 튜닝, 오토스케일링, 장애 대응 — 외부 API였으면 공급사가 지던 짐임.
여기에 ML 엔지니어 인건비가 가장 큰 숨은 비용임.

그래서 의사결정은 단순한 단가 비교가 아님.
호출량이 충분히 크고 · 데이터 통제가 필수고 · 운영할 사람이 있을 때 셀프호스팅이 유리함.
그 조건이 안 맞으면 Bedrock·Azure 같은 매니지드가 총비용이 더 쌈 — 다음 강에서 다룸.

Q. 셀프호스팅의 가장 큰 장점은? (저렴한 GPU · 데이터 완전 통제 · 무조건 빠른 속도 · 자동 업데이트)정답은 데이터 완전 통제임.
모델을 사내 서버에 올리니 프롬프트도 로그도 회사 밖으로 안 나감.
GPU는 오히려 비싸고, 속도·운영은 우리가 직접 책임져야 함.
규제 산업이 셀프호스팅을 택하는 진짜 이유가 이 통제권임.
API vs 셀프호스팅 운영 책임
운영 책임 — 누가 지나
운영 항목외부 API셀프호스팅
GPU 서버·전력·냉각공급사우리
추론 서버 세팅 (vLLM)공급사우리
오토스케일·장애 대응공급사우리
보안 패치·모델 갱신공급사우리
ML 엔지니어 인건비공급사우리
가장 큰 숨은 비용은 사람 — ML 엔지니어

3줄 요약

  1. 1Llama 등 사내 서버에 — GPU 요건
  2. 2오픈소스 셀프호스팅은 도입 방식 → RAG·연동 → SAP → 보안·거버넌스 → 운영 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

오픈소스

Llama 등 사내 서버에 — GPU 요건

RAG

사내 문서를 검색해 답을 보강하는 방식

임베딩

의미를 숫자 벡터로 바꾼 표현