13강 · 비용 관리

오늘 끝나면

비용 관리

✓비용 관리의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 비용이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

토큰·캐싱·모델 선택으로 비용 통제 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

Enterprise LLM · 13

비용
관리

LLM 비용은 토큰으로 매겨짐.
입력 토큰 + 출력 토큰을 단가로 곱한 게 그대로 청구액임.
캐싱 · 짧은 프롬프트 · 작은 모델 라우팅으로 줄이고, 모니터링으로 폭주를 막음.

P.01Enterprise LLM · 13

토큰이 곧 비용이다

사내 LLM 청구서는 한 줄로 요약됨. 처리한 토큰 수에 단가를 곱한 값임.

토큰은 모델이 글을 자르는 조각임. 영어는 단어보다 조금 잘게, 한국어는 더 잘게 쪼개짐.
대략 한국어 1글자가 토큰 1~2개, 영어 단어 하나가 토큰 약 1.3개라고 보면 됨.

비용은 두 묶음으로 나뉨.
입력 토큰은 프롬프트 · 붙인 문서 · 대화 기록 전부임.
출력 토큰은 모델이 생성한 답변임.
단가는 보통 1M(백만) 토큰당으로 매겨지고, 출력이 입력보다 3~5배 비쌈.

그래서 비용 감각은 단순함. 길게 넣고 길게 받으면 비싸짐.
줄일 자리도 거기서 나옴 — 넣는 양 · 받는 양 · 단가.

입력 토큰 + 출력 토큰 → 단가 → 청구액

청구액 = 토큰 × 단가

입력 토큰프롬프트 · 붙인 문서 · 대화 기록

× 입력 단가

출력 토큰모델이 생성한 답변 · 가장 비쌈

× 출력 단가

↓

월 청구액

(입력 + 출력) 토큰 × 단가 × 요청 수

단가는 보통 1M(백만) 토큰당 · 출력이 3~5배 비쌈

P.02Enterprise LLM · 13

요청 하나의 원가 분해

큰 청구서도 결국 요청 한 건의 원가가 쌓인 것임. 한 건부터 뜯어봄.

요청 한 건의 비용 = (입력 토큰 ÷ 1M × 입력 단가) + (출력 토큰 ÷ 1M × 출력 단가).
여기에 월 요청 수를 곱하면 월 비용이 나옴.

핵심은 출력 토큰임. 같은 토큰 수라도 출력이 훨씬 비싸서, 답을 장황하게 뽑으면 원가가 빠르게 붐.
그래서 “간결하게 답하라” 한 줄도 비용 정책임.

한 건이 0.01달러라도 월 6만 건이면 600달러임.
단위가 작아 방심하기 쉬운데, 요청 수를 곱하는 순간 규모가 드러남.

호출 1건 = 입력비 + 출력비

요청 1건 원가 — 예시 (중간 모델)

입력 1500t$0.000450

출력 400t$0.000480

원가 비중

입력 48%

출력 52%

1건 합계$0.000930

× 월 60,000건 = 약 $56 / 월

P.03Enterprise LLM · 13

캐싱 · 모델 선택 — 줄이는 세 자리

비용을 줄이는 길은 화려하지 않음. 토큰을 덜 쓰거나, 싼 단가로 처리하는 것 둘뿐임.

프롬프트 단축 — 안 쓰는 예시 · 중복 설명 · 통째로 붙인 문서를 덜어냄.
RAG로 필요한 조각만 골라 넣으면 입력 토큰이 바로 줄어듦.

프롬프트 캐싱 — 시스템 프롬프트나 긴 매뉴얼처럼 매번 똑같이 들어가는 입력은 캐시함.
캐시 히트 분량은 단가가 1/10 수준으로 떨어짐. 반복 입력이 많을수록 효과가 큼.

작은 모델 라우팅 — 모든 요청에 최상위 모델을 쓸 이유가 없음.
분류 · 추출 · 간단한 답변은 소형 모델로 보내고, 어려운 추론만 프런티어 모델로 올림.
단가가 수십 배 차이라, 쉬운 요청을 옮기는 것만으로 총비용이 크게 빠짐.

프롬프트 단축 · 캐싱 · 작은 모델 라우팅

줄이는 세 자리

프롬프트 단축입력 토큰 ↓

안 쓰는 예시·중복 설명 제거 · RAG로 조각만

프롬프트 캐싱캐시 분 단가 1/10

반복되는 시스템 프롬프트·매뉴얼을 캐시

작은 모델 라우팅단가 자체 ↓

쉬운 요청은 소형으로 · 어려운 추론만 상위로

토큰을 덜 쓰거나 · 싼 단가로 처리하거나 — 길은 둘뿐

P.04Enterprise LLM · 13

직접 계산해보기

오른쪽에서 직접 추정해 보셈.
모델 · 일 요청 수 · 요청당 입력/출력 토큰을 정하면 월 비용이 즉시 나옴.

기준 비용을 본 다음 절감 토글을 켜 보셈.
프롬프트 단축은 입력 토큰을, 캐싱은 반복 입력의 단가를, 라우팅은 모델 단가 자체를 낮춤.

세 개를 다 켜면 같은 요청량에도 비용이 절반 이하로 떨어지는 게 보임.
숫자를 바꿔 보면 출력 토큰을 늘릴 때 청구액이 가장 빨리 오르는 것도 확인됨.
실무 의사결정도 이렇게 추정부터 하고 절감 카드를 얹는 순서임.

모델·요청량·토큰을 넣으면 월 비용이 뜸

월 비용 계산기 · 직접 넣어 보셈

모델 — 단가 (1M 토큰당)

사용량 — 직접 입력

일 요청 수건/일

요청당 입력 토큰토큰

요청당 출력 토큰토큰

월 60,000건 · 호출당 1,900토큰

절감 적용

월 비용 추정

기준

$630

≈ ₩869,400

절감 없음

$630

≈ ₩869,400

절감 토글을 켜 보셈. 같은 요청량이라도 비용이 절반 이하로 떨어짐.

P.05Enterprise LLM · 13

모니터링으로 폭주를 막는다

비용 사고는 단가가 아니라 통제 안 된 사용량에서 터짐. 그래서 줄이기만큼 지켜보기가 중요함.

요청마다 팀 · 기능 · 모델별 토큰 수를 로그로 남김.
어디서 토큰을 많이 쓰는지 보여야 어디를 줄일지 정할 수 있음.
무한 루프 · 폭주하는 배치 작업은 토큰 추적이 없으면 청구서로만 발견됨.

한도와 알림을 같이 검 — 팀별 월 예산, 사용자별 분당 요청 상한(레이트 리밋), 예산 80% 도달 시 알림.
상한이 있어야 버그 하나가 하루 만에 한 달 예산을 태우는 일을 막음.

Q. 사내 LLM 비용을 줄이는 흔한 방법은? (모델 항상 최상위 · 캐싱+작은 모델 라우팅+프롬프트 단축 · 출력 토큰 늘리기 · 요청 수 늘리기)

정답은 캐싱 + 작은 모델 라우팅 + 프롬프트 단축임.
비용은 토큰 수 × 단가라, 줄이는 길은 토큰을 덜 쓰거나 싼 단가로 처리하는 둘뿐임.
반복 입력은 캐싱으로 단가를 떨어뜨리고, 쉬운 요청은 소형 모델로 라우팅하고, 프롬프트는 짧게 다듬음.
최상위 모델만 고집하거나 출력·요청을 늘리는 건 반대로 비용을 키우는 방향임.

토큰 추적 · 한도 · 알림 — 청구서 사고 방지

모니터링 — 청구서 사고 방지

추적어디서 쓰는지 본다

팀·기능·모델별 토큰 로그

↓

한도상한으로 폭주 차단

팀 예산 · 사용자 레이트 리밋

↓

알림터지기 전에 안다

예산 80% 도달 시 통보

버그 하나가 하루에 한 달 예산을 태우지 않게