오늘 끝나면
비용 관리
- ✓비용 관리의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 비용이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
토큰·캐싱·모델 선택으로 비용 통제 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
Enterprise LLM · 13
비용
관리
LLM 비용은 토큰으로 매겨짐.
입력 토큰 + 출력 토큰을 단가로 곱한 게 그대로 청구액임.
캐싱 · 짧은 프롬프트 · 작은 모델 라우팅으로 줄이고, 모니터링으로 폭주를 막음.
토큰이 곧 비용이다
사내 LLM 청구서는 한 줄로 요약됨. 처리한 토큰 수에 단가를 곱한 값임.
토큰은 모델이 글을 자르는 조각임. 영어는 단어보다 조금 잘게, 한국어는 더 잘게 쪼개짐.
대략 한국어 1글자가 토큰 1~2개, 영어 단어 하나가 토큰 약 1.3개라고 보면 됨.
비용은 두 묶음으로 나뉨.
입력 토큰은 프롬프트 · 붙인 문서 · 대화 기록 전부임.
출력 토큰은 모델이 생성한 답변임.
단가는 보통 1M(백만) 토큰당으로 매겨지고, 출력이 입력보다 3~5배 비쌈.
그래서 비용 감각은 단순함. 길게 넣고 길게 받으면 비싸짐.
줄일 자리도 거기서 나옴 — 넣는 양 · 받는 양 · 단가.
(입력 + 출력) 토큰 × 단가 × 요청 수
요청 하나의 원가 분해
큰 청구서도 결국 요청 한 건의 원가가 쌓인 것임. 한 건부터 뜯어봄.
요청 한 건의 비용 = (입력 토큰 ÷ 1M × 입력 단가) + (출력 토큰 ÷ 1M × 출력 단가).
여기에 월 요청 수를 곱하면 월 비용이 나옴.
핵심은 출력 토큰임. 같은 토큰 수라도 출력이 훨씬 비싸서, 답을 장황하게 뽑으면 원가가 빠르게 붐.
그래서 “간결하게 답하라” 한 줄도 비용 정책임.
한 건이 0.01달러라도 월 6만 건이면 600달러임.
단위가 작아 방심하기 쉬운데, 요청 수를 곱하는 순간 규모가 드러남.
× 월 60,000건 = 약 $56 / 월
캐싱 · 모델 선택 — 줄이는 세 자리
비용을 줄이는 길은 화려하지 않음. 토큰을 덜 쓰거나, 싼 단가로 처리하는 것 둘뿐임.
프롬프트 단축 — 안 쓰는 예시 · 중복 설명 · 통째로 붙인 문서를 덜어냄.
RAG로 필요한 조각만 골라 넣으면 입력 토큰이 바로 줄어듦.
프롬프트 캐싱 — 시스템 프롬프트나 긴 매뉴얼처럼 매번 똑같이 들어가는 입력은 캐시함.
캐시 히트 분량은 단가가 1/10 수준으로 떨어짐. 반복 입력이 많을수록 효과가 큼.
작은 모델 라우팅 — 모든 요청에 최상위 모델을 쓸 이유가 없음.
분류 · 추출 · 간단한 답변은 소형 모델로 보내고, 어려운 추론만 프런티어 모델로 올림.
단가가 수십 배 차이라, 쉬운 요청을 옮기는 것만으로 총비용이 크게 빠짐.
안 쓰는 예시·중복 설명 제거 · RAG로 조각만
반복되는 시스템 프롬프트·매뉴얼을 캐시
쉬운 요청은 소형으로 · 어려운 추론만 상위로
직접 계산해보기
오른쪽에서 직접 추정해 보셈.
모델 · 일 요청 수 · 요청당 입력/출력 토큰을 정하면 월 비용이 즉시 나옴.
기준 비용을 본 다음 절감 토글을 켜 보셈.
프롬프트 단축은 입력 토큰을, 캐싱은 반복 입력의 단가를, 라우팅은 모델 단가 자체를 낮춤.
세 개를 다 켜면 같은 요청량에도 비용이 절반 이하로 떨어지는 게 보임.
숫자를 바꿔 보면 출력 토큰을 늘릴 때 청구액이 가장 빨리 오르는 것도 확인됨.
실무 의사결정도 이렇게 추정부터 하고 절감 카드를 얹는 순서임.
월 60,000건 · 호출당 1,900토큰
절감 토글을 켜 보셈. 같은 요청량이라도 비용이 절반 이하로 떨어짐.
모니터링으로 폭주를 막는다
비용 사고는 단가가 아니라 통제 안 된 사용량에서 터짐. 그래서 줄이기만큼 지켜보기가 중요함.
요청마다 팀 · 기능 · 모델별 토큰 수를 로그로 남김.
어디서 토큰을 많이 쓰는지 보여야 어디를 줄일지 정할 수 있음.
무한 루프 · 폭주하는 배치 작업은 토큰 추적이 없으면 청구서로만 발견됨.
한도와 알림을 같이 검 — 팀별 월 예산, 사용자별 분당 요청 상한(레이트 리밋), 예산 80% 도달 시 알림.
상한이 있어야 버그 하나가 하루 만에 한 달 예산을 태우는 일을 막음.
Q. 사내 LLM 비용을 줄이는 흔한 방법은? (모델 항상 최상위 · 캐싱+작은 모델 라우팅+프롬프트 단축 · 출력 토큰 늘리기 · 요청 수 늘리기)
정답은 캐싱 + 작은 모델 라우팅 + 프롬프트 단축임.비용은 토큰 수 × 단가라, 줄이는 길은 토큰을 덜 쓰거나 싼 단가로 처리하는 둘뿐임.
반복 입력은 캐싱으로 단가를 떨어뜨리고, 쉬운 요청은 소형 모델로 라우팅하고, 프롬프트는 짧게 다듬음.
최상위 모델만 고집하거나 출력·요청을 늘리는 건 반대로 비용을 키우는 방향임.
팀·기능·모델별 토큰 로그
팀 예산 · 사용자 레이트 리밋
예산 80% 도달 시 통보
버그 하나가 하루에 한 달 예산을 태우지 않게