오늘 끝나면
API 게이트웨이
- ✓API 게이트웨이의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 API이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
통합 아키텍처 — 모델 앞단 관문 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
Enterprise LLM · 10
API
게이트웨이
모델 앞단에 세우는 관문임.
앱이 모델을 직접 부르지 않고, 게이트웨이가 인증·요청 제한·로깅·라우팅·캐싱을 한 곳에서 처리함.
여러 모델과 여러 앱을 한 통제 지점으로 묶는 게 핵심임 — 보안·비용·관측의 중심.
앱이 모델을 직접 부르면 생기는 일
앱마다 OpenAI·Bedrock·사내 오픈소스 모델을 제 손으로 직접 부르게 두면 금방 엉킴.
앱마다 API 키를 박아 둠 — 키가 코드·로그에 흩어짐.
모델을 바꾸려면 앱을 전부 고쳐야 함.
누가 얼마를 썼는지 한눈에 안 보임. 폭주하는 앱 하나가 전체 한도를 태움.
그래서 모델 앞에 API 게이트웨이를 한 겹 끼움.
앱은 모델이 아니라 게이트웨이 한 곳만 부름. 키·라우팅·한도·로그가 전부 그 안으로 모임.
앱은 “무슨 모델인지” 몰라도 됨 — 게이트웨이가 뒤에서 정함.
키 흩어짐 · 모델 교체에 앱 전부 수정 · 비용 안 보임
웨이→
앱은 입구 하나만 앎 · 키·라우팅·로그가 한 곳
관문 안에서 벌어지는 다섯 단계
게이트웨이는 단순 중계기가 아님. 요청 하나가 정해진 단계를 순서대로 통과함.
인증은 누가 부르는지 확인함 — API 키·SSO 토큰으로 앱·사용자를 못 박음.
요청 제한은 분당·일당 호출 수를 제한함 — 한 앱이 한도를 다 태우지 못하게 막음.
라우팅은 이 요청을 어느 모델로 보낼지 정함.
캐싱은 같은 질문이면 모델 호출 없이 저장된 답을 돌려줌 — 돈·지연을 아낌.
로깅은 누가·언제·무엇을·토큰 얼마 썼는지 전부 남김.
모델 호출은 라우팅 다음 · 앞뒤로 관문이 감쌈
인증 · 제한 · 로깅 — 통제의 세 축
관문이 한 곳에 모여 있어서 통제가 한 곳에서 끝남. 핵심 셋만 보면 됨.
인증으로 키 없는 호출은 입구에서 떨굼. 앱마다 키를 흩지 않고 게이트웨이가 한 곳에서 발급·회수함.
요청 제한(rate limit)으로 폭주·오작동 앱을 가둠 — 분당 N회, 토큰 일당 한도를 앱별로 다르게 잠.
로깅으로 모든 호출이 기록됨 — 프롬프트·응답·토큰 수·지연·비용.
이 로그가 비용 정산의 근거이자 감사 추적이고, 어떤 프롬프트가 새는지 보는 관측 창임.
모델을 직결했으면 이걸 앱마다 따로 박아야 했을 일을, 관문 한 곳이 대신함.
멀티 모델 라우팅
앱은 입구 하나만 알면 됨. 그 뒤로 어느 모델을 쓸지는 게이트웨이가 규칙으로 정함.
요약·분류처럼 가벼운 일은 싸고 빠른 모델로, 추론이 깊은 일은 큰 모델로 보냄.
민감 데이터가 섞인 요청은 사내 오픈소스 모델(폐쇄망)로만 보냄 — 외부 API로 안 나감.
한 모델이 죽으면 다른 모델로 자동 전환(폴백)함.
모델 교체가 앱 수정이 아니라 게이트웨이 설정 변경으로 끝남.
GPT를 Claude로, 외부 API를 사내 모델로 바꿔도 앱은 코드 한 줄 안 고침.
벤더 잠김(lock-in)을 푸는 자리가 정확히 여기임.
모델 교체 = 앱 수정 아니라 설정 변경
직접 흘려보기
오른쪽에서 직접 요청을 흘려 보셈.
어느 앱이 어떤 요청을 보내는지 정하면 인증 → 제한 → 라우팅 → 모델 → 로깅 순으로 흐름.
호출 수를 올리면 어느 순간 RATE 단계에서 막힘 — 모델까지 가지도 않음.
같은 요청을 또 보내면 CACHE가 맞아 모델 호출 없이 즉시 답이 옴. 비용 0.
민감 요청은 ROUTE가 사내 모델로 돌림 — 외부 API로 안 나감.
통과든 차단이든 캐시든, 마지막 LOG에 토큰·비용이 남는 게 핵심임.
Q. API 게이트웨이가 한 곳에서 주는 것은? (모델 학습 · 인증·제한·로깅·라우팅 통제 · GPU 증설 · 데이터 라벨링)
정답은 인증·제한·로깅·라우팅을 한 곳에서 처리하는 통제 지점임.게이트웨이는 앱과 모델 사이의 관문임 — 누가 부르는지 인증하고, 분당·일당 호출을 제한하고, 어느 모델로 보낼지 라우팅하고, 캐시로 중복을 막고, 모든 호출을 로깅함.
그래서 보안(키·인증)·비용(제한·캐싱·로깅)·관측(로깅)이 한 곳으로 모임. 모델 교체도 앱이 아니라 게이트웨이 설정으로 끝남.
모델을 학습시키거나 GPU를 늘리는 건 게이트웨이의 일이 아님.
ROUTE가 소형 모델 (Haiku급)로 보냄. 토큰 800개 × 단가로 비용이 잡히고, 전부 LOG에 기록됨.