오늘 끝나면
메모리를 쌓다: HBM
- ✓AI에서 진짜 병목이 연산이 아니라 데이터 이동(대역폭)임을 설명할 수 있음
- ✓대역폭과 지연시간의 차이를 구분하고 HBM이 DRAM을 위로 쌓아 TSV로 잇는 구조임을 그릴 수 있음
- ✓GPU 옆 인터포저 위에 붙이는 게 왜 거리·지연을 줄여 대역폭에 이로운지 말할 수 있음
실습 미션
오른쪽 실험에서 DRAM 층 수를 올려 대역폭이 폭발하는 걸 보고, 배치 탭에서 메모리를 GPU 옆과 멀리에 둬 지연 차이를 직접 확인해 보셈.
성공 조건
- □층 수를 늘릴수록 대역폭 막대와 1층 대비 배수가 커지는 걸 봄
- □TSV(수직 선)가 쌓인 모든 층을 관통해 연결하는 걸 확인함
- □거리를 멀리 둘수록 상대 지연이 커지는 걸 읽고 옆 배치가 이로운 이유를 설명함
데이터 이동 병목 · 적층 · 고대역폭
메모리를 쌓다: HBM
AI 시대 병목은 연산이 아니라 데이터 이동임. HBM은 DRAM을 위로 쌓고 GPU 옆에 붙여 그 길을 넓힘.
코어는 빠른데 데이터가 안 옴
AI 가속기의 진짜 병목은 연산이 아니라 데이터 이동임.
GPU 코어는 1초에 수천조 번 곱셈을 함. 근데 곱할 숫자가 제때 안 오면 코어는 그냥 멈춰서 기다림.
큰 언어 모델 하나는 가중치가 수천억 개임. 토큰 하나 뽑을 때마다 그 수천억 개를 전부 메모리에서 끌어와야 함.
그래서 멈춰 있는 코어를 깨우는 건 더 빠른 코어가 아니라 더 굵은 데이터 통로임. 이 강의 전체가 그 통로 이야기임.
가중치
코어는 멀쩡히 빠른데 데이터가 안 와서 대부분 놀고 있음. 더 빠른 코어를 넣어도 소용없음 — 통로부터 굵혀야 함.
통로의 굵기 = 대역폭
데이터 통로의 굵기를 부르는 이름이 대역폭임. 1초에 옮길 수 있는 데이터 양임.
헷갈리기 쉬운 게 지연시간임. 지연은 첫 데이터가 도착하는 시간, 대역폭은 한 번에 쏟아지는 양임.
수도관으로 치면 지연은 물이 처음 나오기까지, 대역폭은 관의 굵기임. AI는 물을 콸콸 부어야 하니 굵기가 핵심임.
기존 DRAM은 핀 수가 적어 통로가 가늘었음. 핀을 옆으로 늘리는 건 한계가 명확했음. 그래서 발상을 바꿔야 했음.
핀을 늘리면 대역폭만 커지고 지연은 그대로임. 둘은 다른 값임 — 지연은 첫 물이 나오는 시간, 대역폭은 관의 굵기. AI는 물을 콸콸 부어야 하니 굵기가 핵심임.
DRAM을 위로 쌓다 — TSV
HBM의 발상은 단순함. 옆으로 못 늘리면 위로 쌓는 것임.
HBM은 High Bandwidth Memory, 고대역폭 메모리임. DRAM 다이를 4·8·12장씩 탑처럼 쌓아 한 덩어리로 만듦.
쌓은 층을 잇는 게 TSV(Through-Silicon Via)임. 칩을 수직으로 뚫은 미세 구멍에 구리를 채운 배선으로, 층마다 새 통로를 뚫음.
면적은 그대로인데 층마다 핀이 더해져 통로 수가 폭발함. 2013년 SK hynix가 첫 HBM을 내놓으며 이 길을 처음 열었음.
DRAM 다이를 마이크로범프로 붙여 위로 쌓고, TSV(구리 기둥)가 모든 층을 수직으로 꿰뚫어 베이스 다이로 모음. 면적은 한 장 그대로인데 층마다 통로가 더해짐 — 2013년 SK hynix가 이 구조를 처음 양산함.
GPU 옆에 바짝 붙이다
쌓기만으론 부족함. 메모리가 멀면 데이터가 가는 길이 길어져 또 늦어짐.
그래서 HBM은 GPU와 같은 패키지 안, 인터포저라는 받침 기판 위에 바로 옆에 앉힘. 거리가 보드를 가로지를 때의 수십 분의 일임.
넓은 통로(적층)와 짧은 거리(옆 배치)가 합쳐져 대역폭이 칩 한 장에 테라바이트급으로 뜀. 보드 위 일반 DRAM과는 차원이 다름.
SK hynix·삼성·마이크론이 만들고 NVIDIA H100·B200 같은 가속기에 실림. 지금 모든 AI 칩의 심장 옆에 이게 붙어 있음.
HBM 스택을 GPU와 같은 인터포저 위에 사방으로 바짝 붙임. 거리가 수 mm로 줄고 통로가 짧고 굵어져 대역폭이 테라바이트급으로 뜀 — NVIDIA H100·B200이 이 구조임.
직접 쌓고 옆에 붙여 보기
이제 직접 만져보며 두 손잡이를 다 돌려볼 차례임.
층 쌓기 탭에서 DRAM 층 수를 올리면 다이가 위로 쌓이고 TSV가 관통하며 대역폭 막대가 같이 커짐.
GPU 옆 vs 멀리 탭에서 거리를 움직이면 데이터 이동 거리와 지연이 어떻게 벌어지는지 숫자로 비교됨.
굵은 통로 곱하기 짧은 거리 — 이 둘을 함께 본 사람만이 왜 AI 칩에 HBM이 붙는지 진짜로 이해한 것임.
다이를 한 층 더 얹을 때마다 한 번에 옮길 수 있는 데이터가 그만큼 늘어남.