24 · 메모리를 쌓다: HBM

오늘 끝나면

메모리를 쌓다: HBM

✓AI에서 진짜 병목이 연산이 아니라 데이터 이동(대역폭)임을 설명할 수 있음
✓대역폭과 지연시간의 차이를 구분하고 HBM이 DRAM을 위로 쌓아 TSV로 잇는 구조임을 그릴 수 있음
✓GPU 옆 인터포저 위에 붙이는 게 왜 거리·지연을 줄여 대역폭에 이로운지 말할 수 있음

실습 미션

오른쪽 실험에서 DRAM 층 수를 올려 대역폭이 폭발하는 걸 보고, 배치 탭에서 메모리를 GPU 옆과 멀리에 둬 지연 차이를 직접 확인해 보셈.

성공 조건

□층 수를 늘릴수록 대역폭 막대와 1층 대비 배수가 커지는 걸 봄
□TSV(수직 선)가 쌓인 모든 층을 관통해 연결하는 걸 확인함
□거리를 멀리 둘수록 상대 지연이 커지는 걸 읽고 옆 배치가 이로운 이유를 설명함

데이터 이동 병목 · 적층 · 고대역폭

메모리를 쌓다: HBM

AI 시대 병목은 연산이 아니라 데이터 이동임. HBM은 DRAM을 위로 쌓고 GPU 옆에 붙여 그 길을 넓힘.

SK hynixSamsungMicronNVIDIA

P.0124 · 메모리를 쌓다: HBM

코어는 빠른데 데이터가 안 옴

AI 가속기의 진짜 병목은 연산이 아니라 데이터 이동임.

GPU 코어는 1초에 수천조 번 곱셈을 함. 근데 곱할 숫자가 제때 안 오면 코어는 그냥 멈춰서 기다림.

큰 언어 모델 하나는 가중치가 수천억 개임. 토큰 하나 뽑을 때마다 그 수천억 개를 전부 메모리에서 끌어와야 함.

그래서 멈춰 있는 코어를 깨우는 건 더 빠른 코어가 아니라 더 굵은 데이터 통로임. 이 강의 전체가 그 통로 이야기임.

빠른 코어가 느린 데이터를 기다림

코어는 빠름 · 데이터가 늦음

입력 — 데이터 통로를 얼마나 굵게 열까

통로 굵기3→ 가는 통로(기존 메모리)

GPU 코어 16개 — 파랑=일함, 회색=데이터 기다리며 놂

메모리

수천억
가중치

통로

▶

··

일하는 코어

5/16

놀고 있는 코어

데이터 대기

코어는 멀쩡히 빠른데 데이터가 안 와서 대부분 놀고 있음. 더 빠른 코어를 넣어도 소용없음 — 통로부터 굵혀야 함.

P.0224 · 메모리를 쌓다: HBM

통로의 굵기 = 대역폭

데이터 통로의 굵기를 부르는 이름이 대역폭임. 1초에 옮길 수 있는 데이터 양임.

헷갈리기 쉬운 게 지연시간임. 지연은 첫 데이터가 도착하는 시간, 대역폭은 한 번에 쏟아지는 양임.

수도관으로 치면 지연은 물이 처음 나오기까지, 대역폭은 관의 굵기임. AI는 물을 콸콸 부어야 하니 굵기가 핵심임.

기존 DRAM은 핀 수가 적어 통로가 가늘었음. 핀을 옆으로 늘리는 건 한계가 명확했음. 그래서 발상을 바꿔야 했음.

통로가 굵을수록 1초에 더 많이 흐름

대역폭 · 통로가 굵을수록 더 흐름

입력 — 데이터 핀(통로)을 몇 개 열까

핀16개

수도관 — 관이 굵을수록 1초에 더 콸콸

대역폭 (관 굵기)

128 GB/s

핀 ↑ → 같이 커짐

지연 (첫 물까지)

30 ns

핀 ↑ → 안 변함

핀을 늘리면 대역폭만 커지고 지연은 그대로임. 둘은 다른 값임 — 지연은 첫 물이 나오는 시간, 대역폭은 관의 굵기. AI는 물을 콸콸 부어야 하니 굵기가 핵심임.

P.0324 · 메모리를 쌓다: HBM

DRAM을 위로 쌓다 — TSV

HBM의 발상은 단순함. 옆으로 못 늘리면 위로 쌓는 것임.

HBM은 High Bandwidth Memory, 고대역폭 메모리임. DRAM 다이를 4·8·12장씩 탑처럼 쌓아 한 덩어리로 만듦.

쌓은 층을 잇는 게 TSV(Through-Silicon Via)임. 칩을 수직으로 뚫은 미세 구멍에 구리를 채운 배선으로, 층마다 새 통로를 뚫음.

면적은 그대로인데 층마다 핀이 더해져 통로 수가 폭발함. 2013년 SK hynix가 첫 HBM을 내놓으며 이 길을 처음 열었음.

DRAM 다이를 쌓고 TSV로 수직 연결

HBM 단면 · 쌓고 TSV로 꿰뚫음

DRAM 다이를 마이크로범프로 붙여 위로 쌓고, TSV(구리 기둥)가 모든 층을 수직으로 꿰뚫어 베이스 다이로 모음. 면적은 한 장 그대로인데 층마다 통로가 더해짐 — 2013년 SK hynix가 이 구조를 처음 양산함.

P.0424 · 메모리를 쌓다: HBM

GPU 옆에 바짝 붙이다

쌓기만으론 부족함. 메모리가 멀면 데이터가 가는 길이 길어져 또 늦어짐.

그래서 HBM은 GPU와 같은 패키지 안, 인터포저라는 받침 기판 위에 바로 옆에 앉힘. 거리가 보드를 가로지를 때의 수십 분의 일임.

넓은 통로(적층)와 짧은 거리(옆 배치)가 합쳐져 대역폭이 칩 한 장에 테라바이트급으로 뜀. 보드 위 일반 DRAM과는 차원이 다름.

SK hynix·삼성·마이크론이 만들고 NVIDIA H100·B200 같은 가속기에 실림. 지금 모든 AI 칩의 심장 옆에 이게 붙어 있음.

GPU 바로 옆 인터포저 위에 HBM

배치 · 멀리 흩어 vs 옆에 바짝

위에서 본 배치 — 한 패키지 안 인터포저 위

메모리 거리

≈ 수 mm

대역폭

TB/s

차원이 다름

HBM 스택을 GPU와 같은 인터포저 위에 사방으로 바짝 붙임. 거리가 수 mm로 줄고 통로가 짧고 굵어져 대역폭이 테라바이트급으로 뜀 — NVIDIA H100·B200이 이 구조임.

P.0524 · 메모리를 쌓다: HBM

직접 쌓고 옆에 붙여 보기

이제 직접 만져보며 두 손잡이를 다 돌려볼 차례임.

층 쌓기 탭에서 DRAM 층 수를 올리면 다이가 위로 쌓이고 TSV가 관통하며 대역폭 막대가 같이 커짐.

GPU 옆 vs 멀리 탭에서 거리를 움직이면 데이터 이동 거리와 지연이 어떻게 벌어지는지 숫자로 비교됨.

굵은 통로 곱하기 짧은 거리 — 이 둘을 함께 본 사람만이 왜 AI 칩에 HBM이 붙는지 진짜로 이해한 것임.

층 수 → 대역폭, GPU 옆 배치 직접 실험

HBM · 위로 쌓고 GPU 옆에 붙이기

입력 — DRAM 다이를 몇 층 쌓을까

층 수8다이 (면적은 그대로)

적층 — 세로 선이 TSV(다이를 수직 관통하는 배선)

출력 — 한 번에 옮기는 데이터 양

대역폭

408 GB/s

1층 대비

8×

넓음

다이를 한 층 더 얹을 때마다 한 번에 옮길 수 있는 데이터가 그만큼 늘어남.