스킬캠퍼스
24 · 메모리를 쌓다: HBM
강의

오늘 끝나면

메모리를 쌓다: HBM

  • AI에서 진짜 병목이 연산이 아니라 데이터 이동(대역폭)임을 설명할 수 있음
  • 대역폭과 지연시간의 차이를 구분하고 HBM이 DRAM을 위로 쌓아 TSV로 잇는 구조임을 그릴 수 있음
  • GPU 옆 인터포저 위에 붙이는 게 왜 거리·지연을 줄여 대역폭에 이로운지 말할 수 있음

실습 미션

오른쪽 실험에서 DRAM 층 수를 올려 대역폭이 폭발하는 걸 보고, 배치 탭에서 메모리를 GPU 옆과 멀리에 둬 지연 차이를 직접 확인해 보셈.

성공 조건

  • 층 수를 늘릴수록 대역폭 막대와 1층 대비 배수가 커지는 걸 봄
  • TSV(수직 선)가 쌓인 모든 층을 관통해 연결하는 걸 확인함
  • 거리를 멀리 둘수록 상대 지연이 커지는 걸 읽고 옆 배치가 이로운 이유를 설명함

데이터 이동 병목 · 적층 · 고대역폭

메모리를 쌓다: HBM

AI 시대 병목은 연산이 아니라 데이터 이동임. HBM은 DRAM을 위로 쌓고 GPU 옆에 붙여 그 길을 넓힘.

SK hynixSamsungMicronNVIDIA
P.0124 · 메모리를 쌓다: HBM

코어는 빠른데 데이터가 안 옴

AI 가속기의 진짜 병목은 연산이 아니라 데이터 이동임.

GPU 코어는 1초에 수천조 번 곱셈을 함. 근데 곱할 숫자가 제때 안 오면 코어는 그냥 멈춰서 기다림.

큰 언어 모델 하나는 가중치가 수천억 개임. 토큰 하나 뽑을 때마다 그 수천억 개를 전부 메모리에서 끌어와야 함.

그래서 멈춰 있는 코어를 깨우는 건 더 빠른 코어가 아니라 더 굵은 데이터 통로임. 이 강의 전체가 그 통로 이야기임.

빠른 코어가 느린 데이터를 기다림
코어는 빠름 · 데이터가 늦음
입력 — 데이터 통로를 얼마나 굵게 열까
통로 굵기3→ 가는 통로(기존 메모리)
GPU 코어 16개 — 파랑=일함, 회색=데이터 기다리며 놂
메모리
수천억
가중치
통로
··
··
··
··
··
··
··
··
··
··
··
일하는 코어
5/16
놀고 있는 코어
11
데이터 대기

코어는 멀쩡히 빠른데 데이터가 안 와서 대부분 놀고 있음. 더 빠른 코어를 넣어도 소용없음 — 통로부터 굵혀야 함.

P.0224 · 메모리를 쌓다: HBM

통로의 굵기 = 대역폭

데이터 통로의 굵기를 부르는 이름이 대역폭임. 1초에 옮길 수 있는 데이터 양임.

헷갈리기 쉬운 게 지연시간임. 지연은 첫 데이터가 도착하는 시간, 대역폭은 한 번에 쏟아지는 양임.

수도관으로 치면 지연은 물이 처음 나오기까지, 대역폭은 관의 굵기임. AI는 물을 콸콸 부어야 하니 굵기가 핵심임.

기존 DRAM은 핀 수가 적어 통로가 가늘었음. 핀을 옆으로 늘리는 건 한계가 명확했음. 그래서 발상을 바꿔야 했음.

통로가 굵을수록 1초에 더 많이 흐름
대역폭 · 통로가 굵을수록 더 흐름
입력 — 데이터 핀(통로)을 몇 개 열까
16
수도관 — 관이 굵을수록 1초에 더 콸콸
메모리코어
대역폭 (관 굵기)
128 GB/s
핀 ↑ → 같이 커짐
지연 (첫 물까지)
30 ns
핀 ↑ → 안 변함

핀을 늘리면 대역폭만 커지고 지연은 그대로임. 둘은 다른 값임 — 지연은 첫 물이 나오는 시간, 대역폭은 관의 굵기. AI는 물을 콸콸 부어야 하니 굵기가 핵심임.

P.0324 · 메모리를 쌓다: HBM

DRAM을 위로 쌓다 — TSV

HBM의 발상은 단순함. 옆으로 못 늘리면 위로 쌓는 것임.

HBM은 High Bandwidth Memory, 고대역폭 메모리임. DRAM 다이를 4·8·12장씩 탑처럼 쌓아 한 덩어리로 만듦.

쌓은 층을 잇는 게 TSV(Through-Silicon Via)임. 칩을 수직으로 뚫은 미세 구멍에 구리를 채운 배선으로, 층마다 새 통로를 뚫음.

면적은 그대로인데 층마다 핀이 더해져 통로 수가 폭발함. 2013년 SK hynix가 첫 HBM을 내놓으며 이 길을 처음 열었음.

DRAM 다이를 쌓고 TSV로 수직 연결
HBM 단면 · 쌓고 TSV로 꿰뚫음
베이스(로직) 다이DRAM 다이 4DRAM 다이 3DRAM 다이 2DRAM 다이 1TSV수직 관통구리 배선마이크로범프위로 쌓음

DRAM 다이를 마이크로범프로 붙여 위로 쌓고, TSV(구리 기둥)가 모든 층을 수직으로 꿰뚫어 베이스 다이로 모음. 면적은 한 장 그대로인데 층마다 통로가 더해짐 — 2013년 SK hynix가 이 구조를 처음 양산함.

P.0424 · 메모리를 쌓다: HBM

GPU 옆에 바짝 붙이다

쌓기만으론 부족함. 메모리가 멀면 데이터가 가는 길이 길어져 또 늦어짐.

그래서 HBM은 GPU와 같은 패키지 안, 인터포저라는 받침 기판 위에 바로 옆에 앉힘. 거리가 보드를 가로지를 때의 수십 분의 일임.

넓은 통로(적층)와 짧은 거리(옆 배치)가 합쳐져 대역폭이 칩 한 장에 테라바이트급으로 뜀. 보드 위 일반 DRAM과는 차원이 다름.

SK hynix·삼성·마이크론이 만들고 NVIDIA H100·B200 같은 가속기에 실림. 지금 모든 AI 칩의 심장 옆에 이게 붙어 있음.

GPU 바로 옆 인터포저 위에 HBM
배치 · 멀리 흩어 vs 옆에 바짝
위에서 본 배치 — 한 패키지 안 인터포저 위
인터포저 (한 패키지)HBMHBMHBMHBMGPU
메모리 거리
≈ 수 mm
대역폭
TB/s
차원이 다름

HBM 스택을 GPU와 같은 인터포저 위에 사방으로 바짝 붙임. 거리가 수 mm로 줄고 통로가 짧고 굵어져 대역폭이 테라바이트급으로 뜀 — NVIDIA H100·B200이 이 구조임.

P.0524 · 메모리를 쌓다: HBM

직접 쌓고 옆에 붙여 보기

이제 직접 만져보며 두 손잡이를 다 돌려볼 차례임.

층 쌓기 탭에서 DRAM 층 수를 올리면 다이가 위로 쌓이고 TSV가 관통하며 대역폭 막대가 같이 커짐.

GPU 옆 vs 멀리 탭에서 거리를 움직이면 데이터 이동 거리와 지연이 어떻게 벌어지는지 숫자로 비교됨.

굵은 통로 곱하기 짧은 거리 — 이 둘을 함께 본 사람만이 왜 AI 칩에 HBM이 붙는지 진짜로 이해한 것임.

층 수 → 대역폭, GPU 옆 배치 직접 실험
HBM · 위로 쌓고 GPU 옆에 붙이기
입력 — DRAM 다이를 몇 층 쌓을까
층 수8다이 (면적은 그대로)
적층 — 세로 선이 TSV(다이를 수직 관통하는 배선)
GPU / 로직 다이DRAMDRAMDRAMDRAMDRAMDRAMDRAMDRAM← TSV가 모든 층을 수직으로 연결
출력 — 한 번에 옮기는 데이터 양
대역폭
408 GB/s
1층 대비
8×
넓음

다이를 한 층 더 얹을 때마다 한 번에 옮길 수 있는 데이터가 그만큼 늘어남.

3줄 요약

  1. 1AI 시대 병목은 연산보다 데이터 이동임. 가는 통로(낮은 대역폭)에서 빠른 코어가 굶음.
  2. 2통로의 굵기가 대역폭임. HBM은 DRAM을 위로 쌓고 TSV로 수직 연결해 면적은 그대로 둔 채 통로를 폭발시킴.
  3. 3거기에 GPU 옆 인터포저 위로 붙여 거리를 줄임. SK hynix·삼성·마이크론이 만드는 AI 가속기의 핵심 메모리임.

완료 전 점검

복습 카드

HBM

DRAM 다이를 위로 쌓아 만든 고대역폭 메모리. 2013년 SK hynix가 처음 양산

TSV

칩을 수직으로 관통해 쌓은 층을 잇는 구리 배선(Through-Silicon Via)

대역폭

1초에 옮기는 데이터 양. 통로의 굵기. AI 가속기 성능을 좌우함