스킬캠퍼스
16강 · 생존 분석 (Cox)
강의

오늘 끝나면

생존 분석 (Cox)

  • 생존 분석 (Cox)의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 생존이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

사건 발생까지 얼마나 걸리나? — 생존곡선 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 16

생존 분석
(Cox)

사건 발생까지 얼마나 걸리나? 를 다루는 통계임.
시간이라는 축 + 아직 사건이 안 일어난 대상(미관측)을 같이 처리함.
환자 생존, 고객 이탈, 기계 고장 — 모두 같은 틀.

P.01통계 · 16

얼마나 걸리나 — 시간을 결과로 본다

보통 회귀는 “사건이 일어날까(예/아니오)”를 봄.
생존 분석은 한 발 더 나감 — “언제 일어나나”를 봄.

결과 변수가 시간임.
암 진단 후 생존 개월
가입 후 해지까지 일수
부품 설치 후 고장까지 시간

그냥 평균 시간을 내면 안 되나? 안 됨.
관찰이 끝날 때까지 사건이 안 일어난 대상이 꼭 섞여 있기 때문임.
이걸 어떻게 다루느냐가 생존 분석의 핵심임.

결과 = 사건까지 걸린 시간
결과 = 시간 (관찰 시작 → 사건)
환자 A10개월 사망
환자 B22개월 생존중 +
+
환자 C6개월 사망
환자 D17개월 추적끊김 +
+

✕ = 사건 발생 · + = 중도절단(아직 안 일어남)

P.02통계 · 16

중도절단 — 아직 안 일어남도 정보다

핵심 난점이자 핵심 아이디어가 중도절단(censoring)임.

연구가 끝날 때까지 사건이 안 일어난 대상이 있음.
5년 추적했는데 멀쩡히 생존 중인 환자
관찰 도중 이사 가서 추적이 끊긴 고객
이들은 “정확한 사건 시간”을 모름.

그렇다고 버리면? 오래 산 사람만 빠져 결과가 왜곡됨.
그래서 이렇게 씀 — “이 시점까지는 사건 없이 생존했다”는 부분 정보로 활용함.
이게 생존 분석이 평균·t검정과 다른 결정적 지점임.

관찰 끝까지 사건 X = 버리지 않음
중도절단은 버리는 게 아님
잘못된 방법

사건 안 난 사람을 빼버림
→ 오래 산 사람만 사라짐 → 생존율 과소추정

↓ 대신
생존 분석의 방법

“t시점까지 사건 없이 생존”을 정보로 씀
그 뒤로는 위험집단(at risk)에서만 조용히 빠짐

부분 정보도 끝까지 활용 = 핵심 아이디어
P.03통계 · 16

카플란-마이어 — 시간에 따른 생존 곡선

카플란-마이어(KM)는 시간에 따른 생존 확률을 곡선으로 그림.
모양은 계단형 — 사건이 날 때마다 한 칸 뚝 떨어짐.

원리는 단순함.
매 사건 시점에 (그 시점까지 살아남은 사람 중 사건 안 난 비율)을 곱해 나감.
식으로는 S(t) = ∏ (1 − dᵢ / nᵢ) — 위험에 놓인 nᵢ명 중 dᵢ명에게 사건이 났다는 뜻.

오른쪽에서 직접 비교해 봄.
치료군 위험률을 낮추면 곡선이 천천히 내려감(더 오래 생존).
중도절단은 곡선 위 + 표식 — 떨어뜨리지 않고 위험집단에서만 빠짐.

사건 날 때마다 한 칸씩 내려가는 계단
카플란-마이어 · 생존곡선 비교
0.00.51.006121824+++++++++++++++++++++++
치료군 대조군+ = 중도절단
입력 — 치료군 위험률(hazard) 조절
낮음(천천히 사건)h = 0.040높음(빨리 사건)
출력 — 위험비 · 중앙생존
위험비 HR
0.44×
치료군 중앙생존
12.1개월

위험비 0.44 — 치료군 위험이 대조군의 44%. 곡선이 위에 머묾(더 오래 생존).

P.04통계 · 16

Cox 회귀 — 위험을 몇 배 올리나

KM은 곡선을 보여주지만 “무엇 때문에”는 답 못 함.
요인의 효과를 수치로 보려면 Cox 비례위험 회귀를 씀.

Cox가 모형화하는 건 위험률(hazard) — 지금 이 순간 사건이 날 순간적 위험임.
요인이 한 단위 늘면 위험이 몇 배가 되는지를 추정함.
이 배수가 위험비(hazard ratio, HR)임.

HR = 2 면 위험 2배(나쁨)
HR = 0.5 면 위험 절반(좋음)
HR = 1 이면 효과 없음
‘비례위험’은 이 배수가 시간 내내 일정하다고 가정한다는 뜻임.

식 한 줄 — Cox 모형위험률 h(t) = h₀(t) · exp(β₁x₁ + … + βₚxₚ)임.
h₀(t)는 기준 위험(시간에 따라 자유롭게 변함, 모양 가정 안 함).
요인 효과는 exp(β)로 분리됨 — 이게 곧 위험비(HR)임.
기준 위험을 추정하지 않고 효과만 뽑으므로 ‘준모수’라 부름.
요인 → 위험비(hazard ratio)
위험비(HR) 읽는 법
2.0×위험 2배 — 나쁨
1.0×효과 없음 — 기준
0.5×위험 절반 — 좋음

HR = 요인 1단위당 위험이 몇 배 되나

P.05통계 · 16

정리 — KM은 곡선, Cox는 배수

둘은 한 짝임. 곡선으로 보고, 배수로 설명함.

KM은 군별 생존 곡선을 그려 “어느 쪽이 오래 사나”를 눈으로 보여줌.
Cox는 여러 요인을 한꺼번에 넣어 “각 요인이 위험을 몇 배 올리나”를 숫자로 줌.

공통 뿌리는 하나 — 시간 + 중도절단을 같이 다룬다는 것.
이 틀 하나로 환자 생존, 고객 이탈, 기계 수명이 전부 같은 분석이 됨.

Q. 관찰 종료까지 사건이 안 일어난 대상은 그냥 버리나?아님.
그 시점까지 사건 없이 생존했다는 정보로 활용함 — 이게 중도절단(censoring)임.
버리면 오래 산 대상이 빠져 결과가 왜곡됨.
KM은 위험집단에서만 빼고, Cox는 부분우도로 이 정보를 끌어씀.
언제 무엇을 쓰나
KM ↔ Cox
묻는 것KMCox
한눈에 보기군별 생존 곡선
요인 효과 수치위험비 HR
여러 요인 동시어려움잘됨
시간 + 중도절단다룸다룸

3줄 요약

  1. 1사건 발생까지 얼마나 걸리나? — 생존곡선
  2. 2생존 분석 (Cox)은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

생존

사건 발생까지 얼마나 걸리나? — 생존곡선

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터