오늘 끝나면
생존 분석 (Cox)
- ✓생존 분석 (Cox)의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 생존이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
사건 발생까지 얼마나 걸리나? — 생존곡선 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 16
생존 분석
(Cox)
사건 발생까지 얼마나 걸리나? 를 다루는 통계임.
시간이라는 축 + 아직 사건이 안 일어난 대상(미관측)을 같이 처리함.
환자 생존, 고객 이탈, 기계 고장 — 모두 같은 틀.
얼마나 걸리나 — 시간을 결과로 본다
보통 회귀는 “사건이 일어날까(예/아니오)”를 봄.
생존 분석은 한 발 더 나감 — “언제 일어나나”를 봄.
결과 변수가 시간임.
암 진단 후 생존 개월
가입 후 해지까지 일수
부품 설치 후 고장까지 시간
그냥 평균 시간을 내면 안 되나? 안 됨.
관찰이 끝날 때까지 사건이 안 일어난 대상이 꼭 섞여 있기 때문임.
이걸 어떻게 다루느냐가 생존 분석의 핵심임.
✕ = 사건 발생 · + = 중도절단(아직 안 일어남)
중도절단 — 아직 안 일어남도 정보다
핵심 난점이자 핵심 아이디어가 중도절단(censoring)임.
연구가 끝날 때까지 사건이 안 일어난 대상이 있음.
5년 추적했는데 멀쩡히 생존 중인 환자
관찰 도중 이사 가서 추적이 끊긴 고객
이들은 “정확한 사건 시간”을 모름.
그렇다고 버리면? 오래 산 사람만 빠져 결과가 왜곡됨.
그래서 이렇게 씀 — “이 시점까지는 사건 없이 생존했다”는 부분 정보로 활용함.
이게 생존 분석이 평균·t검정과 다른 결정적 지점임.
사건 안 난 사람을 빼버림
→ 오래 산 사람만 사라짐 → 생존율 과소추정
“t시점까지 사건 없이 생존”을 정보로 씀
그 뒤로는 위험집단(at risk)에서만 조용히 빠짐
카플란-마이어 — 시간에 따른 생존 곡선
카플란-마이어(KM)는 시간에 따른 생존 확률을 곡선으로 그림.
모양은 계단형 — 사건이 날 때마다 한 칸 뚝 떨어짐.
원리는 단순함.
매 사건 시점에 (그 시점까지 살아남은 사람 중 사건 안 난 비율)을 곱해 나감.
식으로는 S(t) = ∏ (1 − dᵢ / nᵢ) — 위험에 놓인 nᵢ명 중 dᵢ명에게 사건이 났다는 뜻.
오른쪽에서 직접 비교해 봄.
치료군 위험률을 낮추면 곡선이 천천히 내려감(더 오래 생존).
중도절단은 곡선 위 + 표식 — 떨어뜨리지 않고 위험집단에서만 빠짐.
위험비 0.44 — 치료군 위험이 대조군의 44%. 곡선이 위에 머묾(더 오래 생존).
Cox 회귀 — 위험을 몇 배 올리나
KM은 곡선을 보여주지만 “무엇 때문에”는 답 못 함.
요인의 효과를 수치로 보려면 Cox 비례위험 회귀를 씀.
Cox가 모형화하는 건 위험률(hazard) — 지금 이 순간 사건이 날 순간적 위험임.
요인이 한 단위 늘면 위험이 몇 배가 되는지를 추정함.
이 배수가 위험비(hazard ratio, HR)임.
HR = 2 면 위험 2배(나쁨)
HR = 0.5 면 위험 절반(좋음)
HR = 1 이면 효과 없음
‘비례위험’은 이 배수가 시간 내내 일정하다고 가정한다는 뜻임.
식 한 줄 — Cox 모형
위험률 h(t) = h₀(t) · exp(β₁x₁ + … + βₚxₚ)임.h₀(t)는 기준 위험(시간에 따라 자유롭게 변함, 모양 가정 안 함).
요인 효과는 exp(β)로 분리됨 — 이게 곧 위험비(HR)임.
기준 위험을 추정하지 않고 효과만 뽑으므로 ‘준모수’라 부름.
HR = 요인 1단위당 위험이 몇 배 되나
정리 — KM은 곡선, Cox는 배수
둘은 한 짝임. 곡선으로 보고, 배수로 설명함.
KM은 군별 생존 곡선을 그려 “어느 쪽이 오래 사나”를 눈으로 보여줌.
Cox는 여러 요인을 한꺼번에 넣어 “각 요인이 위험을 몇 배 올리나”를 숫자로 줌.
공통 뿌리는 하나 — 시간 + 중도절단을 같이 다룬다는 것.
이 틀 하나로 환자 생존, 고객 이탈, 기계 수명이 전부 같은 분석이 됨.
Q. 관찰 종료까지 사건이 안 일어난 대상은 그냥 버리나?
아님.그 시점까지 사건 없이 생존했다는 정보로 활용함 — 이게 중도절단(censoring)임.
버리면 오래 산 대상이 빠져 결과가 왜곡됨.
KM은 위험집단에서만 빼고, Cox는 부분우도로 이 정보를 끌어씀.
| 묻는 것 | KM | Cox |
|---|---|---|
| 한눈에 보기 | 군별 생존 곡선 | — |
| 요인 효과 수치 | — | 위험비 HR |
| 여러 요인 동시 | 어려움 | 잘됨 |
| 시간 + 중도절단 | 다룸 | 다룸 |