오늘 끝나면
의사결정나무
- ✓의사결정나무의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 의사결정나무이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
스무고개처럼 조건 따져서 나누자 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 17
의사결정
나무
스무고개처럼 조건을 따져 데이터를 나눔.
“이 값이 X보다 큰가?” 예/아니오로 갈라 가지를 침.
끝(잎)에 도달하면 거기서 예측을 냄.
예/아니오 질문으로 가지치기
의사결정나무는 스무고개임.
한 번에 하나씩 예/아니오 질문을 던져 데이터를 좁혀감.
질문은 늘 한 가지 모양임.
“이 변수 값이 임계값보다 큰가?”
예면 한쪽 가지, 아니오면 다른 쪽 가지로 감.
맨 위는 뿌리(root) / 첫 질문.
갈라지는 지점은 마디(node) / 또 다른 질문.
더 안 갈라지는 끝은 잎(leaf) / 여기서 예측을 내놓음.
새 데이터가 들어오면 뿌리부터 질문을 따라 내려가
도착한 잎의 답을 그대로 예측으로 씀.
뿌리 → 마디 → 잎 / 잎에서 예측을 냄
가장 잘 가르는 질문을 고른다
질문은 아무거나 막 던지지 않음.
그룹을 가장 깔끔하게 갈라주는 질문을 고름.
기준은 불순도(impurity)임.
한 그룹에 두 색이 반반 섞이면 불순도 최대.
한 색만 있으면 불순도 0 / 완전히 순수함.
많이 쓰는 척도가 지니 불순도임.
G = 1 − p₀² − p₁²
여기서 p₀, p₁은 각 색의 비율임.
모든 변수 · 모든 임계값을 후보로 놓고
나눈 뒤 불순도가 가장 많이 줄어드는 질문을 채택함.
이 한 번을 매 마디마다 탐욕적으로 반복함.
한 걸음 더 — 정보이득(information gain)
분할의 좋음은 이득(gain)으로 잼.
gain = G(부모) − [w_L·G(왼) + w_R·G(오)]
w_L, w_R은 양쪽으로 간 데이터 비율임.
불순도 대신 엔트로피 H = −Σ pᵢ log₂ pᵢ를 쓰면
그 이득이 곧 정보이득임. 고르는 논리는 같음.
분할 후 불순도를 가장 많이 낮추는 질문을 고름
해석이 쉬운 게 강점
많은 모델은 속을 못 봄(블랙박스).
의사결정나무는 길을 그대로 읽을 수 있음.
뿌리에서 잎까지 따라간 경로가 곧 if-then 규칙임.
“소득 > 5천 그리고 나이 ≤ 40 이면 → 승인” 처럼.
왜 이렇게 예측했는지 사람이 설명 가능함.
의료 · 금융처럼 근거가 필요한 곳에서 특히 쓸모 있음.
단점도 있음 — 경계가 늘 축에 수직인 계단 모양임.
비스듬한 진짜 경계는 계단으로 근사할 수밖에 없음.
if 소득>5천 and 나이≤40 then 승인
왜 그렇게 예측했는지 그대로 설명됨.
직접 평면을 쪼개 보기
오른쪽에서 직접 해봄.
두 색 점을 한 축 기준 수직/수평선으로 갈라감.
분할이 한 번 일어날 때마다
평면이 사각형 영역으로 쪼개짐.
각 영역은 그 안 다수 색으로 예측함.
깊이 슬라이더를 올려 보셈.
깊을수록 영역이 잘게 나뉘어 경계가 점 하나하나에 달라붙음.
훈련 정확도는 100%로 가지만 그게 함정임 — 다음 장.
깊이를 올릴수록 질문이 늘어 영역이 잘게 쪼개짐.
깊이 2: 대각선 경계를 계단으로 근사 중. 적당히 단순함.
너무 깊으면 과적합
나무는 깊게 키울수록 훈련 데이터를 더 잘 맞춤.
끝까지 키우면 점 하나하나를 자기 영역으로 가둬 100% 맞음.
근데 그건 규칙을 배운 게 아니라 데이터를 통째로 외운 거임.
노이즈(우연한 라벨)까지 외워버림.
이게 과적합(overfitting)임.
외운 나무는 새 데이터에선 무너짐.
훈련 정확도는 높은데 실제 성능은 낮음.
그래서 깊이를 제한하거나(가지치기, pruning)
여러 나무를 묶어 평균 냄.
그 묶는 방법이 다음 강 랜덤 포레스트임.
Q. 의사결정나무를 너무 깊게 키우면 생기는 문제는?
정답은 과적합임.
훈련 데이터를 통째로 외워(노이즈까지) 새 데이터에선 성능이 떨어짐.
막으려면 깊이 제한 · 가지치기 · 여러 나무 앙상블을 씀.
매끈한 경계 · 일반화
외운 경계 · 과적합
깊은 쪽은 노이즈 점까지 감싸 외움 → 새 데이터에 약함