오늘 끝나면
랜덤 포레스트
- ✓랜덤 포레스트의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 랜덤이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
스무고개 여러 개 모아서 다수결 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 18
랜덤
포레스트
나무 하나는 변동에 잘 흔들리고 과적합함.
조금씩 다른 나무 여러 개의 다수결로 더 안정적으로 가는 방법임.
앙상블의 대표 선수임.
나무 하나는 잘 흔들린다
의사결정나무(17강)는 직관적이고 강력함.
근데 약점이 있음 — 데이터에 예민함.
나무는 분할마다 “지금 가장 잘 가르는 한 칼”을 탐욕적으로 고름.
그래서 점 몇 개만 바뀌어도 첫 칼이 달라지고 / 그 아래 가지가 통째로 흔들림.
이걸 분산이 크다(high variance)고 함.
깊이 키우면 잡음까지 외워버림.
학습 데이터는 거의 다 맞히는데 / 새 데이터엔 약함.
이게 과적합(overfitting)임.
첫 칼 = 0.4
첫 칼 = 0.62
데이터 살짝 바뀌면 → 경계가 통째로 흔들림 (분산 큼)
조금씩 다른 나무를 여럿 키운다
한 그루가 흔들린다면 / 여러 그루를 키워 모으면 됨.
단, 똑같은 나무를 복사하면 의미 없음 — 일부러 다르게 키워야 함.
두 가지로 다양성을 만듦.
하나는 부트스트랩 — 원본에서 복원추출로 표본을 새로 뽑아 나무마다 다른 데이터를 줌.
또 하나는 특성 무작위 — 분할할 때 전체 특성이 아니라 일부만 후보로 봄.
그 결과 나무마다 첫 칼도 / 가지 모양도 제각각이 됨.
분류는 다수결(투표) / 회귀는 평균으로 최종 답을 냄.
이렇게 여러 모델을 묶는 걸 앙상블(ensemble)이라 함.
분류 → 다수결 · 회귀 → 평균
실수가 서로 상쇄된다
핵심 질문 — 왜 여럿이 한 그루보다 나은가?
답은 실수가 서로 상쇄되기 때문임.
나무들이 서로 다른 방향으로 틀리면 / 다수결·평균에서 오차가 깎여 나감.
한 나무가 잡음 점에 끌려가도 / 다른 나무들이 끌려가지 않으면 표에서 짐.
수식으로도 보임. 독립에 가까운 나무 N개의 평균은
분산 ≈ 단일 분산 / N 쪽으로 줄어듦.
편향은 거의 그대로 두고 분산만 깎는 게 포인트임.
왜 분산이 N분의 1로 주나 (한 줄 유도)
서로 독립인 N개의 예측 평균을 보면 / 각 분산이 σ²일 때 평균의 분산은 σ²/N 임.실제 나무들은 완전 독립이 아니라 상관 ρ가 있어 / ρσ² + (1−ρ)σ²/N 로 줆.
그래서 부트스트랩·특성 무작위로 나무 사이 상관 ρ를 낮추는 게 핵심임.
직접 키워보기 — 나무 수를 늘리면
오른쪽에서 직접 해봄.
같은 2D 데이터에 나무를 N개 키워 다수결 경계를 그림.
N=1일 땐 경계가 계단처럼 들쭉날쭉함 — 잡음 점까지 감싸려는 과적합임.
N을 늘리면 흐린 칸(나무 하나하나의 제각각 경계)이 겹치며 / 파란 다수결 선이 차분해짐.
더 늘리면 들쭉날쭉이 평균돼 경계가 매끈한 곡선에 가까워짐.
이게 분산이 깎이며 일반화가 좋아지는 순간임 — 슬라이더로 체감해 보셈.
나무 1개 — 경계가 계단처럼 들쭉날쭉. 잡음 점 하나까지 감싸려다 과적합함.
정리 — 숲이 나무보다 강하다
랜덤 포레스트 = 부트스트랩 + 특성 무작위로 키운 나무 수십~수백 그루의 다수결·평균임.
단일 나무는 분산이 크고 과적합하기 쉬움.
숲은 그 흔들림을 평균으로 잠재워 / 더 정확하고 안정적인 예측을 냄.
비용은 — 한 그루처럼 가지를 따라가며 설명하기는 어려워짐(해석성 손해).
대신 손볼 게 적고 잘 작동해서 실무 기본기로 널리 씀.
Q. 랜덤 포레스트가 단일 나무보다 나은 핵심 이유는?
여러 나무의 오류가 서로 상쇄돼 분산이 줄고 / 과적합이 덜해져 예측이 안정됨.부트스트랩과 특성 무작위로 나무들을 서로 다르게(상관 낮게) 만든 게 그 상쇄를 가능케 함.
| 단일 나무 | 랜덤 포레스트 | |
|---|---|---|
| 구성 | 나무 한 그루 | 나무 수십~수백 |
| 다양성 | 없음 | 부트스트랩+특성 무작위 |
| 최종 답 | 그 나무 그대로 | 다수결 · 평균 |
| 분산 | 큼 (흔들림) | 작음 (안정) |
| 과적합 | 쉽게 됨 | 덜함 |
| 해석 | 쉬움 | 어려움 |