18강 · 랜덤 포레스트

오늘 끝나면

랜덤 포레스트

✓랜덤 포레스트의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 랜덤이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

스무고개 여러 개 모아서 다수결 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 18

랜덤
포레스트

나무 하나는 변동에 잘 흔들리고 과적합함.
조금씩 다른 나무 여러 개의 다수결로 더 안정적으로 가는 방법임.
앙상블의 대표 선수임.

P.01통계 · 18

나무 하나는 잘 흔들린다

의사결정나무(17강)는 직관적이고 강력함.
근데 약점이 있음 — 데이터에 예민함.

나무는 분할마다 “지금 가장 잘 가르는 한 칼”을 탐욕적으로 고름.
그래서 점 몇 개만 바뀌어도 첫 칼이 달라지고 / 그 아래 가지가 통째로 흔들림.
이걸 분산이 크다(high variance)고 함.

깊이 키우면 잡음까지 외워버림.
학습 데이터는 거의 다 맞히는데 / 새 데이터엔 약함.
이게 과적합(overfitting)임.

같은 데이터 · 점 하나 바뀌면 경계가 출렁

같은 문제 · 다른 첫 칼

표본 A

첫 칼 = 0.4

표본 B (점 몇 개만 다름)

첫 칼 = 0.62

데이터 살짝 바뀌면 → 경계가 통째로 흔들림 (분산 큼)

P.02통계 · 18

조금씩 다른 나무를 여럿 키운다

한 그루가 흔들린다면 / 여러 그루를 키워 모으면 됨.
단, 똑같은 나무를 복사하면 의미 없음 — 일부러 다르게 키워야 함.

두 가지로 다양성을 만듦.
하나는 부트스트랩 — 원본에서 복원추출로 표본을 새로 뽑아 나무마다 다른 데이터를 줌.
또 하나는 특성 무작위 — 분할할 때 전체 특성이 아니라 일부만 후보로 봄.

그 결과 나무마다 첫 칼도 / 가지 모양도 제각각이 됨.
분류는 다수결(투표) / 회귀는 평균으로 최종 답을 냄.
이렇게 여러 모델을 묶는 걸 앙상블(ensemble)이라 함.

부트스트랩 + 특성 무작위 → 서로 다른 나무

나무마다 다른 데이터 · 다른 첫 칼

나무1

부트스트랩 표본

1,1,3,5,5,8

x ≤ 0.4

나무2

부트스트랩 표본

2,3,3,6,7,7

y ≤ 0.6

나무3

부트스트랩 표본

1,4,4,5,6,8

x ≤ 0.7

분류 → 다수결 · 회귀 → 평균

P.03통계 · 18

실수가 서로 상쇄된다

핵심 질문 — 왜 여럿이 한 그루보다 나은가?
답은 실수가 서로 상쇄되기 때문임.

나무들이 서로 다른 방향으로 틀리면 / 다수결·평균에서 오차가 깎여 나감.
한 나무가 잡음 점에 끌려가도 / 다른 나무들이 끌려가지 않으면 표에서 짐.

수식으로도 보임. 독립에 가까운 나무 N개의 평균은
분산 ≈ 단일 분산 / N 쪽으로 줄어듦.
편향은 거의 그대로 두고 분산만 깎는 게 포인트임.

왜 분산이 N분의 1로 주나 (한 줄 유도)

서로 독립인 N개의 예측 평균을 보면 / 각 분산이 σ²일 때 평균의 분산은 σ²/N 임.
실제 나무들은 완전 독립이 아니라 상관 ρ가 있어 / ρσ² + (1−ρ)σ²/N 로 줆.
그래서 부트스트랩·특성 무작위로 나무 사이 상관 ρ를 낮추는 게 핵심임.

제각각 틀리면 · 평균은 참에 수렴

제각각 틀려도 · 평균은 참에 가까움

단일 나무 오차폭

±13

평균(숲) 오차

P.04통계 · 18

직접 키워보기 — 나무 수를 늘리면

오른쪽에서 직접 해봄.
같은 2D 데이터에 나무를 N개 키워 다수결 경계를 그림.

N=1일 땐 경계가 계단처럼 들쭉날쭉함 — 잡음 점까지 감싸려는 과적합임.
N을 늘리면 흐린 칸(나무 하나하나의 제각각 경계)이 겹치며 / 파란 다수결 선이 차분해짐.

더 늘리면 들쭉날쭉이 평균돼 경계가 매끈한 곡선에 가까워짐.
이게 분산이 깎이며 일반화가 좋아지는 순간임 — 슬라이더로 체감해 보셈.

N=1은 거칠게 · 늘릴수록 경계가 매끈

랜덤 포레스트 · 다수결 경계

클래스 1 클래스 0파란 선 = 다수결 경계

입력 — 나무 수 N

1개(거칠다)N = 160개(부드럽다)

관찰 — 경계의 모양

나무 1개 — 경계가 계단처럼 들쭉날쭉. 잡음 점 하나까지 감싸려다 과적합함.

P.05통계 · 18

정리 — 숲이 나무보다 강하다

랜덤 포레스트 = 부트스트랩 + 특성 무작위로 키운 나무 수십~수백 그루의 다수결·평균임.

단일 나무는 분산이 크고 과적합하기 쉬움.
숲은 그 흔들림을 평균으로 잠재워 / 더 정확하고 안정적인 예측을 냄.

비용은 — 한 그루처럼 가지를 따라가며 설명하기는 어려워짐(해석성 손해).
대신 손볼 게 적고 잘 작동해서 실무 기본기로 널리 씀.

Q. 랜덤 포레스트가 단일 나무보다 나은 핵심 이유는?

여러 나무의 오류가 서로 상쇄돼 분산이 줄고 / 과적합이 덜해져 예측이 안정됨.
부트스트랩과 특성 무작위로 나무들을 서로 다르게(상관 낮게) 만든 게 그 상쇄를 가능케 함.

단일 나무 ↔ 랜덤 포레스트 한눈 비교

단일 나무 ↔ 랜덤 포레스트

	단일 나무	랜덤 포레스트
구성	나무 한 그루	나무 수십~수백
다양성	없음	부트스트랩+특성 무작위
최종 답	그 나무 그대로	다수결 · 평균
분산	큼 (흔들림)	작음 (안정)
과적합	쉽게 됨	덜함
해석	쉬움	어려움