오늘 끝나면
다중회귀
- ✓다중회귀의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 다중회귀이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
변수가 여러 개일 때 한꺼번에 넣기 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 28
다중
회귀
x 하나로 y를 설명하던 직선을, x 여러 개로 넓힌 것임.
식은 y = b0 + b1x1 + b2x2 + ….
각 계수는 나머지를 고정했을 때 그 변수의 효과임.
변수 하나에서 여러 개로
집값을 평수 하나로만 설명하면 빈틈이 큼. 층·역세권·연식도 같이 봐야 함.
단순회귀는 변수 하나임 / y = b0 + b1x.
다중회귀는 변수를 여러 개로 늘림 / y = b0 + b1x1 + b2x2 + … + bkxk.
항이 늘었을 뿐 뼈대는 같음.
잘 맞춤의 기준도 그대로 최소제곱 / 잔차제곱합 SSE = Σ(y − ŷ)²를 최소로.
기하로는 직선이 평면(2변수)·초평면(3변수↑)으로 바뀜.
점들 한가운데를 관통하는 평면 하나를 찾는 일임.
y = b0 + b1x
y = b0 + b1x1 + b2x2
… + b3x3 + … + bkxk
각 계수 = 부분효과
다중회귀에서 b1은 그냥 “x1과 y의 관계”가 아님. 더 좁고 정확한 뜻임.
b1은 나머지 변수를 모두 고정한 채 x1만 1 늘렸을 때 y의 평균 변화량임.
이걸 부분효과(partial effect)라 부름 / 다른 영향을 통제한 순수한 효과임.
그래서 단순회귀의 기울기와 값이 달라질 수 있음.
단순회귀의 b1은 x2가 x1과 같이 움직이며 끼친 효과까지 섞여 있음.
다중회귀는 x2를 붙잡아 두고 x1만의 몫을 떼어냄.
절편 b0는 모든 x가 0일 때의 예측 y임 / 데이터 범위 밖이면 해석은 조심.
x2를 어디에 고정하든 기울기 b1은 같음 / 높이만 b2만큼 다름
평면을 점에 맞춰 보기
2변수 회귀를 직접 맞춰 봄. ŷ = b0 + b1x1 + b2x2.
손잡이 셋을 끌면 두 단면이 같이 움직임.
왼쪽은 x2를 평균에 고정한 (x1, y) 단면 / 직선 기울기가 b1임.
오른쪽은 x1을 평균에 고정한 (x2, y) 단면 / 기울기가 b2임.
최소제곱을 누르면 정규방정식으로 푼 최적 계수로 점프함.
아무리 손으로 맞춰도 그 SSE보다 더 못 줄임 / 막대가 바닥에 닿는 지점이 최소제곱해임.
참 모형은 y ≈ 2 + 1.4x1 − 0.8x2임.
b2가 음수란 게 핵심 / x2가 늘면 y는 줆 — 단면 직선이 우하향함.
ŷ = 0.00 + 1.00·x1 + 0.00·x2
최적과 차이 52.4. 더 줄여 보셈 / 막대가 바닥에 닿으면 최소제곱해임.
더 정확하지만, 복잡해짐
변수를 더 넣으면 보통 더 잘 맞음. 근데 공짜는 아님.
좋은 쪽 / 빠진 변수를 넣으면 편향이 줄고 예측이 정확해짐.
관련 변수를 통제해 각 효과를 더 깨끗이 떼어 읽을 수 있음.
조심할 쪽 / 변수끼리 강하게 겹치면 다중공선성이 생김.
그러면 계수가 불안정해지고 부호까지 뒤집힐 수 있음 / 다음 강 주제임.
또 변수를 무작정 늘리면 R²는 오르지만 과적합으로 새 데이터엔 약해짐 — 조정 R²·교차검증으로 견제함.
그래서 다중회귀는 “변수 많이 넣기”가 아님.
꼭 필요한 변수를, 겹치지 않게 골라 넣는 절제의 기술임.
| 얻는 것 | 편향 ↓빠진 변수 보강 |
| 얻는 것 | 효과 분리통제 후 부분효과 |
| 치르는 값 | 다중공선성계수 불안정·부호 뒤집힘 |
| 치르는 값 | 과적합R²↑지만 새 데이터 약함 |
많이 넣기가 아니라 — 겹치지 않게 골라 넣기
정리 — 항을 늘린 직선
다중회귀는 y = b0 + b1x1 + … + bkxk / 여러 변수로 y를 설명함.
각 계수는 나머지를 고정한 부분효과임.
기준은 그대로 최소제곱 / 풀이는 정규방정식 (XᵀX)b = Xᵀy.
더 정확하지만 다중공선성·과적합을 조심해야 함.
다음 강은 다중공선성 / 변수끼리 겹칠 때 계수가 흔들리는 문제로 들어감.
Q. 다중회귀 계수 b1의 의미는?
정답은 다른 변수를 모두 고정했을 때 x1이 1 늘 때마다 y의 평균 변화량임.이게 부분효과임 / 다른 변수의 영향을 통제한 x1만의 순수 효과.
그래서 단순회귀의 기울기와 값이 달라질 수 있음 — 단순회귀엔 섞여 있던 다른 변수 효과를 떼어냈기 때문임.
| 단순 | 다중 | |
|---|---|---|
| 변수 수 | 1개 | 여러 개 |
| 기하 | 직선 | 평면·초평면 |
| 계수 뜻 | x당 y 변화 | 나머지 고정 부분효과 |
| 기준 | 최소제곱 | 최소제곱(동일) |