스킬캠퍼스
28강 · 다중회귀
강의

오늘 끝나면

다중회귀

  • 다중회귀의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 다중회귀이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

변수가 여러 개일 때 한꺼번에 넣기 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 28

다중
회귀

x 하나로 y를 설명하던 직선을, x 여러 개로 넓힌 것임.
식은 y = b0 + b1x1 + b2x2 + ….
각 계수는 나머지를 고정했을 때 그 변수의 효과임.

P.01통계 · 28

변수 하나에서 여러 개로

집값을 평수 하나로만 설명하면 빈틈이 큼. 층·역세권·연식도 같이 봐야 함.

단순회귀는 변수 하나임 / y = b0 + b1x.
다중회귀는 변수를 여러 개로 늘림 / y = b0 + b1x1 + b2x2 + … + bkxk.

항이 늘었을 뿐 뼈대는 같음.
잘 맞춤의 기준도 그대로 최소제곱 / 잔차제곱합 SSE = Σ(y − ŷ)²를 최소로.

기하로는 직선이 평면(2변수)·초평면(3변수↑)으로 바뀜.
점들 한가운데를 관통하는 평면 하나를 찾는 일임.

단순회귀 → 다중회귀, 항이 늘어남
항이 늘어남
단순회귀변수 1개 · 직선

y = b0 + b1x

다중회귀변수 2개 · 평면

y = b0 + b1x1 + b2x2

다중회귀변수 k개 · 초평면

… + b3x3 + … + bkxk

뼈대는 같음 — 기준은 그대로 최소제곱
P.02통계 · 28

각 계수 = 부분효과

다중회귀에서 b1은 그냥 “x1과 y의 관계”가 아님. 더 좁고 정확한 뜻임.

b1은 나머지 변수를 모두 고정한 채 x1만 1 늘렸을 때 y의 평균 변화량임.
이걸 부분효과(partial effect)라 부름 / 다른 영향을 통제한 순수한 효과임.

그래서 단순회귀의 기울기와 값이 달라질 수 있음.
단순회귀의 b1은 x2가 x1과 같이 움직이며 끼친 효과까지 섞여 있음.
다중회귀는 x2를 붙잡아 두고 x1만의 몫을 떼어냄.

절편 b0는 모든 x가 0일 때의 예측 y임 / 데이터 범위 밖이면 해석은 조심.

나머지를 고정했을 때, 그 변수의 기울기
x2 고정 → x1 기울기 = b1
x2=2x2=7x1y

x2를 어디에 고정하든 기울기 b1은 같음 / 높이만 b2만큼 다름

P.03통계 · 28

평면을 점에 맞춰 보기

2변수 회귀를 직접 맞춰 봄. ŷ = b0 + b1x1 + b2x2.

손잡이 셋을 끌면 두 단면이 같이 움직임.
왼쪽은 x2를 평균에 고정한 (x1, y) 단면 / 직선 기울기가 b1임.
오른쪽은 x1을 평균에 고정한 (x2, y) 단면 / 기울기가 b2임.

최소제곱을 누르면 정규방정식으로 푼 최적 계수로 점프함.
아무리 손으로 맞춰도 그 SSE보다 더 못 줄임 / 막대가 바닥에 닿는 지점이 최소제곱해임.

참 모형은 y ≈ 2 + 1.4x1 − 0.8x2임.
b2가 음수란 게 핵심 / x2가 늘면 y는 줆 — 단면 직선이 우하향함.

b0·b1·b2 손잡이 → 두 부분효과 단면
2변수 회귀 · 평면을 점에 맞추기

ŷ = 0.00 + 1.00·x1 + 0.00·x2

x2 = 4.92 고정
x1y
기울기 = 1.00
x1 = 4.75 고정
x2y
기울기 = 0.00
b0 · 절편0.00
b1 · x1 부분효과1.00
b2 · x2 부분효과0.00
잔차제곱합 SSE
52.5
최적 SSE = 0.1

최적과 차이 52.4. 더 줄여 보셈 / 막대가 바닥에 닿으면 최소제곱해임.

P.04통계 · 28

더 정확하지만, 복잡해짐

변수를 더 넣으면 보통 더 잘 맞음. 근데 공짜는 아님.

좋은 쪽 / 빠진 변수를 넣으면 편향이 줄고 예측이 정확해짐.
관련 변수를 통제해 각 효과를 더 깨끗이 떼어 읽을 수 있음.

조심할 쪽 / 변수끼리 강하게 겹치면 다중공선성이 생김.
그러면 계수가 불안정해지고 부호까지 뒤집힐 수 있음 / 다음 강 주제임.
또 변수를 무작정 늘리면 R²는 오르지만 과적합으로 새 데이터엔 약해짐 — 조정 R²·교차검증으로 견제함.

그래서 다중회귀는 “변수 많이 넣기”가 아님.
꼭 필요한 변수를, 겹치지 않게 골라 넣는 절제의 기술임.

설명력은 오르고 · 해석엔 함정이 생김
변수를 늘리면
얻는 것편향 ↓빠진 변수 보강
얻는 것효과 분리통제 후 부분효과
치르는 값다중공선성계수 불안정·부호 뒤집힘
치르는 값과적합R²↑지만 새 데이터 약함

많이 넣기가 아니라 — 겹치지 않게 골라 넣기

P.05통계 · 28

정리 — 항을 늘린 직선

다중회귀는 y = b0 + b1x1 + … + bkxk / 여러 변수로 y를 설명함.

각 계수는 나머지를 고정한 부분효과임.
기준은 그대로 최소제곱 / 풀이는 정규방정식 (XᵀX)b = Xᵀy.

더 정확하지만 다중공선성·과적합을 조심해야 함.
다음 강은 다중공선성 / 변수끼리 겹칠 때 계수가 흔들리는 문제로 들어감.

Q. 다중회귀 계수 b1의 의미는?정답은 다른 변수를 모두 고정했을 때 x1이 1 늘 때마다 y의 평균 변화량임.
이게 부분효과임 / 다른 변수의 영향을 통제한 x1만의 순수 효과.
그래서 단순회귀의 기울기와 값이 달라질 수 있음 — 단순회귀엔 섞여 있던 다른 변수 효과를 떼어냈기 때문임.
단순회귀와 한 줄로 비교
단순회귀 ↔ 다중회귀
단순다중
변수 수1개여러 개
기하직선평면·초평면
계수 뜻x당 y 변화나머지 고정 부분효과
기준최소제곱최소제곱(동일)

3줄 요약

  1. 1변수가 여러 개일 때 한꺼번에 넣기
  2. 2다중회귀은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

다중회귀

변수가 여러 개일 때 한꺼번에 넣기

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터