29강 · 다중공선성

오늘 끝나면

다중공선성

✓다중공선성의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 다중공선성이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

변수끼리 겹치면 계수가 흔들림 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 29

다중
공선성

설명변수끼리 강하게 상관되면 계수가 불안정해짐.
누구의 효과인지 분리가 안 돼서 β̂가 들쭉날쭉 흔들림.
진단은 VIF / 대응은 제거·합치기·정규화임.

P.01통계 · 29

겹치는 변수는 효과를 못 가른다

다중회귀는 여러 x로 y를 설명함. 각 계수는 “그 변수만 1 늘 때 y 변화”를 뜻함.

근데 두 변수가 거의 같이 움직이면 문제임.
광고비와 노출수, 키와 발 크기처럼 한쪽이 늘면 다른 쪽도 따라 늚.
이 강한 상관이 다중공선성임.

회귀는 “x1만 바뀌고 x2는 고정”인 상황의 효과를 재려 함.
근데 둘이 늘 붙어 다니면 그 상황 자체가 데이터에 거의 없음.
그래서 누구의 효과인지 갈라낼 근거가 부족해짐.

핵심은 예측이 망가지는 게 아님.
망가지는 건 개별 계수 해석임 / 누가 진짜 끌어올렸는지 모름.

x1과 x2가 거의 같은 정보를 들고 옴

x1 · x2가 y와 공유하는 정보

겹친 부분은 누구 몫인지 못 정함 → 계수가 그 사이를 헤맴

P.02통계 · 29

계수가 흔들린다

공선성이 세지면 계수 추정의 분산이 커짐. 말 그대로 β̂가 흔들림.

오른쪽에서 직접 해봄.
참 계수는 β1 = β2 = 1로 고정임.
같은 데이터를 220번 새로 뽑아 매번 β̂1을 추정해 분포를 그림.

ρ를 0에서 0.99로 끌어올려 보셈.
평균은 1 근처에 머묾(편향은 안 생김).
근데 분포 폭이 점점 넓어짐 / 한 표본만 보면 β̂이 −1도, +3도 나옴.

이론적으로 계수 분산은 1/(1−ρ²)배로 부풂.
ρ = 0.95면 분산이 약 10배 / 표준오차는 약 3배 커짐.
그래서 t값이 작아지고, 진짜 효과도 “유의하지 않음”으로 묻힘.

상관 ρ를 올리면 β̂ 분포가 넓어짐

공선성 데모 · β̂1 추정의 흔들림

두 변수 상관 ρ(x1, x2)0.30

0.00 독립0.99 거의 같음

같은 데이터 220번 새로 뽑아 매번 β̂1 추정 → 분포

폭이 넓을수록 추정이 들쭉날쭉 = 계수 불안정

β̂1 평균

1.00

참값 1.00 근처로 맞음

β̂1 표준편차

0.17

ρ↑면 같이 커짐

VIF = 1 / (1 − ρ²)1.1

VIF < 5 → 양호. 계수 안정적.

P.03통계 · 29

VIF로 진단한다

공선성을 눈대중 말고 숫자로 잼. 그 숫자가 분산팽창계수 VIF임.

어떤 변수 xⱼ를 나머지 설명변수로 회귀시켜 결정계수 Rⱼ²을 구함.
그게 곧 “xⱼ가 다른 변수들로 얼마나 설명되나”임.
VIFⱼ = 1 / (1 − Rⱼ²).

Rⱼ²이 0이면 VIF = 1 / 완전히 독립.
Rⱼ²이 0.9면 VIF = 10 / 다른 변수로 90% 설명됨.
VIF는 그 변수 계수의 분산이 공선성 때문에 몇 배 부풀었는지를 직접 말함.

통상 기준은 VIF ≥ 5면 주의 / ≥ 10이면 심각임.
상관행렬만 보면 쌍(pair) 상관만 보이지만, VIF는 여러 변수가 합쳐 만든 공선성까지 잡음.

VIF = 1 / (1 − Rⱼ²)

Rⱼ²이 1에 다가가면 VIF는 수직으로 치솟음

P.04통계 · 29

제거 · 합치기 · 정규화로 대응

VIF가 높으면 그냥 두지 않음. 세 갈래로 손봄.

첫째, 변수 제거임.
겹치는 둘 중 덜 중요한 쪽을 뺌 / 정보 손실은 작고 안정성은 크게 오름.

둘째, 합치기임.
비슷한 변수들을 하나로 묶거나(평균·합·지수) 주성분(PCA)으로 압축함.
여러 겹친 축을 직교하는 새 축으로 바꿔 공선성을 없앰.

셋째, 정규화(Ridge)임.
계수에 벌점을 줘 폭주를 누름 / 약간의 편향을 받고 분산을 크게 줄임.
데이터를 더 모으거나 변수를 중심화하는 것도 도움이 됨.

왜 “계수만” 망가지고 예측은 멀쩡한가 (펼치기)

공선성은 설계행렬을 거의 특이(near-singular)하게 만듦.
그래서 X'X의 역행렬이 폭주하고, 각 계수의 분산이 커짐.
하지만 적합값 ŷ는 변수들의 합쳐진 효과라 안정적임.
그래서 새 데이터의 x 패턴이 학습 때와 비슷하면 예측은 잘 나옴 / 개별 계수 해석만 못 믿음.

공선성을 줄이는 세 갈래

공선성 대응

방법	하는 일
변수 제거	겹치는 둘 중 하나 뺌가장 간단·효과적
합치기 (PCA)	직교하는 새 축으로 압축겹친 축 자체를 없앰
정규화 (Ridge)	계수에 벌점 부과분산↓ 편향 약간↑
데이터 추가	표본·변동 키우기구별할 근거 확보

P.05통계 · 29

정리 — 겹치면 흔들린다

다중공선성은 설명변수끼리 강하게 상관된 상태임. 계수가 불안정해짐.

예측이 아니라 개별 계수 해석이 망가짐 / 누구의 효과인지 분리가 안 됨.
진단은 VIF = 1/(1−Rⱼ²) / ≥ 5 주의, ≥ 10 심각.
대응은 제거·합치기·정규화.

다음 강은 정규화 회귀임.
계수에 벌점을 주는 Ridge·Lasso로 공선성과 과적합을 함께 누르는 법으로 넘어감.

Q. 다중공선성이 문제인 이유는?

정답은 어느 변수의 효과인지 분리가 안 돼 계수가 불안정해지기 때문임.
설명변수끼리 거의 같이 움직이면 “한쪽만 바뀐” 상황이 데이터에 거의 없음.
그래서 계수 추정의 분산이 1/(1−ρ²)배로 부풀고, 표본마다 β̂이 크게 흔들림.
평균(편향)은 멀쩡해도 한 번의 추정값은 못 믿게 됨.

공선성 한 장 요약

다중공선성 요약

질문	답
무엇이 문제?	계수 불안정효과 분리 안 됨
예측은?	대체로 멀쩡ŷ는 안정적
진단	VIF≥5 주의 ≥10 심각
대응	제거·합치기·정규화분산을 줄임