오늘 끝나면
다중공선성
- ✓다중공선성의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 다중공선성이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
변수끼리 겹치면 계수가 흔들림 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 29
다중
공선성
설명변수끼리 강하게 상관되면 계수가 불안정해짐.
누구의 효과인지 분리가 안 돼서 β̂가 들쭉날쭉 흔들림.
진단은 VIF / 대응은 제거·합치기·정규화임.
겹치는 변수는 효과를 못 가른다
다중회귀는 여러 x로 y를 설명함. 각 계수는 “그 변수만 1 늘 때 y 변화”를 뜻함.
근데 두 변수가 거의 같이 움직이면 문제임.
광고비와 노출수, 키와 발 크기처럼 한쪽이 늘면 다른 쪽도 따라 늚.
이 강한 상관이 다중공선성임.
회귀는 “x1만 바뀌고 x2는 고정”인 상황의 효과를 재려 함.
근데 둘이 늘 붙어 다니면 그 상황 자체가 데이터에 거의 없음.
그래서 누구의 효과인지 갈라낼 근거가 부족해짐.
핵심은 예측이 망가지는 게 아님.
망가지는 건 개별 계수 해석임 / 누가 진짜 끌어올렸는지 모름.
겹친 부분은 누구 몫인지 못 정함 → 계수가 그 사이를 헤맴
계수가 흔들린다
공선성이 세지면 계수 추정의 분산이 커짐. 말 그대로 β̂가 흔들림.
오른쪽에서 직접 해봄.
참 계수는 β1 = β2 = 1로 고정임.
같은 데이터를 220번 새로 뽑아 매번 β̂1을 추정해 분포를 그림.
ρ를 0에서 0.99로 끌어올려 보셈.
평균은 1 근처에 머묾(편향은 안 생김).
근데 분포 폭이 점점 넓어짐 / 한 표본만 보면 β̂이 −1도, +3도 나옴.
이론적으로 계수 분산은 1/(1−ρ²)배로 부풂.
ρ = 0.95면 분산이 약 10배 / 표준오차는 약 3배 커짐.
그래서 t값이 작아지고, 진짜 효과도 “유의하지 않음”으로 묻힘.
폭이 넓을수록 추정이 들쭉날쭉 = 계수 불안정
VIF로 진단한다
공선성을 눈대중 말고 숫자로 잼. 그 숫자가 분산팽창계수 VIF임.
어떤 변수 xⱼ를 나머지 설명변수로 회귀시켜 결정계수 Rⱼ²을 구함.
그게 곧 “xⱼ가 다른 변수들로 얼마나 설명되나”임.
VIFⱼ = 1 / (1 − Rⱼ²).
Rⱼ²이 0이면 VIF = 1 / 완전히 독립.
Rⱼ²이 0.9면 VIF = 10 / 다른 변수로 90% 설명됨.
VIF는 그 변수 계수의 분산이 공선성 때문에 몇 배 부풀었는지를 직접 말함.
통상 기준은 VIF ≥ 5면 주의 / ≥ 10이면 심각임.
상관행렬만 보면 쌍(pair) 상관만 보이지만, VIF는 여러 변수가 합쳐 만든 공선성까지 잡음.
Rⱼ²이 1에 다가가면 VIF는 수직으로 치솟음
제거 · 합치기 · 정규화로 대응
VIF가 높으면 그냥 두지 않음. 세 갈래로 손봄.
첫째, 변수 제거임.
겹치는 둘 중 덜 중요한 쪽을 뺌 / 정보 손실은 작고 안정성은 크게 오름.
둘째, 합치기임.
비슷한 변수들을 하나로 묶거나(평균·합·지수) 주성분(PCA)으로 압축함.
여러 겹친 축을 직교하는 새 축으로 바꿔 공선성을 없앰.
셋째, 정규화(Ridge)임.
계수에 벌점을 줘 폭주를 누름 / 약간의 편향을 받고 분산을 크게 줄임.
데이터를 더 모으거나 변수를 중심화하는 것도 도움이 됨.
왜 “계수만” 망가지고 예측은 멀쩡한가 (펼치기)
공선성은 설계행렬을 거의 특이(near-singular)하게 만듦.그래서 X'X의 역행렬이 폭주하고, 각 계수의 분산이 커짐.
하지만 적합값 ŷ는 변수들의 합쳐진 효과라 안정적임.
그래서 새 데이터의 x 패턴이 학습 때와 비슷하면 예측은 잘 나옴 / 개별 계수 해석만 못 믿음.
| 방법 | 하는 일 |
|---|---|
| 변수 제거 | 겹치는 둘 중 하나 뺌가장 간단·효과적 |
| 합치기 (PCA) | 직교하는 새 축으로 압축겹친 축 자체를 없앰 |
| 정규화 (Ridge) | 계수에 벌점 부과분산↓ 편향 약간↑ |
| 데이터 추가 | 표본·변동 키우기구별할 근거 확보 |
정리 — 겹치면 흔들린다
다중공선성은 설명변수끼리 강하게 상관된 상태임. 계수가 불안정해짐.
예측이 아니라 개별 계수 해석이 망가짐 / 누구의 효과인지 분리가 안 됨.
진단은 VIF = 1/(1−Rⱼ²) / ≥ 5 주의, ≥ 10 심각.
대응은 제거·합치기·정규화.
다음 강은 정규화 회귀임.
계수에 벌점을 주는 Ridge·Lasso로 공선성과 과적합을 함께 누르는 법으로 넘어감.
Q. 다중공선성이 문제인 이유는?
정답은 어느 변수의 효과인지 분리가 안 돼 계수가 불안정해지기 때문임.설명변수끼리 거의 같이 움직이면 “한쪽만 바뀐” 상황이 데이터에 거의 없음.
그래서 계수 추정의 분산이 1/(1−ρ²)배로 부풀고, 표본마다 β̂이 크게 흔들림.
평균(편향)은 멀쩡해도 한 번의 추정값은 못 믿게 됨.
| 질문 | 답 |
|---|---|
| 무엇이 문제? | 계수 불안정효과 분리 안 됨 |
| 예측은? | 대체로 멀쩡ŷ는 안정적 |
| 진단 | VIF≥5 주의 ≥10 심각 |
| 대응 | 제거·합치기·정규화분산을 줄임 |