오늘 끝나면
결정계수 R²
- ✓결정계수 R²의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 결정계수이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
모델이 데이터의 분산을 얼마나 설명하나 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 24
결정계수
R²
모델이 데이터의 분산을 얼마나 설명하나 — 그 비율임.
R² = 1 − SSR/SST / 잔차 대 전체.
1이면 완벽, 0이면 평균만큼, 음수면 평균보다 나쁨.
기준은 평균선
R²를 알려면 먼저 “아무것도 안 했을 때”가 어디인지 정해야 함.
x를 안 쓰고 y만 맞히라면 최선은 y의 평균 ȳ임.
평균선이 가장 멍청한 모델의 기준선임.
이 평균선 기준 빗나감을 다 모은 게 전체제곱합임.
SST = Σ(yᵢ − ȳ)² / 데이터가 원래 가진 전체 분산임.
좋은 모델이라면 이 SST 중 상당 부분을 자기가 설명해야 함.
못 설명하고 남은 양이 잔차임 / 다음 칸으로 이어짐.
회색 선분이 전체 빗나감 / 모델 없을 때의 출발선
R² = 1 − 잔차/전체
회귀선을 그으면 평균선보다 점에 더 붙음. 그만큼 빗나감이 줄어듦.
회귀선 기준 남은 빗나감이 잔차제곱합임.
SSR = Σ(yᵢ − ŷᵢ)² / 모델이 못 설명한 양.
전체(SST)에서 못 설명한 비율(SSR/SST)을 빼면 설명한 비율이 나옴.
R² = 1 − SSR/SST.
SSR이 0이면 R²=1 / 점이 직선에 딱 붙은 완벽한 설명임.
SSR이 SST와 같으면 R²=0 / 회귀선이 평균선만큼밖에 못 함.
SSR이 SST보다 크면 R²<0 / 평균선보다도 나쁜 모델임.
평균선→회귀선=설명된 분산, 회귀선→점=잔차. 합이 전체임
점 퍼짐 ↔ R²
R²는 결국 점들이 직선에 얼마나 붙어 있느냐의 척도임.
오른쪽에서 직접 해봄.
점 퍼짐 슬라이더를 왼쪽으로 밀면 점이 회귀선에 달라붙고 R²가 1에 가까워짐.
오른쪽으로 밀면 점이 흩어지고 R²가 0으로 떨어짐.
파란 막대가 설명된 분산 비율임 / R²×100%.
SSR과 SST 숫자도 같이 움직임 / 1 − SSR/SST가 그대로 R²로 떨어지는 걸 확인해 보셈.
주의: R²는 직선이 점에 얼마나 잘 맞나만 말함.
관계가 곡선이어도 R²만 보면 못 잡음 / 항상 잔차 그림도 같이 봐야 함.
왼쪽 = 점이 직선에 딱 붙음 → R²≈1. 오른쪽 = 마구 흩어짐 → R²→0.
변수 늘면 R²는 무조건 오름
R²엔 함정이 있음. 변수를 더 넣으면 R²는 절대 안 내려감.
변수 하나를 더 끼우면 모델이 선택지가 늘어 잔차를 더 줄일 수 있음.
쓸모없는 변수, 심지어 난수를 넣어도 R²는 조금이라도 오르거나 그대로임.
그래서 변수가 다른 모델끼리 R²로 비교하면 변수 많은 쪽이 무조건 유리해 보임.
진짜 좋아진 건지 그냥 변수만 늘린 건지 구분이 안 됨.
해결은 변수 개수에 벌점을 매기는 조정 R²임.
R²_adj = 1 − (1−R²)·(n−1)/(n−p−1)
n은 표본 수, p는 변수 수 / 쓸모없는 변수를 넣으면 오히려 떨어짐.
조정 R²가 떨어지는 이유 (펼치기)
R²는 SSR/SST로 잔차만 봄.조정 R²는 (n−1)/(n−p−1) 배율로 자유도를 반영함.
변수 p가 늘면 분모 n−p−1이 줄어 배율이 커짐 / 잔차가 그만큼 안 줄면 값이 내려감.
그래서 변수가 제 몫을 할 때만 조정 R²가 오름.
위(진한)=R²는 계속 오름 / 아래(연한)=조정 R²는 난수 넣으면 내려감
정리 — 설명한 분산의 비율
결정계수 R²는 모델이 데이터의 분산을 설명한 비율임 / 1 − SSR/SST.
1이면 완벽, 0이면 평균만큼, 음수면 평균보다 못함.
변수를 늘리면 무조건 오르니 변수 수가 다르면 조정 R²로 비교함.
단, R²가 높다고 모델이 옳은 건 아님 / 곡선·이상치·외삽은 못 잡음.
다음 강은 과적합과 편향-분산임 / R²가 높은데 새 데이터엔 망하는 경우로 넘어감.
Q. R² = 0.8의 뜻은?
정답은 데이터 분산의 80%를 모델이 설명함임.전체제곱합 SST 중 80%를 회귀선이 설명하고, 남은 20%만 잔차(SSR)로 남았다는 뜻임.
R² = 1 − SSR/SST = 1 − 0.2 = 0.8.
단, 80%가 “정확도”는 아님 / 어디까지나 설명된 분산의 비율임.
| 값 | 뜻 |
|---|---|
| R² = 1 | 완벽 설명SSR = 0, 점이 직선에 붙음 |
| R² = 0 | 평균만큼회귀선이 평균선과 동급 |
| R² < 0 | 평균보다 나쁨SSR > SST |
| 변수 추가 | 조정 R²로R²는 무조건 오르니까 |