24강 · 결정계수 R²

오늘 끝나면

결정계수 R²

✓결정계수 R²의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 결정계수이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

모델이 데이터의 분산을 얼마나 설명하나 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 24

결정계수
R²

모델이 데이터의 분산을 얼마나 설명하나 — 그 비율임.
R² = 1 − SSR/SST / 잔차 대 전체.
1이면 완벽, 0이면 평균만큼, 음수면 평균보다 나쁨.

P.01통계 · 24

기준은 평균선

R²를 알려면 먼저 “아무것도 안 했을 때”가 어디인지 정해야 함.

x를 안 쓰고 y만 맞히라면 최선은 y의 평균 ȳ임.
평균선이 가장 멍청한 모델의 기준선임.

이 평균선 기준 빗나감을 다 모은 게 전체제곱합임.
SST = Σ(yᵢ − ȳ)² / 데이터가 원래 가진 전체 분산임.

좋은 모델이라면 이 SST 중 상당 부분을 자기가 설명해야 함.
못 설명하고 남은 양이 잔차임 / 다음 칸으로 이어짐.

아무 모델도 없을 때의 출발선

SST = Σ(y − ȳ)²

회색 선분이 전체 빗나감 / 모델 없을 때의 출발선

P.02통계 · 24

R² = 1 − 잔차/전체

회귀선을 그으면 평균선보다 점에 더 붙음. 그만큼 빗나감이 줄어듦.

회귀선 기준 남은 빗나감이 잔차제곱합임.
SSR = Σ(yᵢ − ŷᵢ)² / 모델이 못 설명한 양.

전체(SST)에서 못 설명한 비율(SSR/SST)을 빼면 설명한 비율이 나옴.
R² = 1 − SSR/SST.

SSR이 0이면 R²=1 / 점이 직선에 딱 붙은 완벽한 설명임.
SSR이 SST와 같으면 R²=0 / 회귀선이 평균선만큼밖에 못 함.
SSR이 SST보다 크면 R²<0 / 평균선보다도 나쁜 모델임.

SST를 SSR과 설명된 분산으로 쪼갬

전체 = 설명된 + 잔차

평균선→회귀선=설명된 분산, 회귀선→점=잔차. 합이 전체임

P.03통계 · 24

점 퍼짐 ↔ R²

R²는 결국 점들이 직선에 얼마나 붙어 있느냐의 척도임.

오른쪽에서 직접 해봄.
점 퍼짐 슬라이더를 왼쪽으로 밀면 점이 회귀선에 달라붙고 R²가 1에 가까워짐.
오른쪽으로 밀면 점이 흩어지고 R²가 0으로 떨어짐.

파란 막대가 설명된 분산 비율임 / R²×100%.
SSR과 SST 숫자도 같이 움직임 / 1 − SSR/SST가 그대로 R²로 떨어지는 걸 확인해 보셈.

주의: R²는 직선이 점에 얼마나 잘 맞나만 말함.
관계가 곡선이어도 R²만 보면 못 잡음 / 항상 잔차 그림도 같이 봐야 함.

노이즈를 키우면 R²가 무너짐

R² 시각화 · 점 퍼짐을 바꿔 보셈

설명된 분산 = R²0.86

86% 설명

점 퍼짐 (노이즈)35

왼쪽 = 점이 직선에 딱 붙음 → R²≈1. 오른쪽 = 마구 흩어짐 → R²→0.

SST

36.6

평균선 기준

SSR

5.1

회귀선 잔차

1−SSR/SST

0.86

= R²

P.04통계 · 24

변수 늘면 R²는 무조건 오름

R²엔 함정이 있음. 변수를 더 넣으면 R²는 절대 안 내려감.

변수 하나를 더 끼우면 모델이 선택지가 늘어 잔차를 더 줄일 수 있음.
쓸모없는 변수, 심지어 난수를 넣어도 R²는 조금이라도 오르거나 그대로임.

그래서 변수가 다른 모델끼리 R²로 비교하면 변수 많은 쪽이 무조건 유리해 보임.
진짜 좋아진 건지 그냥 변수만 늘린 건지 구분이 안 됨.

해결은 변수 개수에 벌점을 매기는 조정 R²임.
R²_adj = 1 − (1−R²)·(n−1)/(n−p−1)
n은 표본 수, p는 변수 수 / 쓸모없는 변수를 넣으면 오히려 떨어짐.

조정 R²가 떨어지는 이유 (펼치기)

R²는 SSR/SST로 잔차만 봄.
조정 R²는 (n−1)/(n−p−1) 배율로 자유도를 반영함.
변수 p가 늘면 분모 n−p−1이 줄어 배율이 커짐 / 잔차가 그만큼 안 줄면 값이 내려감.
그래서 변수가 제 몫을 할 때만 조정 R²가 오름.

쓸모없는 변수도 R²를 깎진 못함

R²↑ vs 조정 R²

변수 1개0.62 / 0.60

+ 의미 변수0.79 / 0.77

+ 난수 변수0.81 / 0.74

+ 난수 또0.82 / 0.69

위(진한)=R²는 계속 오름 / 아래(연한)=조정 R²는 난수 넣으면 내려감

P.05통계 · 24

정리 — 설명한 분산의 비율

결정계수 R²는 모델이 데이터의 분산을 설명한 비율임 / 1 − SSR/SST.

1이면 완벽, 0이면 평균만큼, 음수면 평균보다 못함.
변수를 늘리면 무조건 오르니 변수 수가 다르면 조정 R²로 비교함.

단, R²가 높다고 모델이 옳은 건 아님 / 곡선·이상치·외삽은 못 잡음.
다음 강은 과적합과 편향-분산임 / R²가 높은데 새 데이터엔 망하는 경우로 넘어감.

Q. R² = 0.8의 뜻은?

정답은 데이터 분산의 80%를 모델이 설명함임.
전체제곱합 SST 중 80%를 회귀선이 설명하고, 남은 20%만 잔차(SSR)로 남았다는 뜻임.
R² = 1 − SSR/SST = 1 − 0.2 = 0.8.
단, 80%가 “정확도”는 아님 / 어디까지나 설명된 분산의 비율임.

R²가 답하는 것·놓치는 것

R² 읽는 법

값	뜻
R² = 1	완벽 설명SSR = 0, 점이 직선에 붙음
R² = 0	평균만큼회귀선이 평균선과 동급
R² < 0	평균보다 나쁨SSR > SST
변수 추가	조정 R²로R²는 무조건 오르니까