오늘 끝나면
회귀 평가지표
- ✓회귀 평가지표의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 회귀이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
MSE·RMSE·MAE — 예측이 얼마나 빗나갔나 재기 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 23
회귀
평가지표
예측이 얼마나 빗나갔나를 숫자 하나로 잼.
잔차를 모으는 방식이 MSE · RMSE · MAE로 갈림.
낮을수록 좋음 / 모델 비교의 기준임.
잔차 = 예측 − 실제
회귀선이 모든 점을 지날 순 없음. 점마다 빗나감이 남음.
한 점의 예측값 ŷ에서 실제값 y를 뺀 게 잔차임.
잔차 = ŷ − y / 점과 직선의 세로 거리임.
위로 빗나가면 +, 아래로 빗나가면 −.
그냥 다 더하면 +와 −가 상쇄돼 0에 가까워짐 / 빗나간 양을 못 잼.
그래서 부호를 없애고 모음.
제곱으로 없애면 MSE 계열, 절댓값으로 없애면 MAE.
어느 쪽이든 잔차들을 한 숫자로 압축해 “얼마나 틀렸나”를 잼.
선분 하나가 잔차 / 이걸 제곱이든 절댓값이든으로 모음
MSE · RMSE — 제곱이라 큰 오차에 민감
첫 방식은 잔차를 제곱해 평균 냄. 그게 평균제곱오차 MSE임.
MSE = (1/n)·Σ(ŷᵢ − yᵢ)²
제곱이라 부호가 사라지고, 큰 잔차일수록 벌점이 제곱으로 커짐.
잔차 2는 벌점 4, 잔차 4는 벌점 16 / 멀리 튄 점이 값을 확 끌어올림.
단점은 단위가 제곱이라 직관이 안 됨 / y가 만원이면 MSE는 만원².
그래서 제곱근을 씌운 게 RMSE = √MSE임.
RMSE는 y와 같은 단위라 “평균 ±얼마 틀림”으로 바로 읽힘.
RMSE도 제곱을 거쳐 나온 값이라 큰 오차에 여전히 민감함.
항상 RMSE ≥ MAE가 성립함 / 둘이 벌어질수록 오차가 들쭉날쭉이라는 신호임.
잔차 2배 → 벌점 4배 / 큰 오차가 제곱으로 부풀어 값을 끌어올림
MAE — 절댓값이라 이상치에 강건
둘째 방식은 잔차의 절댓값을 평균 냄. 그게 평균절대오차 MAE임.
MAE = (1/n)·Σ|ŷᵢ − yᵢ|
벌점이 거리에 비례할 뿐 제곱처럼 폭증하지 않음.
잔차 2는 벌점 2, 잔차 4는 벌점 4 / 멀리 튄 점도 제 몫만큼만 반영됨.
그래서 이상치(튀는 한 점)에 강건함 / 데이터에 오류·극단값이 섞여도 덜 흔들림.
단위도 y 그대로라 해석이 쉬움.
정리하면 선택 기준이 갈림.
큰 오차를 특히 잡고 싶다 → MSE·RMSE
이상치에 휘둘리기 싫다 → MAE
둘을 같이 보면 오차 분포의 모양까지 읽힘.
| 잔차 | 제곱 (MSE) | |·| (MAE) |
|---|---|---|
| 1 | 1 | 1 |
| 2 | 4 | 2 |
| 3 | 9 | 3 |
| 4 | 16 | 4 |
절댓값은 거리에 비례 / 멀리 튄 점도 제 몫만큼만 반영 — 강건함
직접 흐트러뜨려 보기
말로는 와닿지 않음. 오른쪽에서 예측을 직접 흐트러뜨려 보셈.
슬라이더로 예측을 회귀선에서 띄우면 잔차가 커짐.
MSE · RMSE · MAE가 동시에 오름 / 낮을수록 좋은 값임.
이제 이상치 한 점 버튼을 눌러 보셈.
가운데 한 점만 예측이 멀리 튐.
MSE·RMSE 막대는 확 뛰는데 MAE는 조금만 움직임.
이게 핵심 차이임.
제곱(MSE·RMSE)은 그 한 점의 큰 오차를 크게 반영함.
절댓값(MAE)은 거리만큼만 반영해 덜 흔들림 / 강건함의 정체임.
검정 = 실제 · 파랑 = 예측 · 선분 = 잔차(예측−실제)
노이즈를 키우면 셋 다 오름 / RMSE는 MSE보다 점잖게 오름(√라서).
정리 — 잔차를 어떻게 모으나
회귀 평가지표는 잔차(예측−실제)를 한 숫자로 모은 것임.
MSE는 제곱 평균 / RMSE는 그 제곱근으로 원래 단위 / MAE는 절댓값 평균.
셋 다 낮을수록 좋고, 같은 데이터·같은 지표로 재야 모델 비교가 공정함.
제곱 계열은 큰 오차에 민감, 절댓값 계열은 이상치에 강건.
다음 강은 결정계수 R²임 / 오차의 크기가 아니라 “설명한 비율”로 모델을 평가하는 지표로 넘어감.
Q. RMSE가 MAE보다 이상치에 민감한 이유는?
오차를 제곱하기 때문임.MSE·RMSE는 잔차를 제곱해 모으므로 큰 오차가 제곱으로 부풀어 값에 크게 반영됨.
MAE는 잔차의 절댓값만 더해 거리에 비례할 뿐이라, 멀리 튄 한 점이 제 몫만큼만 들어가 덜 흔들림.
| 지표 | 정의 | 성질 |
|---|---|---|
| MSE | Σ잔차² / n단위² | 제곱·큰 오차 민감 |
| RMSE | √MSEy 단위 | 큰 오차 민감 |
| MAE | Σ|잔차| / ny 단위 | 이상치 강건 |