31강 · 분류 평가: 혼동행렬

오늘 끝나면

분류 평가: 혼동행렬

✓분류 평가: 혼동행렬의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 분류이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

TP·FP·FN·TN — 맞고 틀림의 네 칸 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 31

분류 평가:
혼동행렬

분류가 맞고 틀림은 네 가지뿐임.
TP · TN · FP · FN — 이 네 칸이 혼동행렬임.
정확도 하나로 뭉뚱그리면 불균형에 속음.

P.01통계 · 31

분류는 맞고 틀림이 네 가지

분류는 “양성이냐 음성이냐”를 맞춤. 스팸/정상, 암/정상, 불량/정상처럼.

한 건의 결과는 두 축의 곱으로 정해짐.
하나는 모델의 판정(양성이라 했나, 음성이라 했나).
하나는 진짜 정답(실제로 양성이었나, 음성이었나).

판정 2가지 × 정답 2가지 = 네 칸임.
이 네 칸을 모아 둔 표가 혼동행렬 confusion matrix임.
분류 평가의 모든 지표가 여기서 나옴.

판정 × 정답 → 네 칸

판정 × 정답 = 네 칸

판정: 양성

판정: 음성

정답
양성

맞음

틀림

정답
음성

틀림

맞음

대각선(TP·TN)이 맞춘 칸 / 반대편 두 칸이 두 종류 오류임

P.02통계 · 31

TP · TN · FP · FN

네 칸엔 이름이 있음. 두 글자로 읽으면 헷갈리지 않음.

뒤 글자는 모델이 뭐라 판정했나임 — P(양성), N(음성).
앞 글자는 그 판정이 맞았나임 — T(맞음), F(틀림).

TP 맞게 양성 / 진짜 양성을 양성이라 함.
TN 맞게 음성 / 진짜 음성을 음성이라 함.
FP 거짓 양성 / 음성인데 양성이라 함 = 헛 경보.
FN 거짓 음성 / 양성인데 음성이라 함 = 놓침.

FP와 FN은 둘 다 오류지만 대가가 다름.
암 검진은 FN(놓침)이 치명적, 스팸함은 FP(정상 메일을 스팸으로)가 더 아픔.
그래서 둘을 하나로 뭉뚱그리면 안 됨.

이름 읽는 법: 앞은 맞췄나, 뒤는 뭐라 했나

앞=맞췄나(T/F) · 뒤=뭐라 했나(P/N)

TP	맞게 양성True Positive진짜 양성을 양성이라 함
TN	맞게 음성True Negative진짜 음성을 음성이라 함
FP	거짓 양성False Positive음성인데 양성 = 헛 경보
FN	거짓 음성False Negative양성인데 음성 = 놓침

P.03통계 · 31

임계값을 끌면 네 칸이 움직인다

모델은 보통 0/1이 아니라 점수(확률)를 냄. 그걸 양성/음성으로 자르는 게 임계값임.

오른쪽에서 직접 해봄.
점수축 위 점들 중 임계값 선 오른쪽은 양성으로 판정됨.
선을 끌면 TP·FP·FN·TN 네 칸과 정확도가 즉시 바뀜.

임계값을 내리면 더 많이 양성이라 함 → TP는 늘지만 FP(헛 경보)도 늚.
올리면 신중해져 FP는 줄지만 FN(놓침)이 늚.
한쪽을 줄이면 다른 쪽이 늚 / 공짜 점심은 없음.

정확도 한 숫자만 보면 이 맞바꿈이 안 보임.
그래서 네 칸을 통째로 봐야 함.

선을 옮기면 판정이 바뀜

혼동행렬 · 임계값을 끌어 보셈

점수 낮음 → 높음임계값 0.50

진짜 양성진짜 음성

양성 50 · 음성 50

예측: 양성

예측: 음성

진짜
양성

맞게 잡음

놓침

진짜
음성

헛 경보

맞게 거름

정확도 = (TP+TN) / 전체

83%= (47+36) / 100

임계값을 올리면 FN(놓침)이 늘고, 내리면 FP(헛 경보)가 늚. 공짜 점심 없음.

P.04통계 · 31

정확도 = (TP+TN) / 전체

가장 먼저 떠오르는 지표는 정확도임. 전체 중 맞춘 비율.

맞춘 칸은 대각선 두 개 — TP와 TN임.
정확도 = (TP + TN) / (TP + TN + FP + FN).
전체에서 맞게 분류한 비율임.

쉽고 직관적이라 기본값으로 많이 씀.
근데 분자가 TP와 TN을 똑같이 셈 — 양성을 잘 잡았는지 따로 안 봄.
이 무던함이 다음 장의 함정으로 이어짐.

맞춘 칸 ÷ 모든 칸

맞춘 대각선 ÷ 전체

맞음

정확도

(TP + TN)
──────────────
TP + TN + FP + FN

파란 두 칸(맞춘 것)을 전체로 나눈 비율임

P.05통계 · 31

불균형이면 정확도가 속인다

정확도가 높다고 좋은 모델이 아님. 데이터가 한쪽으로 쏠리면 정확도는 거짓말함.

불량률 1%인 공장을 보자. 100개 중 99개가 정상임.
아무 모델이나 “전부 정상”이라 찍으면 99개를 맞춤 → 정확도 99%.
숫자는 화려한데 불량은 단 하나도 못 잡음 / TP = 0.

정확도가 높았던 건 모델이 똑똑해서가 아니라 다수 클래스가 너무 많아서임.
드물지만 중요한 양성(암·사기·불량)을 찾는 문제일수록 정확도는 무력함.

그래서 다음 강에서 양성에 초점을 맞춘 지표로 넘어감.
잡은 것 중 진짜 비율(정밀도)과, 진짜 중 잡은 비율(재현율)임.

Q. 99%가 정상인 데이터에서 모델이 무조건 “정상”이라고만 답하면?

정확도는 99%로 아주 높게 나옴.
근데 양성(이상)은 하나도 못 잡음 — TP = 0, FN = 전부.
진짜 잡아야 할 1%를 통째로 놓쳤는데 정확도만 보면 완벽해 보임.
이게 정확도의 함정임 / 불균형 데이터에선 정밀도·재현율로 봐야 함.

99% 정상 데이터 · 다 정상이라 찍기

불량 1% · 다 “정상”이라 찍기

정상 99불량 1 (놓침)

정확도 = 99 / 100 = 99%

근데 불량은 0개 잡음 · TP = 0