스킬캠퍼스
33강 · ROC 곡선과 AUC
강의

오늘 끝나면

ROC 곡선과 AUC

  • ROC 곡선과 AUC의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 ROC이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

임계값을 넘나들며 분류기를 통째로 평가 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 33

ROC 곡선과
AUC

임계값 하나에 묶이지 말고 / 전부 다 훑어 평가하는 법임.
임계값을 0→1로 쭉 바꾸며 (FPR, 재현율)을 찍으면 ROC 곡선임.
그 아래 면적이 AUC / 분류기 전체 능력을 한 수로 요약함.

P.01통계 · 33

임계값 하나로는 못 정함

확률을 내놓는 분류기는 마지막에 선을 하나 그음.
점수 ≥ t면 양성, 아니면 음성 / 이 t가 임계값임.

t를 낮추면 양성을 많이 잡음 → 재현율↑ / 대신 음성도 양성이라 우김 → 거짓양성↑.
t를 높이면 반대로 신중해짐 → 거짓양성↓ / 대신 놓치는 양성↑ → 재현율↓.

그래서 임계값 한 값만 보면 분류기의 한 면만 봄.
0.5에선 좋아 보여도 0.3에선 엉망일 수 있음.

평가하려면 t를 한 점에 묶지 말고 / 0부터 1까지 전부 훑어야 함.
그 훑은 자취가 다음 장의 ROC임.

임계값을 옮기면 재현율·FPR이 같이 흔들림
임계값 t 하나 → 두 수가 같이 움직임
t재현율FPR
2.2높게 — 신중0.420.01
1.0중간0.840.16
-0.2낮게 — 너그러움0.990.58

t를 내릴수록 재현율↑ FPR↑ 동반 / 한 값만 보면 한 면만 봄

P.02통계 · 33

ROC = 임계값을 넘나든 자취

임계값 t를 1쪽 높은 데서 0쪽 낮은 데로 쭉 내림. 매 t마다 두 수를 잼.

세로축은 재현율(TPR) = TP / (TP + FN) / 진짜 양성을 얼마나 잡았나.
가로축은 거짓양성률(FPR) = FP / (FP + TN) / 진짜 음성을 얼마나 잘못 울렸나.

t가 아주 높으면 아무도 양성이라 안 함 → (0, 0).
t가 아주 낮으면 다 양성이라 함 → (1, 1).
그 사이를 t가 움직이며 찍은 점들을 이으면 곡선임.

이게 ROC(Receiver Operating Characteristic)임.
한 점이 아니라 임계값 전부를 한 그림에 담은 것임.

가로 FPR · 세로 재현율, 점을 이은 궤적
(FPR, 재현율) 자취 = ROC
t=2.4t=0.9t=-0.6(0,0)(1,1)FPR →재현율 →

t 높음 (0,0) → t 낮음 (1,1) / 점을 이으면 곡선임

P.03통계 · 33

왼쪽 위로 붙을수록 좋음

좋은 분류기의 ROC는 왼쪽 위 모서리 (0, 1)로 바짝 붙음.

(0, 1)은 거짓양성 0인데 진짜 양성은 다 잡은 자리 / 완벽임.
곡선이 거기 가까울수록 / 낮은 FPR에서 이미 높은 재현율을 냄.

대각선(왼아래→오른위)은 동전 던지기임.
잡은 양성 비율 = 잘못 울린 음성 비율 / 양·음을 못 가린 분류기임.
곡선이 대각선 아래로 처지면 찍기보다도 못함(뒤집으면 됨).

오른쪽에서 직접 해봄.
겹침을 떨어뜨리면 두 종이 갈리고 ROC가 좌상단으로 솟음 / 붙이면 대각선으로 내려앉음.
임계값 손잡이로 점을 곡선 위에서 굴려 보셈.

겹침을 바꾸면 곡선이 살아 움직임
ROC 그리기 · 겹침을 바꿔 보셈
음성 N(0,1) · 양성 N(d,1)임계값 t=0.72
t
◼ 음성◼ 양성→ 음영 = 양성 판정
ROC — FPR(가로) vs TPR=재현율(세로)
FPRTPR01
⚫ 현재 임계값┄ 대각선 = 찍기
임계값 t — 좌우로 쓸기TPR 0.76 · FPR 0.24
분리도 d — 두 분포 거리1.44
0 — 완전 겹침멀수록 — 잘 갈림
AUC (사다리꼴)

0.846

분류 능력

쓸 만함

검산 Φ(d/√2)=0.846

겹친 만큼 ROC가 대각선 쪽으로 내려앉음 — AUC는 임계값과 무관하게 분류기 전체 능력을 한 수로 요약함.

P.04통계 · 33

AUC = 곡선 아래 면적

곡선 하나를 수 하나로 요약하고 싶음. 그게 AUC — 곡선 아래 면적임.

ROC가 차지하는 면적을 0~1로 잼.
AUC = 1.0 완벽 / 0.5 무작위 찍기 / < 0.5 찍기보다 못함.

AUC엔 깔끔한 뜻이 하나 더 있음.
무작위로 양성 하나·음성 하나를 뽑았을 때 / 양성 점수가 음성보다 높을 확률임.
AUC = P(점수₊ > 점수₋) / 그래서 순위만 맞으면 됨.

핵심은 AUC가 임계값과 무관하다는 것임.
선을 어디 긋든 상관없이 / 분류기가 양·음을 줄 세우는 전체 능력을 한 수로 평가함.

AUC를 면적으로 어떻게 구하나 (펼치기)ROC 점들을 FPR 증가 순서로 늘어놓고 / 이웃한 점 사이를 사다리꼴로 잘라 면적을 더함.
AUC ≈ Σ (TPRᵢ + TPRᵢ₋₁)/2 · (FPRᵢ − FPRᵢ₋₁)
이게 사다리꼴 적분임 / 오른쪽 Lab의 AUC도 이렇게 계산함.
순위 정의와도 같음: 모든 (양성, 음성) 쌍 중 양성 점수가 더 높은 쌍의 비율 = Mann-Whitney U / (n₊·n₋).
0.5 찍기 · 1.0 완벽, 그 사이
곡선 아래 면적 = AUC

0.97

잘 갈림

0.80

쓸 만함

0.50

찍기

면적 1에 가까울수록 좌상단에 붙음 / 0.5 = 대각선

P.05통계 · 33

정리 — 통째로 평가하는 한 수

ROC는 임계값을 0→1로 훑은 자취 / AUC는 그 아래 면적임.

왼쪽 위로 붙을수록 좋음 / 대각선(AUC 0.5)은 찍기.
AUC는 임계값 하나에 안 묶여 / 분류기의 줄 세우기 능력을 통째로 평가함.

주의도 있음. 양·음이 심하게 불균형하면 ROC는 너그러워 보일 수 있음.
그땐 정밀도-재현율 곡선(PR-AUC)이 더 솔직함 / 다음 강 흐름과 이어짐.

Q. AUC = 0.5는 무슨 뜻?정답은 무작위 찍기 수준 — 분류 능력이 없음임.
ROC가 대각선에 딱 붙은 상태 / 어떤 임계값을 골라도 재현율 = 거짓양성률임.
순위 관점으로도 양성 점수가 음성보다 높을 확률이 정확히 50% / 동전 던지기와 같음.
AUC가 0.5보다 작으면 찍기보다 못한 것이라 / 출력을 뒤집으면 0.5 위로 올라옴.
임계값 무관 · 불균형에 강함
통째로 평가하는 한 수
질문
ROC란?임계값 자취t를 0→1, (FPR, TPR)
좋은 곡선?좌상단 (0,1)낮은 FPR에 높은 재현율
AUC=1 / 0.5완벽 / 찍기곡선 아래 면적
AUC 뜻순위 확률P(점수₊ > 점수₋)
강점임계값 무관분류기 전체 능력

3줄 요약

  1. 1임계값을 넘나들며 분류기를 통째로 평가
  2. 2ROC 곡선과 AUC은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

ROC

임계값을 넘나들며 분류기를 통째로 평가

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터