오늘 끝나면
로지스틱 회귀
- ✓로지스틱 회귀의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 로지스틱이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
했냐 안 했냐? — 확률 0~1로 누르는 S곡선 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 14
로지스틱
회귀
했냐 안 했냐? — 0/1 결과를 예측하는 회귀임.
직선이 아니라 S곡선으로 0~1 확률을 냄.
임계값을 넘으면 1로 분류함.
0/1 결과엔 직선이 안 맞는다
선형회귀(13강)는 연속값용임. 키·매출·온도처럼 죽 이어진 숫자.
근데 합격/불합격, 클릭/안클릭, 생존/사망은 둘 중 하나임.
답이 0 아니면 1임.
여기에 직선을 그으면 문제가 생김.
직선은 위아래로 끝없이 뻗음 → 확률이 1.4나 -0.3처럼 범위를 벗어남.
확률은 0~1 안에 있어야 하는데 직선은 그 약속을 못 지킴.
오른쪽 끝에서 직선이 1을 넘어버림 — 확률이 될 수 없음
직선을 S곡선으로 눌러 0~1로
그래서 직선을 S자(시그모이드)로 눌러버림.
양 끝을 0과 1에 딱 붙게 휘는 곡선임.
식은 p = 1 / (1 + e^(-(β₀+β₁x)))임.
입력 x가 아무리 커져도 결과는 1을 못 넘고,
아무리 작아져도 0 밑으로 못 내려감 → 항상 0~1.
오른쪽에서 직접 굴려봄.
기울기 β를 키우면 S가 가팔라짐 / 작으면 완만해짐.
임계값을 옮기면 빨간 경계선이 좌우로 움직이며 정답·오답이 바뀜.
빨간 세로선 오른쪽은 1(합격)로 예측, 왼쪽은 0임.
예측이 실제와 다른 점은 빨강이 됨(공부 적게 했는데 붙은 학생 등).
임계값을 올리면 경계가 오른쪽으로 가 더 깐깐해짐.
출력은 확률, 0~1 사이
로지스틱이 직접 내놓는 건 0이나 1이 아님. 확률임.
공부 2시간이면 합격 확률 0.1, 5시간이면 0.6, 8시간이면 0.95 — 이런 식임.
곡선의 높이가 곧 그 사람의 합격 확률임.
그래서 단순히 “붙는다/떨어진다”보다 풍부함.
얼마나 자신 있게 예측하는지(0.51인지 0.99인지)까지 알려줌.
임계값 넘으면 1로 분류
확률을 0/1 답으로 바꾸려면 선을 하나 그음. 그게 임계값임.
보통 0.5를 씀.
확률이 0.5 이상이면 1(합격), 미만이면 0(불합격)으로 분류함.
임계값은 상황 따라 바꿈.
암 진단처럼 놓치면 큰일이면 임계값을 낮춰 의심을 더 많이 1로 잡음.
스팸처럼 오탐이 짜증나면 임계값을 높여 확실할 때만 1로 함.
계수는 로그오즈로 해석
선형회귀 계수는 “x 1 늘면 y가 β만큼”이었음. 로지스틱은 좀 다름.
로지스틱의 계수 β는 로그오즈에 대한 기울기임.
오즈(odds)는 p / (1-p) — 될 확률 대 안 될 확률의 비율.
그래서 해석은 이렇게 함.
x가 1 늘면 로그오즈가 β만큼 늘고, 오즈는 e^β 배가 됨.
β가 양수면 x가 클수록 1이 될 가능성↑, 음수면 ↓.
Q. 로지스틱 회귀가 직접 내놓는 출력은?
0~1 사이의 확률임.0이나 1을 바로 뱉는 게 아님.
그 확률을 임계값(보통 0.5)과 비교해서 그 다음에 0/1 분류로 바꿈.
| 확률 p | 오즈 p/(1-p) | 로그오즈 |
|---|---|---|
| 0.50 | 1 : 1 | 0.00 |
| 0.75 | 3 : 1 | +1.10 |
| 0.90 | 9 : 1 | +2.20 |
| 0.25 | 1 : 3 | -1.10 |