스킬캠퍼스
14강 · 로지스틱 회귀
강의

오늘 끝나면

로지스틱 회귀

  • 로지스틱 회귀의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 로지스틱이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

했냐 안 했냐? — 확률 0~1로 누르는 S곡선 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 14

로지스틱
회귀

했냐 안 했냐? — 0/1 결과를 예측하는 회귀임.
직선이 아니라 S곡선으로 0~1 확률을 냄.
임계값을 넘으면 1로 분류함.

P.01통계 · 14

0/1 결과엔 직선이 안 맞는다

선형회귀(13강)는 연속값용임. 키·매출·온도처럼 죽 이어진 숫자.

근데 합격/불합격, 클릭/안클릭, 생존/사망은 둘 중 하나임.
답이 0 아니면 1임.

여기에 직선을 그으면 문제가 생김.
직선은 위아래로 끝없이 뻗음 → 확률이 1.4 -0.3처럼 범위를 벗어남.
확률은 0~1 안에 있어야 하는데 직선은 그 약속을 못 지킴.

합격/불합격에 선형회귀를 대보면
직선은 0~1을 벗어남
011 초과!

오른쪽 끝에서 직선이 1을 넘어버림 — 확률이 될 수 없음

P.02통계 · 14

직선을 S곡선으로 눌러 0~1로

그래서 직선을 S자(시그모이드)로 눌러버림.
양 끝을 0과 1에 딱 붙게 휘는 곡선임.

식은 p = 1 / (1 + e^(-(β₀+β₁x)))임.
입력 x가 아무리 커져도 결과는 1을 못 넘고,
아무리 작아져도 0 밑으로 못 내려감 → 항상 0~1.

오른쪽에서 직접 굴려봄.
기울기 β를 키우면 S가 가팔라짐 / 작으면 완만해짐.
임계값을 옮기면 빨간 경계선이 좌우로 움직이며 정답·오답이 바뀜.

기울기·임계값을 직접 움직여 보셈
로지스틱 분류기 · 직접 조절
기울기 β = 1.4 · 클수록 S가 가파름
완만 0.2가파름 4.0
임계값 = 0.50 · 넘으면 1(합격)로
0.050.95
출력 — 점 = 학생 · 곡선 = 합격 확률
00.51공부시간 0h10h
맞춤 (파랑)
10 / 13
정확도
77 %

빨간 세로선 오른쪽은 1(합격)로 예측, 왼쪽은 0임.
예측이 실제와 다른 점은 빨강이 됨(공부 적게 했는데 붙은 학생 등).
임계값을 올리면 경계가 오른쪽으로 가 더 깐깐해짐.

P.03통계 · 14

출력은 확률, 0~1 사이

로지스틱이 직접 내놓는 건 0이나 1이 아님. 확률임.

공부 2시간이면 합격 확률 0.1, 5시간이면 0.6, 8시간이면 0.95 — 이런 식임.
곡선의 높이가 곧 그 사람의 합격 확률임.

그래서 단순히 “붙는다/떨어진다”보다 풍부함.
얼마나 자신 있게 예측하는지(0.51인지 0.99인지)까지 알려줌.

공부 5시간 → 합격 확률 0.62
공부시간 → 합격 확률
2h
0.11
4h
0.34
5h
0.62
6h
0.81
8h
0.95
막대 길이 = 0~1 확률. 0/1이 아니라 그 사이 값이 나옴
P.04통계 · 14

임계값 넘으면 1로 분류

확률을 0/1 답으로 바꾸려면 선을 하나 그음. 그게 임계값임.

보통 0.5를 씀.
확률이 0.5 이상이면 1(합격), 미만이면 0(불합격)으로 분류함.

임계값은 상황 따라 바꿈.
암 진단처럼 놓치면 큰일이면 임계값을 낮춰 의심을 더 많이 1로 잡음.
스팸처럼 오탐이 짜증나면 임계값을 높여 확실할 때만 1로 함.

확률 → 0/1 결정
확률 → 임계값 → 0/1
공부 5h확률 0.62
임계값 0.5 확률 → 1 합격
공부 4h확률 0.34
임계값 0.5 > 확률 → 0 불합격
검은 세로선 = 임계값 0.5. 넘으면 1, 못 넘으면 0
P.05통계 · 14

계수는 로그오즈로 해석

선형회귀 계수는 “x 1 늘면 y가 β만큼”이었음. 로지스틱은 좀 다름.

로지스틱의 계수 β로그오즈에 대한 기울기임.
오즈(odds)는 p / (1-p) — 될 확률 대 안 될 확률의 비율.

그래서 해석은 이렇게 함.
x가 1 늘면 로그오즈가 β만큼 늘고, 오즈는 e^β 배가 됨.
β가 양수면 x가 클수록 1이 될 가능성↑, 음수면 ↓.

Q. 로지스틱 회귀가 직접 내놓는 출력은?0~1 사이의 확률임.
0이나 1을 바로 뱉는 게 아님.
그 확률을 임계값(보통 0.5)과 비교해서 그 다음에 0/1 분류로 바꿈.
β가 1 늘면 오즈가 e^β 배
확률 · 오즈 · 로그오즈
확률 p오즈 p/(1-p)로그오즈
0.501 : 10.00
0.753 : 1+1.10
0.909 : 1+2.20
0.251 : 3-1.10
로지스틱은 이 로그오즈를 x의 직선으로 모델링함

3줄 요약

  1. 1했냐 안 했냐? — 확률 0~1로 누르는 S곡선
  2. 2로지스틱 회귀은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

로지스틱

했냐 안 했냐? — 확률 0~1로 누르는 S곡선

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터