오늘 끝나면
포아송 회귀
- ✓포아송 회귀의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 포아송이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
몇 건 발생? — 드문 사건의 개수 모델 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 15
포아송
회귀
몇 건 발생? — 정해진 기간의 드문 사건 개수를 모델링함.
콜센터 시간당 전화 수, 하루 교통사고 건수 같은 것.
설명변수로 그 평균 발생률 λ를 예측함.
개수를 세는 데이터
어떤 데이터는 “크기”가 아니라 “몇 번”임.
한 시간에 걸려온 전화 수
하루에 난 교통사고 건수
한 페이지의 오타 개수
이런 건 전부 사건의 개수임.
개수는 셀 수 있는 숫자라 모양이 정해져 있음.
0, 1, 2, 3… 만 나옴.
음수 개수도 없고 2.7건 같은 소수도 없음.
그래서 키·몸무게 같은 연속값 모델(선형회귀)을 그냥 쓰면 안 맞음.
개수 전용 분포가 필요함 / 그게 포아송 분포임.
| 한 시간 전화 수 | 3건 |
| 하루 교통사고 | 0건 |
| 페이지당 오타 | 2건 |
| −1건 | −1건 |
| 2.7건 | 2.7건 |
λ = 평균 발생률, P(k) = k건 날 확률
포아송 분포는 평균 발생률 λ 하나로 정해짐.
λ(람다)는 정해진 기간에 평균 몇 건 나는지임.
시간당 평균 전화가 λ=2.5통이라는 식.
그러면 정확히 k건이 올 확률을 식으로 줌.
P(X=k) = e^(−λ) · λ^k / k!
오른쪽에서 직접 굴려봄.
λ 슬라이더를 내리면 확률이 0~1건에 몰림.
λ 를 키우면 봉우리가 오른쪽으로 가며 종모양에 가까워짐.
막대를 클릭하면 그 k건이 올 확률이 강조됨.
왜 e와 k! 이 나오나 (심화)
한 시간을 아주 잘게 쪼갠 칸들이 있다 치셈. 각 칸에서 사건이 날 확률은 아주 작고, 칸 수는 아주 많음.이 “드문 사건 · 많은 기회” 상황의 이항분포를 칸을 무한히 쪼개는 극한으로 보내면 포아송이 나옴.
그 극한에서 (1 − λ/n)^n → e^(−λ) 가 튀어나오고, k건을 고르는 경우의 수에서 k! 이 따라옴.
포아송의 평균도 분산도 둘 다 λ로 같다는 게 특징임.
λ를 작게 하면 확률이 0~1건에 몰림.
λ를 키우면 봉우리가 오른쪽으로 가며 종모양에 가까워짐.
봉우리는 평균 λ 근처임 / 막대 높이 합은 항상 1임.
λ가 작으면 몰리고, 크면 퍼진다
λ 하나가 분포의 모양을 통째로 정함.
λ가 작으면 (드문 사건) 대부분 0~1건임.
가끔만 2건 이상이 옴 / 봉우리가 왼쪽 끝에 붙음.
λ가 커지면 봉우리가 오른쪽으로 이동함.
분포가 넓게 퍼지며 정규분포(종모양)와 비슷해짐.
봉우리(가장 흔한 개수)는 항상 평균 λ 근처임.
그래서 λ만 알면 “보통 몇 건쯤 오나”가 바로 보임.
회귀로 λ를 변수로 예측한다
여기까진 λ가 고정이었음. 근데 λ는 상황마다 다름.
점심시간 콜센터는 전화가 몰리고 새벽엔 뜸함.
비 오는 날은 사고가 늘고 맑은 날은 줌.
즉 λ가 시간·날씨 같은 변수에 따라 변함.
포아송 회귀는 그 λ를 설명변수로 예측함.
ln(λ) = β₀ + β₁x₁ + β₂x₂ + …
λ는 음수가 될 수 없으니 로그를 씌워 직선으로 맞춤.
이걸 다시 e 씌워 되돌리면 항상 양수 λ가 나옴.
변수를 넣으면 “이 조건에선 평균 몇 건”을 예측하는 모델이 됨.
로그 씌워 직선으로, 되돌릴 땐 e — λ는 늘 양수
언제 포아송 회귀를 쓰나
정리하면, 결과값이 “개수”일 때 포아송 회귀를 씀.
연속값(키, 매출액)이면 선형회귀
예/아니오(합격, 클릭)면 로지스틱 회귀
개수(전화 수, 사고 건수)면 포아송 회귀
한 가지 주의 / 포아송은 평균과 분산이 같다고 가정함.
실제 데이터가 그보다 더 흩어져 있으면(과산포) 음이항회귀 같은 걸 씀.
그래도 출발점은 언제나 포아송임.
Q. 포아송 회귀가 다루는 데이터 종류는?
정해진 기간/공간에서 일어난 사건의 개수(횟수) 데이터임.0, 1, 2… 처럼 음수도 소수도 없는 셀 수 있는 값임.
예: 시간당 전화 수, 하루 교통사고 건수, 페이지당 오타 수.
| 결과값 | 모델 |
|---|---|
| 연속값키, 매출액 | 선형회귀 |
| 예 / 아니오합격, 클릭 | 로지스틱 회귀 |
| 개수 (0,1,2…)전화 수, 사고 건수 | 포아송 회귀 |