오늘 끝나면
결측치와 이상치
- ✓결측치와 이상치의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 결측치와이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
비어 있고 튀는 값 — 더러운 데이터 다루기 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 35
결측치와
이상치
현실 데이터엔 빈칸과 튀는 값이 섞임.
빈칸은 결측치, 튀는 값은 이상치임.
어떻게 다루느냐가 분석 결과를 통째로 바꿈 / 무턱대고 지우면 편향임.
빈칸과 튀는 값
교과서 데이터는 표가 꽉 차 있고 점들이 가지런함. 현실은 안 그럼.
어떤 칸은 비어 있음 — 응답자가 나이를 안 적음, 센서가 잠깐 끊김.
이 빈칸이 결측치(missing value)임 / 코드에선 NA·NaN·null로 찍힘.
어떤 점은 무리에서 멀리 떨어져 튐 — 월급 칸에 999999, 키 칸에 250cm.
이 튀는 값이 이상치(outlier)임 / 나머지 분포와 동떨어진 관측치임.
둘 다 그냥 두면 평균·분산·회귀선을 왜곡함.
그렇다고 무턱대고 지우면 편향이 생김 / 모델 돌리기 전에 먼저 손봐야 함.
빈 동그라미 = 결측(값 없음) / 채운 점 = 이상치(무리에서 튐)
결측치 — 삭제냐 대치냐
빈칸을 만나면 선택지는 둘임. 그 행을 버리거나, 빈칸을 채우거나.
삭제(deletion)는 결측이 있는 행을 통째로 뺌.
간단하지만 표본이 줄고 / 결측이 무작위가 아니면 편향이 생김.
대치(imputation)는 빈칸을 추정값으로 채움.
평균 대치는 그 열 평균으로 / 분포가 한쪽으로 쏠리면 중앙값이 더 안전함.
모델 대치는 다른 변수로 빈칸을 예측해 채움(회귀·KNN) / 정교하지만 가정이 들어감.
어느 쪽도 공짜가 아님 / 삭제는 표본을, 대치는 분산을 깎음.
단순 평균 대치는 그 열의 분산을 줄이고 상관을 흐림 / 다 같은 값으로 메우니까.
| 원본 | 대치 후 |
|---|---|
| 23 | 23 |
| 빈칸 | 31평균으로 채움 |
| 29 | 29 |
| 41 | 41 |
| 빈칸 | 31평균으로 채움 |
평균=31 / 삭제하면 행 ↓ · 평균 대치하면 그 열 분산 ↓
왜 비었나 — MCAR · MAR · MNAR
채우기 전에 물음 하나 / 이 칸은 왜 비었나?
MCAR(완전 무작위) / 결측이 아무 값과도 무관함 / 삭제·대치 다 무난함.
MAR(관측된 값에 의존) / 다른 칸으로 결측 여부가 설명됨 / 그 칸을 써서 대치하면 됨.
MNAR(결측 자체가 정보) / 비어 있는 이유가 그 값 때문임.
고소득자가 소득을 일부러 안 적는 식 / 단순 대치하면 편향이 그대로 박힘.
핵심은 결측을 함부로 무작위라 단정하지 않는 것임.
왜 비었는지 모르고 채우면 없던 패턴을 만들어 넣는 꼴임.
결측을 함부로 무작위라 단정하지 말 것
이상치 — 오류냐 진짜냐
이상치를 보면 먼저 물어야 함. 이건 실수인가, 진짜인가?
후보는 규칙으로 잡음.
IQR 규칙 / Q1−1.5·IQR 아래나 Q3+1.5·IQR 위는 의심.
z-점수 / 평균에서 표준편차 3배 넘게 떨어지면 의심(|z| > 3).
그다음 정체를 봄.
오류면 제거가 맞음 — 키 250cm, 나이 −3살은 입력 실수·단위 착오·센서 고장.
진짜면 보존해야 함 — 정말 연봉 10억인 사람, 정말 큰 지진 / 그게 신호임.
판단이 애매하면 지우지 말고 로버스트로 감.
평균 대신 중앙값, 표준편차 대신 IQR·MAD / 튀는 값에 둔감한 통계로 바꾸는 길임.
울타리 밖이라고 다 오류는 아님 / 정체부터 확인
처리가 통계·회귀선을 바꾼다
말로만 하면 안 와닿음. 처리 방법을 바꿔 보면 결과가 눈앞에서 움직임 / 오른쪽에서 확인.
오른쪽 데이터엔 빈칸 하나와 튀는 점 하나가 박혀 있음.
이상치를 켜고 끄면 평균과 회귀선이 그쪽으로 끌려갔다 풀려남.
결측을 삭제할 때와 평균으로 대치할 때, 평균·기울기가 서로 다르게 나옴.
중앙값은 튀는 점이 있어도 거의 안 흔들림 / 로버스트하다는 뜻임.
교훈은 하나 / 처리 방법은 중립이 아니라 결론을 바꾸는 선택임. 그래서 기록을 남겨야 함.
Q. 이상치를 무조건 다 지우면?
진짜 신호를 버려 편향이 생길 수 있음.이상치가 다 오류는 아님 / 부자 한 명, 초대형 주문, 희귀 사건은 진짜 값임.
이런 진짜를 잘라내면 분포의 꼬리가 사라지고 분산이 줄어 / 모델이 현실보다 좁게 학습됨.
그래서 먼저 오류인지 진짜인지 가린 뒤, 진짜면 살리거나 로버스트 통계로 감.
이상치 보존 — 아래로 튄 점이 평균을 끌어내려 회귀선이 눕는다. 평균(3.87)과 중앙값(3.58)이 0.29 벌어진다 — 중앙값이 더 버틴다. 결측은 평균으로 채움.