스킬캠퍼스
35강 · 결측치와 이상치
강의

오늘 끝나면

결측치와 이상치

  • 결측치와 이상치의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 결측치와이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

비어 있고 튀는 값 — 더러운 데이터 다루기 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 35

결측치와
이상치

현실 데이터엔 빈칸과 튀는 값이 섞임.
빈칸은 결측치, 튀는 값은 이상치임.
어떻게 다루느냐가 분석 결과를 통째로 바꿈 / 무턱대고 지우면 편향임.

P.01통계 · 35

빈칸과 튀는 값

교과서 데이터는 표가 꽉 차 있고 점들이 가지런함. 현실은 안 그럼.

어떤 칸은 비어 있음 — 응답자가 나이를 안 적음, 센서가 잠깐 끊김.
이 빈칸이 결측치(missing value)임 / 코드에선 NA·NaN·null로 찍힘.

어떤 점은 무리에서 멀리 떨어져 튐 — 월급 칸에 999999, 키 칸에 250cm.
이 튀는 값이 이상치(outlier)임 / 나머지 분포와 동떨어진 관측치임.

둘 다 그냥 두면 평균·분산·회귀선을 왜곡함.
그렇다고 무턱대고 지우면 편향이 생김 / 모델 돌리기 전에 먼저 손봐야 함.

결측치(빈칸) · 이상치(멀리 튄 점)
현실 데이터의 두 골칫거리
xy결측이상치

빈 동그라미 = 결측(값 없음) / 채운 점 = 이상치(무리에서 튐)

P.02통계 · 35

결측치 — 삭제냐 대치냐

빈칸을 만나면 선택지는 둘임. 그 행을 버리거나, 빈칸을 채우거나.

삭제(deletion)는 결측이 있는 행을 통째로 뺌.
간단하지만 표본이 줄고 / 결측이 무작위가 아니면 편향이 생김.

대치(imputation)는 빈칸을 추정값으로 채움.
평균 대치는 그 열 평균으로 / 분포가 한쪽으로 쏠리면 중앙값이 더 안전함.
모델 대치는 다른 변수로 빈칸을 예측해 채움(회귀·KNN) / 정교하지만 가정이 들어감.

어느 쪽도 공짜가 아님 / 삭제는 표본을, 대치는 분산을 깎음.
단순 평균 대치는 그 열의 분산을 줄이고 상관을 흐림 / 다 같은 값으로 메우니까.

행 삭제 vs 평균·중앙값·모델 대치
결측치 대치 — 빈칸 채우기
원본대치 후
2323
빈칸31평균으로 채움
2929
4141
빈칸31평균으로 채움

평균=31 / 삭제하면 행 ↓ · 평균 대치하면 그 열 분산 ↓

P.03통계 · 35

왜 비었나 — MCAR · MAR · MNAR

채우기 전에 물음 하나 / 이 칸은 왜 비었나?

MCAR(완전 무작위) / 결측이 아무 값과도 무관함 / 삭제·대치 다 무난함.
MAR(관측된 값에 의존) / 다른 칸으로 결측 여부가 설명됨 / 그 칸을 써서 대치하면 됨.

MNAR(결측 자체가 정보) / 비어 있는 이유가 그 값 때문임.
고소득자가 소득을 일부러 안 적는 식 / 단순 대치하면 편향이 그대로 박힘.

핵심은 결측을 함부로 무작위라 단정하지 않는 것임.
왜 비었는지 모르고 채우면 없던 패턴을 만들어 넣는 꼴임.

결측의 세 메커니즘
왜 비었나
MCAR완전 무작위
아무 값과도 무관삭제·대치 무난
MAR관측값에 의존
다른 칸이 설명그 칸으로 대치
MNAR결측이 곧 정보
그 값 때문에 빔단순 대치 → 편향

결측을 함부로 무작위라 단정하지 말 것

P.04통계 · 35

이상치 — 오류냐 진짜냐

이상치를 보면 먼저 물어야 함. 이건 실수인가, 진짜인가?

후보는 규칙으로 잡음.
IQR 규칙 / Q1−1.5·IQR 아래나 Q3+1.5·IQR 위는 의심.
z-점수 / 평균에서 표준편차 3배 넘게 떨어지면 의심(|z| > 3).

그다음 정체를 봄.
오류면 제거가 맞음 — 키 250cm, 나이 −3살은 입력 실수·단위 착오·센서 고장.
진짜면 보존해야 함 — 정말 연봉 10억인 사람, 정말 큰 지진 / 그게 신호임.

판단이 애매하면 지우지 말고 로버스트로 감.
평균 대신 중앙값, 표준편차 대신 IQR·MAD / 튀는 값에 둔감한 통계로 바꾸는 길임.

IQR·z-점수로 후보 잡고 정체 확인
IQR 울타리 밖 = 후보
Q1Q3중앙값+1.5·IQR이상치

울타리 밖이라고 다 오류는 아님 / 정체부터 확인

P.05통계 · 35

처리가 통계·회귀선을 바꾼다

말로만 하면 안 와닿음. 처리 방법을 바꿔 보면 결과가 눈앞에서 움직임 / 오른쪽에서 확인.

오른쪽 데이터엔 빈칸 하나와 튀는 점 하나가 박혀 있음.
이상치를 켜고 끄면 평균과 회귀선이 그쪽으로 끌려갔다 풀려남.
결측을 삭제할 때와 평균으로 대치할 때, 평균·기울기가 서로 다르게 나옴.

중앙값은 튀는 점이 있어도 거의 안 흔들림 / 로버스트하다는 뜻임.
교훈은 하나 / 처리 방법은 중립이 아니라 결론을 바꾸는 선택임. 그래서 기록을 남겨야 함.

Q. 이상치를 무조건 다 지우면?진짜 신호를 버려 편향이 생길 수 있음.
이상치가 다 오류는 아님 / 부자 한 명, 초대형 주문, 희귀 사건은 진짜 값임.
이런 진짜를 잘라내면 분포의 꼬리가 사라지고 분산이 줄어 / 모델이 현실보다 좁게 학습됨.
그래서 먼저 오류인지 진짜인지 가린 뒤, 진짜면 살리거나 로버스트 통계로 감.
삭제·대치 토글 → 평균·회귀선 이동
처리 비교 · 결측 + 이상치
결측치(x=4, 빈칸) 처리
이상치(x=7, 아래로 튐) 처리
평균 3.87
평균
3.87
중앙값
3.58
기울기 a
0.43

이상치 보존 — 아래로 튄 점이 평균을 끌어내려 회귀선이 눕는다. 평균(3.87)과 중앙값(3.58)이 0.29 벌어진다 — 중앙값이 더 버틴다. 결측은 평균으로 채움.

3줄 요약

  1. 1비어 있고 튀는 값 — 더러운 데이터 다루기
  2. 2결측치와 이상치은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

결측치와

비어 있고 튀는 값 — 더러운 데이터 다루기

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터