오늘 끝나면
평균·분산·표준편차
- ✓평균·분산·표준편차의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 평균이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
가운데(평균)와 퍼짐(분산) 한 쌍으로 데이터를 요약 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 03
평균·분산
·표준편차
데이터를 두 숫자로 요약함.
가운데가 어디인지 — 평균.
얼마나 퍼졌는지 — 분산·표준편차.
평균 = 데이터의 가운데
평균은 값을 다 더해 개수로 나눈 가운데임.
기호로 mean = (1/n) Σ xᵢ임.
말로 풀면 모든 값을 합치고, 값의 개수로 나누는 것임.
평균은 데이터를 한 점으로 누른 값임.
시소로 치면 좌우가 딱 균형 잡히는 받침점임.
그래서 “대표값”으로 가장 먼저 보는 숫자임.
(2 + 4 + 6 + 8 + 10) / 5
= 30 / 5
평균 = 6
분산 = 퍼짐 (편차 제곱의 평균)
평균만으론 부족함. 데이터가 평균 근처에 모였는지, 멀리 흩어졌는지를 모름.
그래서 각 값이 평균에서 떨어진 거리(편차)를 봄.
편차 = xᵢ − mean임.
그냥 더하면 +와 −가 상쇄돼 항상 0이 됨.
그래서 제곱해서 부호를 없애고 평균을 냄.
이게 분산 var = (1/n) Σ (xᵢ − mean)²임.
퍼질수록 거리가 커지고, 제곱이라 멀수록 더 크게 반영됨.
왜 그냥 절댓값 말고 제곱?
편차 합은 항상 0이라 못 씀. 절댓값도 퍼짐을 재긴 함.하지만 제곱은 미분이 매끄럽고, 큰 편차에 더 무겁게 벌점을 줌.
그래서 분산이 표준이 됨 / 단점은 단위가 제곱(예: cm²)이 된다는 것 → 다음 장에서 해결.
| 값 x | 편차 x−6 | 편차² |
|---|---|---|
| 2 | -4 | 16 |
| 4 | -2 | 4 |
| 6 | 0 | 0 |
| 8 | +2 | 4 |
| 10 | +4 | 16 |
(16 + 4 + 0 + 4 + 16) / 5
분산 = 8
표준편차 = √분산 (원래 단위로)
분산은 단위가 제곱이라 직관이 안 옴.
키가 cm면 분산은 cm²임.
그래서 제곱근을 씌워 원래 단위로 되돌림.
이게 표준편차 sd = √var임.
표준편차는 “값들이 평균에서 평균적으로 이만큼 떨어져 있다”는 거리임.
단위가 데이터와 같아 바로 읽힘 / 표준편차 5cm면 대체로 평균 ±5cm에 모여 있다는 뜻임.
그래서 퍼짐을 말할 땐 보통 표준편차를 씀.
8 cm²
2.83 cm
평균 같아도 퍼짐 다르면 다른 데이터
평균이 같다고 같은 데이터가 아님.
퍼짐이 다르면 전혀 다른 모습임.
오른쪽에서 점을 끌어 보셈.
파란 선은 평균, 파란 띠는 평균 ±표준편차임.
점을 옮길 때마다 평균·분산·표준편차가 즉시 다시 계산됨.
점들을 평균에 바짝 모으면 표준편차가 0에 가까워짐.
하나를 멀리 끌면 평균이 그쪽으로 끌려가고 띠가 확 넓어짐.
이상치 하나가 요약 숫자를 통째로 흔드는 걸 손으로 느낄 수 있음.
점 하나를 멀리 끌어 보셈.
평균이 그쪽으로 끌려가고 띠(±표준편차)가 넓어짐.
이상치는 평균·분산을 흔든다
평균과 분산은 모든 값을 다 더해 만든 숫자임.
그래서 극단값 하나에 약함.
한 명이 평균에서 멀리 떨어져 있으면 평균은 그쪽으로 끌려감.
분산은 편차를 제곱하니 멀수록 더 크게 부풀음 / 이상치 하나가 퍼짐을 통째로 키움.
그래서 요약 숫자를 볼 땐 항상 물어야 함.
이 평균을 이상치 하나가 끌고 간 건 아닌가?
(이상치에 덜 흔들리는 중앙값은 다음 강들에서 다룸.)
Q. 표준편차가 0이면 데이터는 어떤 상태인가?
정답은 모든 값이 똑같음임 (퍼짐이 전혀 없음).표준편차 0 → 분산 0 → 모든 편차 (xᵢ − mean)가 0.
즉 모든 값이 평균과 같음 = 데이터가 한 점에 다 모여 있음.