3강 · 평균·분산·표준편차

오늘 끝나면

평균·분산·표준편차

✓평균·분산·표준편차의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 평균이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

가운데(평균)와 퍼짐(분산) 한 쌍으로 데이터를 요약 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 03

평균·분산
·표준편차

데이터를 두 숫자로 요약함.
가운데가 어디인지 — 평균.
얼마나 퍼졌는지 — 분산·표준편차.

P.01통계 · 03

평균 = 데이터의 가운데

평균은 값을 다 더해 개수로 나눈 가운데임.

기호로 mean = (1/n) Σ xᵢ임.
말로 풀면 모든 값을 합치고, 값의 개수로 나누는 것임.

평균은 데이터를 한 점으로 누른 값임.
시소로 치면 좌우가 딱 균형 잡히는 받침점임.
그래서 “대표값”으로 가장 먼저 보는 숫자임.

다 더해 · 개수로 나눔

(2 + 4 + 6 + 8 + 10) / 5

= 30 / 5

평균 = 6

P.02통계 · 03

분산 = 퍼짐 (편차 제곱의 평균)

평균만으론 부족함. 데이터가 평균 근처에 모였는지, 멀리 흩어졌는지를 모름.

그래서 각 값이 평균에서 떨어진 거리(편차)를 봄.
편차 = xᵢ − mean임.
그냥 더하면 +와 −가 상쇄돼 항상 0이 됨.

그래서 제곱해서 부호를 없애고 평균을 냄.
이게 분산 var = (1/n) Σ (xᵢ − mean)²임.
퍼질수록 거리가 커지고, 제곱이라 멀수록 더 크게 반영됨.

왜 그냥 절댓값 말고 제곱?

편차 합은 항상 0이라 못 씀. 절댓값도 퍼짐을 재긴 함.
하지만 제곱은 미분이 매끄럽고, 큰 편차에 더 무겁게 벌점을 줌.
그래서 분산이 표준이 됨 / 단점은 단위가 제곱(예: cm²)이 된다는 것 → 다음 장에서 해결.

평균에서 떨어진 거리 → 제곱 → 평균

편차 → 제곱 → 평균

값 x	편차 x−6	편차²
2	-4	16
4	-2	4
6	0	0
8	+2	4
10	+4	16

(16 + 4 + 0 + 4 + 16) / 5

분산 = 8

P.03통계 · 03

표준편차 = √분산 (원래 단위로)

분산은 단위가 제곱이라 직관이 안 옴.
키가 cm면 분산은 cm²임.

그래서 제곱근을 씌워 원래 단위로 되돌림.
이게 표준편차 sd = √var임.

표준편차는 “값들이 평균에서 평균적으로 이만큼 떨어져 있다”는 거리임.
단위가 데이터와 같아 바로 읽힘 / 표준편차 5cm면 대체로 평균 ±5cm에 모여 있다는 뜻임.
그래서 퍼짐을 말할 땐 보통 표준편차를 씀.

제곱했던 걸 다시 풀어 원단위로

제곱근으로 원단위 복귀

분산 (단위가 제곱)

8 cm²

√ ↓

표준편차 (원래 단위)

2.83 cm

평균에서 대체로 ±2.83cm 안에 모여 있음

P.04통계 · 03

평균 같아도 퍼짐 다르면 다른 데이터

평균이 같다고 같은 데이터가 아님.
퍼짐이 다르면 전혀 다른 모습임.

오른쪽에서 점을 끌어 보셈.
파란 선은 평균, 파란 띠는 평균 ±표준편차임.
점을 옮길 때마다 평균·분산·표준편차가 즉시 다시 계산됨.

점들을 평균에 바짝 모으면 표준편차가 0에 가까워짐.
하나를 멀리 끌면 평균이 그쪽으로 끌려가고 띠가 확 넓어짐.
이상치 하나가 요약 숫자를 통째로 흔드는 걸 손으로 느낄 수 있음.

드래그 → 평균선·표준편차 띠 실시간

점을 드래그 · 평균선과 ±표준편차 띠가 따라옴

점 5개 — 좌우로 끌어 보셈

출력 — 요약 숫자

평균

50.0

분산

200.0

표준편차

14.1

점 하나를 멀리 끌어 보셈.
평균이 그쪽으로 끌려가고 띠(±표준편차)가 넓어짐.

P.05통계 · 03

이상치는 평균·분산을 흔든다

평균과 분산은 모든 값을 다 더해 만든 숫자임.
그래서 극단값 하나에 약함.

한 명이 평균에서 멀리 떨어져 있으면 평균은 그쪽으로 끌려감.
분산은 편차를 제곱하니 멀수록 더 크게 부풀음 / 이상치 하나가 퍼짐을 통째로 키움.

그래서 요약 숫자를 볼 땐 항상 물어야 함.
이 평균을 이상치 하나가 끌고 간 건 아닌가?
(이상치에 덜 흔들리는 중앙값은 다음 강들에서 다룸.)

Q. 표준편차가 0이면 데이터는 어떤 상태인가?

정답은 모든 값이 똑같음임 (퍼짐이 전혀 없음).
표준편차 0 → 분산 0 → 모든 편차 (xᵢ − mean)가 0.
즉 모든 값이 평균과 같음 = 데이터가 한 점에 다 모여 있음.

값 하나가 받침점을 끌고 감

값 하나가 평균을 끌고 감

정상평균 50 · σ 6

이상치 1개평균 90 · σ 80

값 하나(50→250)에 평균·표준편차가 통째로 흔들림