오늘 끝나면

분포

  • 분포의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 분포이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

데이터가 퍼진 모양 — 종모양(정규분포)이 왜 자꾸 나오나 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 02

분포
데이터의 모양

분포는 값들이 어떻게 퍼져 있는지의 모양임.
가운데 몰리고 양끝 적은 종모양이 대표 — 이게 정규분포임.
평균이 중심, 표준편차가 폭임.

P.01통계 · 02

데이터를 늘어놓으면 모양이 생긴다

숫자 한 무더기를 그냥 보면 안 보임. 늘어놓고 세어 보면 모양이 드러남.

값을 구간으로 쪼개고 / 각 구간에 몇 개 들었는지 세어 / 막대로 그림.
이 그림이 히스토그램임.

막대 높이는 그 구간의 빈도임.
높은 곳엔 값이 많이 몰린 것, 낮은 곳엔 드문 것임.
그 막대들의 윤곽이 곧 분포 — 데이터가 퍼진 모양임.

값 → 구간으로 묶기 → 히스토그램
히스토그램 — 구간별 빈도
1
2
4
7
11
14
13
9
5
2
1
작은 값큰 값

막대 높이 = 그 구간에 든 개수

P.02통계 · 02

정규분포 = 종모양

여러 데이터가 약속한 듯 같은 모양으로 모임. 가운데 봉우리, 양옆 대칭으로 흘러내림.

이 종모양이 정규분포(normal distribution)임.
키 · 시험점수 · 측정오차가 이 모양으로 나옴.

왜 자주 나오나? 작은 영향이 여럿 더해지면 종모양으로 수렴함.
키는 유전·영양·환경 등 수많은 요인의 합이라 가운데로 몰림.
한쪽으로 꼬리가 길게 끌리면 치우친 분포(skew)임 — 소득이 그 예임.

가운데 높고 · 양끝 낮은 곡선
정규(종모양) vs 치우친 분포
━ 정규분포 (대칭)┄ 치우친 분포 (꼬리 김)
P.03통계 · 02

평균은 중심, 표준편차는 폭

종모양 하나를 정하는 데 숫자 둘이면 충분함. 평균 μ와 표준편차 σ임.

평균 μ는 봉우리의 위치 / 분포의 중심임.
표준편차 σ는 퍼진 정도 / 곡선의 폭임.

오른쪽에서 직접 흔들어 보셈.
μ를 옮기면 종 전체가 좌우로 미끄러짐.
σ를 키우면 납작·넓게, 줄이면 뾰족·좁게 변함.
파란 곡선은 이론, 검은 막대는 그 분포에서 실제로 뽑은 표본임 — 둘이 같은 모양으로 겹침.

곡선의 식이 궁금하면정규분포의 확률밀도함수는
f(x) = 1/(σ√2π) · e^(−(x−μ)²/2σ²) 임.
말로 풀면, 중심 μ에서 멀어질수록 (x−μ)²이 커져 e의 지수가 음수로 깊어짐 → 값이 빠르게 작아짐. 그래서 가운데 높고 양끝 낮은 종모양이 나옴. σ는 그 떨어지는 속도(폭)를 정함.
μ를 옮기고 · σ로 넓히는 인터랙티브
정규분포 · μ와 σ를 흔들어 보셈
−2σμ+2σ
평균 μ — 중심(좌우)50
표준편차 σ — 폭(퍼짐)12
표본 200개 — 실제로 뽑힌 값
표본평균
49.0
표본 SD
13.2
±2σ 안
94%

파란 곡선이 이론(정규분포), 검은 막대가 실제 표본임.
σ를 키우면 곡선이 납작·넓게, 줄이면 뾰족·좁게 변함.
±2σ 안 비율은 흔들어도 95% 근처에 머묾.

P.04통계 · 02

68-95-99.7 규칙

정규분포는 중심에서 σ 단위로 떨어진 비율이 항상 같음. 외워두면 두루 쓰임.

μ ± 1σ 안에 약 68%
μ ± 2σ 안에 약 95%
μ ± 3σ 안에 약 99.7%

이걸 경험규칙(empirical rule)이라 함.
시험점수가 정규분포고 평균 60 · 표준편차 10이면, 40~80점(±2σ) 안에 약 95%가 들어옴.
80점 넘으면 상위 2.5%쯤 — σ만 알면 위치가 바로 잡힘.

Q. 정규분포에서 평균 ± 2표준편차 안에 들어오는 비율은?95%임.
정규분포의 68-95-99.7 규칙 중 2σ에 해당함.
(1σ는 약 68%, 3σ는 약 99.7%)
μ에서 1·2·3σ 안에 든 비율
68 · 95 · 99.7 규칙
μ ± 1σ68%
μ ± 2σ95%
μ ± 3σ99.7%

중심에서 σ만큼 멀어질수록 안에 든 비율이 정해져 있음

3줄 요약

  1. 1데이터가 퍼진 모양 — 종모양(정규분포)이 왜 자꾸 나오나
  2. 2분포은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

분포

데이터가 퍼진 모양 — 종모양(정규분포)이 왜 자꾸 나오나

표본

전체를 알기 위해 뽑아 본 일부 데이터

추정

표본으로 모집단의 값을 짐작하는 일