오늘 끝나면
분포
- ✓분포의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 분포이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
데이터가 퍼진 모양 — 종모양(정규분포)이 왜 자꾸 나오나 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 02
분포
데이터의 모양
분포는 값들이 어떻게 퍼져 있는지의 모양임.
가운데 몰리고 양끝 적은 종모양이 대표 — 이게 정규분포임.
평균이 중심, 표준편차가 폭임.
데이터를 늘어놓으면 모양이 생긴다
숫자 한 무더기를 그냥 보면 안 보임. 늘어놓고 세어 보면 모양이 드러남.
값을 구간으로 쪼개고 / 각 구간에 몇 개 들었는지 세어 / 막대로 그림.
이 그림이 히스토그램임.
막대 높이는 그 구간의 빈도임.
높은 곳엔 값이 많이 몰린 것, 낮은 곳엔 드문 것임.
그 막대들의 윤곽이 곧 분포 — 데이터가 퍼진 모양임.
막대 높이 = 그 구간에 든 개수
정규분포 = 종모양
여러 데이터가 약속한 듯 같은 모양으로 모임. 가운데 봉우리, 양옆 대칭으로 흘러내림.
이 종모양이 정규분포(normal distribution)임.
키 · 시험점수 · 측정오차가 이 모양으로 나옴.
왜 자주 나오나? 작은 영향이 여럿 더해지면 종모양으로 수렴함.
키는 유전·영양·환경 등 수많은 요인의 합이라 가운데로 몰림.
한쪽으로 꼬리가 길게 끌리면 치우친 분포(skew)임 — 소득이 그 예임.
평균은 중심, 표준편차는 폭
종모양 하나를 정하는 데 숫자 둘이면 충분함. 평균 μ와 표준편차 σ임.
평균 μ는 봉우리의 위치 / 분포의 중심임.
표준편차 σ는 퍼진 정도 / 곡선의 폭임.
오른쪽에서 직접 흔들어 보셈.
μ를 옮기면 종 전체가 좌우로 미끄러짐.
σ를 키우면 납작·넓게, 줄이면 뾰족·좁게 변함.
파란 곡선은 이론, 검은 막대는 그 분포에서 실제로 뽑은 표본임 — 둘이 같은 모양으로 겹침.
곡선의 식이 궁금하면
정규분포의 확률밀도함수는f(x) = 1/(σ√2π) · e^(−(x−μ)²/2σ²) 임.
말로 풀면, 중심 μ에서 멀어질수록 (x−μ)²이 커져 e의 지수가 음수로 깊어짐 → 값이 빠르게 작아짐. 그래서 가운데 높고 양끝 낮은 종모양이 나옴. σ는 그 떨어지는 속도(폭)를 정함.
파란 곡선이 이론(정규분포), 검은 막대가 실제 표본임.
σ를 키우면 곡선이 납작·넓게, 줄이면 뾰족·좁게 변함.
±2σ 안 비율은 흔들어도 95% 근처에 머묾.
68-95-99.7 규칙
정규분포는 중심에서 σ 단위로 떨어진 비율이 항상 같음. 외워두면 두루 쓰임.
μ ± 1σ 안에 약 68%
μ ± 2σ 안에 약 95%
μ ± 3σ 안에 약 99.7%
이걸 경험규칙(empirical rule)이라 함.
시험점수가 정규분포고 평균 60 · 표준편차 10이면, 40~80점(±2σ) 안에 약 95%가 들어옴.
80점 넘으면 상위 2.5%쯤 — σ만 알면 위치가 바로 잡힘.
Q. 정규분포에서 평균 ± 2표준편차 안에 들어오는 비율은?
약 95%임.정규분포의 68-95-99.7 규칙 중 2σ에 해당함.
(1σ는 약 68%, 3σ는 약 99.7%)
중심에서 σ만큼 멀어질수록 안에 든 비율이 정해져 있음