오늘 끝나면
T-검정
- ✓T-검정의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 T이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
두 집단 평균 차이가 진짜인가? 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 09
T-검정
두 집단 비교
두 집단 평균이 달라 보임. 근데 진짜 다른 건가, 우연인가?
t-검정은 그 평균 차이가 잡음에 비해 충분히 큰지를 따짐.
평균차가 우연인지 검정한다
A반 평균 72점, B반 평균 75점. B가 더 잘했다고 말해도 될까?
두 평균이 달라 보여도 그건 표본 변동일 수 있음.
같은 모집단에서 두 번 뽑아도 평균은 매번 조금씩 다름.
차이 3점이 실력 차인지, 그냥 뽑기 운인지 구분이 안 됨.
t-검정의 질문은 하나임.
“이 평균 차이가 우연으로 보기엔 너무 큰가?”
귀무가설은 “두 모평균이 같다(차이=0)”임.
그 가설이 맞다고 쳤을 때 지금 차이가 얼마나 드문지를 p값으로 잼.
충분히 드물면 “우연 아님”으로 판정함.
평균은 다른데 점들이 크게 겹침 → 우연일 수도
t = 평균차 ÷ 표준오차
핵심은 평균 차이를 그냥 보지 않고 흔들림으로 나눠 본다는 것임.
t = (x̄_B − x̄_A) / SE
분자는 두 평균의 차이 / 신호.
분모는 표준오차(SE) / 표본평균이 흔들리는 정도, 잡음.
그래서 t는 신호 대 잡음 비임.
차이가 잡음의 몇 배냐를 숫자 하나로 표현함.
t가 클수록 “잡음치곤 차이가 크다”는 뜻임.
이 t를 t분포에 대보면 우연일 확률 p가 나옴.
보통 p < 0.05면 유의하다고 판정함.
표준오차 SE는 어떻게 구하나
독립표본·등분산 가정이면 두 그룹 분산을 합친 합동분산 s_p²을 쓰고SE = √( s_p² · (1/n_A + 1/n_B) ) 임.
자유도는 n_A + n_B − 2. 이 t를 자유도에 맞는 t분포로 봄.
분산이 다르면 Welch의 t를 쓰고, 분포는 점점 정규에 가까워짐(n 커질 때).
차이가 잡음의 몇 배냐 — 그게 t
직접 굴려 보기
오른쪽에서 두 그룹을 직접 움직여 봄.
위쪽은 그룹 A, 아래쪽은 그룹 B의 점 분포임.
굵은 선이 각 그룹의 평균임.
[거리]를 키우면 두 평균이 멀어지고, [퍼짐]을 키우면 점이 넓게 흩어짐.
거리만 키워 보셈 → t가 커지고 p가 작아지며 파란 뱃지(유의)로 바뀜.
이번엔 퍼짐을 키워 보셈 → 두 분포가 겹치고 t가 작아져 비유의로 돌아감.
같은 평균차여도 점들이 많이 겹치면 우연으로 보임.
멀고 좁게 갈라져야 “진짜 차이”로 판정됨 / 그게 t-검정의 직관임.
평균차 8.0 ÷ 표준오차 2.45 = t=3.27
거리를 키우면 t 커짐 · 퍼짐을 키우면 t 작아짐.
멀고 좁으면 유의, 많이 겹치면 비유의 (df=22).
차이 크고 · 퍼짐 작고 · n 크면 유의
t를 키우는(= 유의하게 만드는) 손잡이는 세 개임.
평균 차이가 크면 → 분자가 커져 t ↑.
그룹 내 퍼짐이 작으면 → 잡음이 작아 SE ↓ → t ↑.
표본 n이 크면 → SE가 √n으로 줄어 t ↑.
반대로 차이가 작거나 퍼짐이 크거나 n이 작으면 t가 작아짐.
그럼 p가 커지고 “우연일 수 있음”으로 남음.
그래서 작은 차이도 n을 충분히 키우면 유의해질 수 있음.
유의(p값)와 차이의 크기(효과크기)는 다른 얘기임 / 둘 다 봐야 함.
| 손잡이 | 효과 | 결과 |
|---|---|---|
| 평균차 ↑ | 분자 커짐 | t ↑ |
| 퍼짐 σ ↓ | SE 작아짐 | t ↑ |
| 표본 n ↑ | SE = …/√n ↓ | t ↑ |
셋 다 t를 키워 p를 낮춤
정리 — 신호를 잡음으로 나눠라
오늘 셋만 챙기면 됨.
평균이 달라 보여도 우연일 수 있어 검정함
t = 평균차 ÷ 표준오차 / 신호 대 잡음
차이 크고 · 퍼짐 작고 · n 크면 t 커지고 p 작아짐 → 유의
종류로는 두 별개 집단을 비교하는 독립표본 t-검정,
같은 대상의 전·후를 비교하는 짝지은표본 t-검정이 있음.
그럼 집단이 셋 이상이면? 다음 강 분산분석(ANOVA)으로 이어짐.
Q. 평균 차이가 같아도 그룹 내 퍼짐이 크면 t값은 어떻게 되나?
작아짐.퍼짐이 크면 표준오차(분모)가 커져 t = 평균차 / SE가 작아짐.
차이가 잡음(퍼짐)에 묻혀 덜 유의해지고 p값은 커짐.
같은 차이라도 좁게 갈라져야 진짜 차이로 보임.