오늘 끝나면

T-검정

  • T-검정의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 T이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

두 집단 평균 차이가 진짜인가? 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 09

T-검정
두 집단 비교

두 집단 평균이 달라 보임. 근데 진짜 다른 건가, 우연인가?
t-검정은 그 평균 차이가 잡음에 비해 충분히 큰지를 따짐.

P.01통계 · 09

평균차가 우연인지 검정한다

A반 평균 72점, B반 평균 75점. B가 더 잘했다고 말해도 될까?

두 평균이 달라 보여도 그건 표본 변동일 수 있음.
같은 모집단에서 두 번 뽑아도 평균은 매번 조금씩 다름.
차이 3점이 실력 차인지, 그냥 뽑기 운인지 구분이 안 됨.

t-검정의 질문은 하나임.
“이 평균 차이가 우연으로 보기엔 너무 큰가?”
귀무가설은 “두 모평균이 같다(차이=0)”임.

그 가설이 맞다고 쳤을 때 지금 차이가 얼마나 드문지를 p값으로 잼.
충분히 드물면 “우연 아님”으로 판정함.

같은 모집단이어도 표본 평균은 달라 보임
달라 보이는 두 평균
그룹 A평균 50.0
그룹 B평균 52.3

평균은 다른데 점들이 크게 겹침 → 우연일 수도

P.02통계 · 09

t = 평균차 ÷ 표준오차

핵심은 평균 차이를 그냥 보지 않고 흔들림으로 나눠 본다는 것임.

t = (x̄_B − x̄_A) / SE
분자는 두 평균의 차이 / 신호.
분모는 표준오차(SE) / 표본평균이 흔들리는 정도, 잡음.

그래서 t는 신호 대 잡음 비임.
차이가 잡음의 몇 배냐를 숫자 하나로 표현함.
t가 클수록 “잡음치곤 차이가 크다”는 뜻임.

이 t를 t분포에 대보면 우연일 확률 p가 나옴.
보통 p < 0.05면 유의하다고 판정함.

표준오차 SE는 어떻게 구하나독립표본·등분산 가정이면 두 그룹 분산을 합친 합동분산 s_p²을 쓰고
SE = √( s_p² · (1/n_A + 1/n_B) ) 임.
자유도는 n_A + n_B − 2. 이 t를 자유도에 맞는 t분포로 봄.
분산이 다르면 Welch의 t를 쓰고, 분포는 점점 정규에 가까워짐(n 커질 때).
차이를 흔들림으로 나눈 신호 대 잡음 비
t = 신호 ÷ 잡음
t = (x̄_B − x̄_A) / SE
x̄_B − x̄_A평균차 — 신호 (분자)
SE표준오차 — 잡음 (분모)
t ↑p ↓ — 더 유의

차이가 잡음의 몇 배냐 — 그게 t

P.03통계 · 09

직접 굴려 보기

오른쪽에서 두 그룹을 직접 움직여 봄.

위쪽은 그룹 A, 아래쪽은 그룹 B의 점 분포임.
굵은 선이 각 그룹의 평균임.
[거리]를 키우면 두 평균이 멀어지고, [퍼짐]을 키우면 점이 넓게 흩어짐.

거리만 키워 보셈 → t가 커지고 p가 작아지며 파란 뱃지(유의)로 바뀜.
이번엔 퍼짐을 키워 보셈 → 두 분포가 겹치고 t가 작아져 비유의로 돌아감.

같은 평균차여도 점들이 많이 겹치면 우연으로 보임.
멀고 좁게 갈라져야 “진짜 차이”로 판정됨 / 그게 t-검정의 직관임.

거리·퍼짐을 바꾸면 t·p가 실시간으로 변함
두 집단 비교 · 직접 굴리기
평균 거리 (멀수록 차이 큼) = 8
그룹 내 퍼짐 σ (클수록 잡음 큼) = 6
출력 — 점 = 관측값 · 굵은 선 = 그룹 평균
그룹 A그룹 B
t 값
3.27
p 값
0.004
유의함 · p < 0.05 — 차이가 진짜일 가능성

평균차 8.0 ÷ 표준오차 2.45 = t=3.27
거리를 키우면 t 커짐 · 퍼짐을 키우면 t 작아짐.
멀고 좁으면 유의, 많이 겹치면 비유의 (df=22).

P.04통계 · 09

차이 크고 · 퍼짐 작고 · n 크면 유의

t를 키우는(= 유의하게 만드는) 손잡이는 세 개임.

평균 차이가 크면 → 분자가 커져 t ↑.
그룹 내 퍼짐이 작으면 → 잡음이 작아 SE ↓ → t ↑.
표본 n이 크면 → SE가 √n으로 줄어 t ↑.

반대로 차이가 작거나 퍼짐이 크거나 n이 작으면 t가 작아짐.
그럼 p가 커지고 “우연일 수 있음”으로 남음.

그래서 작은 차이도 n을 충분히 키우면 유의해질 수 있음.
유의(p값)와 차이의 크기(효과크기)는 다른 얘기임 / 둘 다 봐야 함.

t를 키우는 세 가지 손잡이
t를 키우는 손잡이 셋
손잡이효과결과
평균차 ↑분자 커짐t ↑
퍼짐 σ ↓SE 작아짐t ↑
표본 n ↑SE = …/√n ↓t ↑

셋 다 t를 키워 p를 낮춤

P.05통계 · 09

정리 — 신호를 잡음으로 나눠라

오늘 셋만 챙기면 됨.

평균이 달라 보여도 우연일 수 있어 검정함
t = 평균차 ÷ 표준오차 / 신호 대 잡음
차이 크고 · 퍼짐 작고 · n 크면 t 커지고 p 작아짐 → 유의

종류로는 두 별개 집단을 비교하는 독립표본 t-검정,
같은 대상의 전·후를 비교하는 짝지은표본 t-검정이 있음.

그럼 집단이 셋 이상이면? 다음 강 분산분석(ANOVA)으로 이어짐.

Q. 평균 차이가 같아도 그룹 내 퍼짐이 크면 t값은 어떻게 되나?작아짐.
퍼짐이 크면 표준오차(분모)가 커져 t = 평균차 / SE가 작아짐.
차이가 잡음(퍼짐)에 묻혀 덜 유의해지고 p값은 커짐.
같은 차이라도 좁게 갈라져야 진짜 차이로 보임.
세 줄 요약
세 줄 정리
01
왜 검정
평균차가 우연일 수 있어 따짐
02
t의 정체
평균차 ÷ 표준오차 (신호/잡음)
03
유의 조건
차이 ↑ · 퍼짐 ↓ · n ↑ → p ↓

3줄 요약

  1. 1두 집단 평균 차이가 진짜인가?
  2. 2T-검정은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

T

두 집단 평균 차이가 진짜인가?

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터