40강 · A/B 테스트

오늘 끝나면

A/B 테스트

✓A/B 테스트의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 A이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

실험으로 인과를 확인하는 실무의 꽃 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 40

A/B
테스트

두 버전을 무작위로 나눠 비교함 / 어느 쪽이 더 나은가.
무작위 배정이 핵심임 — 상관이 아니라 인과를 줌.
지표 차이는 검정으로 우연과 진짜를 갈라냄.

P.01통계 · 40

두 버전, 무작위로 나눠 비교

버튼 색을 빨강과 파랑 중 뭘로 할지 고민함. 감으로 정할 일이 아님.

A는 기존 버전 / B는 바꾼 버전.
들어오는 사람을 동전 던지듯 무작위로 A·B에 배정함.
그리고 두 그룹의 지표(전환율·클릭률·구매액)를 비교함.

무작위 배정이 전부임.
나이·기기·요일·기분 같은 다른 요인이 두 그룹에 골고루 섞임.
그래서 두 그룹은 “버전”만 빼고 평균적으로 같아짐.

이게 실험임 / 관찰이 아님.
내가 원인을 직접 손에 쥐고 흔들어 결과를 봄.

들어오는 사람 → 동전 던져 A·B로

무작위 배정

들어오는 사람

동전 던지기 ↓

그룹 A (기존)

그룹 B (변경)

버전만 다름 / 나머지는 평균적으로 같아짐

P.02통계 · 40

무작위 배정 = 인과를 줌

그냥 데이터에서 “빨강 누른 사람이 더 샀다”는 인과가 아님.

빨강을 고른 사람은 원래 적극적인 사람일 수 있음.
버전이 아니라 사람이 달라서 차이가 났을 수 있음 — 교란임.
관찰만으론 버전 효과와 사람 차이를 못 가름.

무작위 배정은 이 교란을 끊음.
누가 A로 가고 B로 갈지를 동전이 정하니, 사람 특성이 두 그룹에 같게 퍼짐.
남는 체계적 차이는 오직 버전뿐임.

그래서 차이가 나면 그건 버전이 만든 것임 / 인과.
A/B가 상관을 넘어 인과를 주는 이유가 바로 이 무작위 배정임.

관찰 데이터 vs 무작위 실험

상관 vs 인과

관찰 데이터상관일 뿐

빨강 누른 사람이 더 삼

원래 적극적인 사람일 수 있음 — 교란

무작위 실험인과 OK

동전이 빨강·파랑 배정

사람 특성이 두 그룹에 같게 퍼짐

무작위 배정이 교란을 끊음 → 남는 차이는 버전 탓

P.03통계 · 40

지표 차이를 검정 — 우연인가

B가 12%, A가 10%로 나옴. 그럼 B가 이긴 건가? 아직 모름.

같은 진짜 차이라도 표본을 뽑을 때마다 관측값은 흔들림.
진짜로 똑같은 두 버전도 우연히 2%p쯤 벌어질 수 있음.
그래서 관측 차이가 우연으로 나올 만한지 검정함.

전환율 비교는 두 비율의 z검정을 씀.
귀무가설은 “두 진짜 전환율이 같다”임.
관측 차이가 이 가설 아래서 나올 확률이 p값임.

오른쪽에서 직접 해봄.
진짜 전환율과 표본크기를 정하고 무작위 배정을 돌려보셈.
n이 작으면 진짜 차이가 있어도 p값이 0.05를 넘겨 우연과 구분 못 함.

관측 차이 → z검정 → p값

A/B 시뮬 · 무작위 배정 → 검정

진짜 전환율 — 우리는 보통 이 값을 모름

버전 A10%

버전 B13%

진짜 차이 +3%p — B가 진짜로 다름

그룹당 표본크기 n200

205000

한 번 무작위 배정해 관측한 값

A · 15/200

7.5%

B · 31/200

15.5%

관측 차이 +8.0% / 같은 진짜 차이라도 뽑을 때마다 흔들림

z 통계량

2.51

p값 (양측)

0.012

p < 0.05 — 우연으로 보기 어려움 · 차이 있다고 판정

진짜 차이가 있어도 n이 작으면 p값이 자주 0.05를 넘김 — 우연과 구분 못 함.

P.04통계 · 40

표본크기·검정력 — 미리 정함

표본크기 n은 실험 끝나고 정하는 게 아님. 시작 전에 계산함.

잡고 싶은 최소 차이(예: 2%p), 유의수준 α(보통 0.05),
그리고 검정력 1−β(보통 0.8)를 정하면 필요한 n이 나옴.
검정력은 진짜 차이가 있을 때 그걸 잡아낼 확률임.

n이 작으면 검정력이 낮음 / 진짜 차이를 놓침(2종 오류).
작은 차이를 잡으려면 더 큰 n이 필요함.
n을 키우면 추정이 좁아져 우연의 흔들림이 줄어듦.

그래서 순서가 중요함.
n을 먼저 정함 → 그 n을 다 채울 때까지 돌림 → 그때 한 번 본다.

n이 커질수록 좁아지는 추정

n ↑ → 추정 구간 ↓

n 4배 → 구간 절반 / 작은 차이를 잡으려면 큰 n 필요

P.05통계 · 40

함정 — 들여다보기·여러 변수

A/B가 망가지는 건 대개 검정이 아니라 운영에서임.

들여다보기(peeking)가 제일 흔한 함정임.
돌리는 중에 자꾸 보다가 p가 0.05 밑으로 떨어진 순간 멈추면,
여러 번 본 만큼 우연히 작아진 p를 잡게 됨 / 거짓양성이 크게 늘어남.

한 번에 한 변수만 바꿈.
색·문구·위치를 동시에 바꾸면 뭐가 효과를 냈는지 못 가름.
여러 지표를 동시에 보면 다중비교로 또 거짓양성이 늘어남.

그래서 규칙은 단순함.
n과 기간을 미리 정함 / 한 변수만 바꿈 / 끝까지 채우고 한 번 판정함.
이렇게 해야 A/B가 실무 의사결정의 기준이 됨.

Q. A/B 테스트가 상관이 아니라 인과를 주는 이유는?

정답은 무작위 배정 때문임.
누가 A·B로 갈지를 무작위로 정하면 나이·기기·기분 같은 다른 요인이 두 그룹에 평균적으로 같게 섞임.
그래서 두 그룹은 버전만 빼고 같아지고, 남는 차이는 버전이 만든 것 = 인과로 읽힘.

peeking이 거짓양성을 부풀림

peeking → 거짓양성 ↑

1번만 봄~5%

5번 들여다봄~14%

10번 들여다봄~19%

매일 들여다봄~30%

진짜 차이 0인데도 멈출 핑계가 점점 늘어남 — α 0.05가 깨짐