오늘 끝나면
A/B 테스트
- ✓A/B 테스트의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 A이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
실험으로 인과를 확인하는 실무의 꽃 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 40
A/B
테스트
두 버전을 무작위로 나눠 비교함 / 어느 쪽이 더 나은가.
무작위 배정이 핵심임 — 상관이 아니라 인과를 줌.
지표 차이는 검정으로 우연과 진짜를 갈라냄.
두 버전, 무작위로 나눠 비교
버튼 색을 빨강과 파랑 중 뭘로 할지 고민함. 감으로 정할 일이 아님.
A는 기존 버전 / B는 바꾼 버전.
들어오는 사람을 동전 던지듯 무작위로 A·B에 배정함.
그리고 두 그룹의 지표(전환율·클릭률·구매액)를 비교함.
무작위 배정이 전부임.
나이·기기·요일·기분 같은 다른 요인이 두 그룹에 골고루 섞임.
그래서 두 그룹은 “버전”만 빼고 평균적으로 같아짐.
이게 실험임 / 관찰이 아님.
내가 원인을 직접 손에 쥐고 흔들어 결과를 봄.
버전만 다름 / 나머지는 평균적으로 같아짐
무작위 배정 = 인과를 줌
그냥 데이터에서 “빨강 누른 사람이 더 샀다”는 인과가 아님.
빨강을 고른 사람은 원래 적극적인 사람일 수 있음.
버전이 아니라 사람이 달라서 차이가 났을 수 있음 — 교란임.
관찰만으론 버전 효과와 사람 차이를 못 가름.
무작위 배정은 이 교란을 끊음.
누가 A로 가고 B로 갈지를 동전이 정하니, 사람 특성이 두 그룹에 같게 퍼짐.
남는 체계적 차이는 오직 버전뿐임.
그래서 차이가 나면 그건 버전이 만든 것임 / 인과.
A/B가 상관을 넘어 인과를 주는 이유가 바로 이 무작위 배정임.
빨강 누른 사람이 더 삼
원래 적극적인 사람일 수 있음 — 교란
동전이 빨강·파랑 배정
사람 특성이 두 그룹에 같게 퍼짐
무작위 배정이 교란을 끊음 → 남는 차이는 버전 탓
지표 차이를 검정 — 우연인가
B가 12%, A가 10%로 나옴. 그럼 B가 이긴 건가? 아직 모름.
같은 진짜 차이라도 표본을 뽑을 때마다 관측값은 흔들림.
진짜로 똑같은 두 버전도 우연히 2%p쯤 벌어질 수 있음.
그래서 관측 차이가 우연으로 나올 만한지 검정함.
전환율 비교는 두 비율의 z검정을 씀.
귀무가설은 “두 진짜 전환율이 같다”임.
관측 차이가 이 가설 아래서 나올 확률이 p값임.
오른쪽에서 직접 해봄.
진짜 전환율과 표본크기를 정하고 무작위 배정을 돌려보셈.
n이 작으면 진짜 차이가 있어도 p값이 0.05를 넘겨 우연과 구분 못 함.
진짜 차이 +3%p — B가 진짜로 다름
7.5%
15.5%
관측 차이 +8.0% / 같은 진짜 차이라도 뽑을 때마다 흔들림
2.51
0.012
p < 0.05 — 우연으로 보기 어려움 · 차이 있다고 판정
진짜 차이가 있어도 n이 작으면 p값이 자주 0.05를 넘김 — 우연과 구분 못 함.
표본크기·검정력 — 미리 정함
표본크기 n은 실험 끝나고 정하는 게 아님. 시작 전에 계산함.
잡고 싶은 최소 차이(예: 2%p), 유의수준 α(보통 0.05),
그리고 검정력 1−β(보통 0.8)를 정하면 필요한 n이 나옴.
검정력은 진짜 차이가 있을 때 그걸 잡아낼 확률임.
n이 작으면 검정력이 낮음 / 진짜 차이를 놓침(2종 오류).
작은 차이를 잡으려면 더 큰 n이 필요함.
n을 키우면 추정이 좁아져 우연의 흔들림이 줄어듦.
그래서 순서가 중요함.
n을 먼저 정함 → 그 n을 다 채울 때까지 돌림 → 그때 한 번 본다.
n 4배 → 구간 절반 / 작은 차이를 잡으려면 큰 n 필요
함정 — 들여다보기·여러 변수
A/B가 망가지는 건 대개 검정이 아니라 운영에서임.
들여다보기(peeking)가 제일 흔한 함정임.
돌리는 중에 자꾸 보다가 p가 0.05 밑으로 떨어진 순간 멈추면,
여러 번 본 만큼 우연히 작아진 p를 잡게 됨 / 거짓양성이 크게 늘어남.
한 번에 한 변수만 바꿈.
색·문구·위치를 동시에 바꾸면 뭐가 효과를 냈는지 못 가름.
여러 지표를 동시에 보면 다중비교로 또 거짓양성이 늘어남.
그래서 규칙은 단순함.
n과 기간을 미리 정함 / 한 변수만 바꿈 / 끝까지 채우고 한 번 판정함.
이렇게 해야 A/B가 실무 의사결정의 기준이 됨.
Q. A/B 테스트가 상관이 아니라 인과를 주는 이유는?
정답은 무작위 배정 때문임.누가 A·B로 갈지를 무작위로 정하면 나이·기기·기분 같은 다른 요인이 두 그룹에 평균적으로 같게 섞임.
그래서 두 그룹은 버전만 빼고 같아지고, 남는 차이는 버전이 만든 것 = 인과로 읽힘.
진짜 차이 0인데도 멈출 핑계가 점점 늘어남 — α 0.05가 깨짐