오늘 끝나면
상관 vs 인과
- ✓상관 vs 인과의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 상관이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
같이 움직인다고 원인은 아님 — 교란변수의 함정 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 12
상관
vs 인과
같이 움직인다(상관)고 원인(인과)은 아님.
둘이 나란히 오르내려도, 진짜 원인은 숨은 제3의 변수일 수 있음.
인과를 주장하려면 상관만으론 부족함.
r = 함께 움직이는 정도
상관계수 r은 두 변수가 함께 움직이는 정도를 한 숫자로 잰 것임.
범위는 -1 ~ +1임.
+1은 한쪽이 오르면 다른 쪽도 똑같이 오름.
-1은 한쪽이 오르면 다른 쪽은 내려감.
0은 같이 움직이는 경향이 없음.
|r|이 클수록 점들이 직선에 바짝 붙음.
작을수록 옆으로 퍼져서 흐릿해짐.
r은 어떻게 계산함?
공분산을 두 변수의 표준편차로 나눈 것임.r = Σ(xᵢ-x̄)(yᵢ-ȳ) / √(Σ(xᵢ-x̄)² · Σ(yᵢ-ȳ)²)
분자는 둘이 같은 쪽으로 벗어나는 정도(공분산), 분모는 단위를 지워 -1~1로 맞추는 역할임.
이건 직선 관계만 잼 — 곡선으로 딱 붙어도 r은 작을 수 있음.
r은 강도, 직접 만져보기
말로만 들으면 안 와닿음. 직접 r을 움직여 보면 바로 느껴짐.
오른쪽 슬라이더로 목표 r을 정하면, 그 r을 가진 점구름이 즉시 만들어짐.
점들로 다시 계산한 실제 r도 아래에 뜸 — 의도한 값과 거의 같음.
r을 0 근처로 내리면 점이 동그랗게 퍼져 패턴이 사라짐.
-1 쪽으로 밀면 점들이 우하향 직선으로 모임.
위쪽 탭에서 교란변수 모드로 넘어가면 다음 장 이야기가 손에 잡힘.
슬라이더로 r을 바꾸면 점구름이 한 줄로 모이거나 흩어짐.
|r|이 클수록 직선에 붙음 = 더 강하게 함께 움직임.
r 부호가 -면 한쪽이 오를 때 다른 쪽은 내려감.
상관 ≠ 인과
여기가 통계에서 제일 많이 헷갈리는 지점임.
r이 커도 한쪽이 다른 쪽의 원인이라는 보장은 없음.
A와 B가 함께 움직일 때 가능한 경우는 여럿임.
A가 B의 원인일 수도
B가 A의 원인일 수도
제3의 C가 둘 다 끌어올릴 수도
그냥 우연일 수도 있음.
상관은 이 넷을 구분 못 함.
그래서 “상관이 있다”에서 “A가 원인이다”로 바로 건너뛰면 틀림.
상관은 이 넷을 구분 못 함
교란변수가 가짜 상관을 만든다
제3의 변수가 두 변수를 동시에 끌어올리면, 둘 사이엔 가짜 상관이 생김.
여름에 아이스크림 판매가 늘고, 같은 시기 익사도 늘어남.
데이터만 보면 아이스크림↑ 익사↑ = 강한 상관.
근데 진짜 원인은 둘 다 아니라 기온임.
기온이 높음 → 아이스크림이 팔림
기온이 높음 → 사람들이 물에 들어감 → 익사 늘어남.
기온처럼 둘 다 움직이는 숨은 변수를 교란변수라 함.
기온을 통제하면(같은 기온대끼리만 비교) 가짜 상관은 사라짐.
그래서 인과를 주장하려면 무작위 배정 실험이 필요함 — 교란변수를 양쪽 집단에 골고루 흩어 효과를 지우는 것임.
실선 = 진짜 인과 · 빨간 점선 = 기온이 만든 가짜 상관
정리 · 그리고 퀴즈
상관은 출발점이지 결론이 아님.
r은 함께 움직이는 정도를 -1~1로 잼.
상관이 있어도 인과는 별개임.
교란변수가 가짜 상관을 만들 수 있음.
인과를 말하려면 무작위 배정 실험이 필요함.
Q. 아이스크림 판매와 익사가 함께 늘면 아이스크림이 익사의 원인인가?
아님.공통 원인인 기온이 둘 다 끌어올린 것임.
이건 교란변수에 의한 가짜 상관임 — 기온을 통제하면 둘 사이 상관은 사라짐.
상관만으론 사다리 끝(인과)에 못 닿음