스킬캠퍼스
12강 · 상관 vs 인과
강의

오늘 끝나면

상관 vs 인과

  • 상관 vs 인과의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 상관이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

같이 움직인다고 원인은 아님 — 교란변수의 함정 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 12

상관
vs 인과

같이 움직인다(상관)고 원인(인과)은 아님.
둘이 나란히 오르내려도, 진짜 원인은 숨은 제3의 변수일 수 있음.
인과를 주장하려면 상관만으론 부족함.

P.01통계 · 12

r = 함께 움직이는 정도

상관계수 r은 두 변수가 함께 움직이는 정도를 한 숫자로 잰 것임.

범위는 -1 ~ +1임.
+1은 한쪽이 오르면 다른 쪽도 똑같이 오름.
-1은 한쪽이 오르면 다른 쪽은 내려감.
0은 같이 움직이는 경향이 없음.

|r|이 클수록 점들이 직선에 바짝 붙음.
작을수록 옆으로 퍼져서 흐릿해짐.

r은 어떻게 계산함?공분산을 두 변수의 표준편차로 나눈 것임.
r = Σ(xᵢ-x̄)(yᵢ-ȳ) / √(Σ(xᵢ-x̄)² · Σ(yᵢ-ȳ)²)
분자는 둘이 같은 쪽으로 벗어나는 정도(공분산), 분모는 단위를 지워 -1~1로 맞추는 역할임.
이건 직선 관계만 잼 — 곡선으로 딱 붙어도 r은 작을 수 있음.
r을 -1~1로 움직이면 점구름이 변함
r 값별 점구름 모양
r =+1
r =+0.5
r =0
r =-0.8
직선에 붙을수록 |r|이 큼 · 부호는 방향
P.02통계 · 12

r은 강도, 직접 만져보기

말로만 들으면 안 와닿음. 직접 r을 움직여 보면 바로 느껴짐.

오른쪽 슬라이더로 목표 r을 정하면, 그 r을 가진 점구름이 즉시 만들어짐.
점들로 다시 계산한 실제 r도 아래에 뜸 — 의도한 값과 거의 같음.

r을 0 근처로 내리면 점이 동그랗게 퍼져 패턴이 사라짐.
-1 쪽으로 밀면 점들이 우하향 직선으로 모임.
위쪽 탭에서 교란변수 모드로 넘어가면 다음 장 이야기가 손에 잡힘.

슬라이더 r · 교란변수 토글 — 실제 계산
산점도 · 상관계수 직접 만지기
입력 — 목표 r = 0.70
-1 (반대로)0 (무관)+1 (같이)
출력 — 점 하나 = 관측 하나
x →y
전체 r
+0.67
함께 움직임
보통 · 같은 방향

슬라이더로 r을 바꾸면 점구름이 한 줄로 모이거나 흩어짐.
|r|이 클수록 직선에 붙음 = 더 강하게 함께 움직임.
r 부호가 -면 한쪽이 오를 때 다른 쪽은 내려감.

P.03통계 · 12

상관 ≠ 인과

여기가 통계에서 제일 많이 헷갈리는 지점임.
r이 커도 한쪽이 다른 쪽의 원인이라는 보장은 없음.

A와 B가 함께 움직일 때 가능한 경우는 여럿임.
A가 B의 원인일 수도
B가 A의 원인일 수도
제3의 C가 둘 다 끌어올릴 수도
그냥 우연일 수도 있음.

상관은 이 넷을 구분 못 함.
그래서 “상관이 있다”에서 “A가 원인이다”로 바로 건너뛰면 틀림.

같이 움직임 ≠ 한쪽이 원인
A·B가 함께 움직일 때 가능한 경우
관측corr(A, B) 큼
↓ 가능한 설명 4가지
A → BA가 B의 원인
B → AB가 A의 원인 (방향 거꾸로)
C → A·B숨은 C가 둘 다 끌어올림 (교란)
우연그냥 우연히 겹침

상관은 이 넷을 구분 못 함

P.04통계 · 12

교란변수가 가짜 상관을 만든다

제3의 변수가 두 변수를 동시에 끌어올리면, 둘 사이엔 가짜 상관이 생김.

여름에 아이스크림 판매가 늘고, 같은 시기 익사도 늘어남.
데이터만 보면 아이스크림↑ 익사↑ = 강한 상관.
근데 진짜 원인은 둘 다 아니라 기온임.

기온이 높음 → 아이스크림이 팔림
기온이 높음 → 사람들이 물에 들어감 → 익사 늘어남.
기온처럼 둘 다 움직이는 숨은 변수를 교란변수라 함.

기온을 통제하면(같은 기온대끼리만 비교) 가짜 상관은 사라짐.
그래서 인과를 주장하려면 무작위 배정 실험이 필요함 — 교란변수를 양쪽 집단에 골고루 흩어 효과를 지우는 것임.

아이스크림 · 익사 — 진짜 원인은 기온
교란변수 — 진짜 원인은 기온
기온 ↑아이스크림판매 ↑익사건수 ↑가짜 상관

실선 = 진짜 인과 · 빨간 점선 = 기온이 만든 가짜 상관

P.05통계 · 12

정리 · 그리고 퀴즈

상관은 출발점이지 결론이 아님.

r은 함께 움직이는 정도를 -1~1로 잼.
상관이 있어도 인과는 별개임.
교란변수가 가짜 상관을 만들 수 있음.
인과를 말하려면 무작위 배정 실험이 필요함.

Q. 아이스크림 판매와 익사가 함께 늘면 아이스크림이 익사의 원인인가?아님.
공통 원인인 기온이 둘 다 끌어올린 것임.
이건 교란변수에 의한 가짜 상관임 — 기온을 통제하면 둘 사이 상관은 사라짐.
상관에서 인과로 가는 길
상관 → 인과로 올라가는 사다리
1. 상관 있음r이 큼 — 함께 움직임
2. 교란 점검숨은 C가 있나?
3. 무작위 실험C를 양쪽에 흩어 효과 지움
4. 인과 주장이제 원인이라 말할 수 있음

상관만으론 사다리 끝(인과)에 못 닿음

3줄 요약

  1. 1같이 움직인다고 원인은 아님 — 교란변수의 함정
  2. 2상관 vs 인과은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

상관

같이 움직인다고 원인은 아님 — 교란변수의 함정

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터