20강 · K-평균 군집화

오늘 끝나면

K-평균 군집화

✓K-평균 군집화의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 K이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

정답 없이 비슷한 놈들끼리 묶어라 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 20

K-평균
군집화

정답 라벨 없이 비슷한 것끼리 묶는 법임.
중심을 찍고 → 가까운 점 모으고 → 중심을 옮기길 반복함.
그러면 데이터가 스스로 덩어리로 갈라짐.

P.01통계 · 20

라벨 없이 비슷한 것끼리

지금까지는 정답이 붙은 데이터를 배웠음.
K-평균은 정답이 없음.

지도학습은 “이건 고양이, 저건 개” 라벨을 보고 배움.
K-평균은 그런 라벨이 하나도 없음.

가진 건 점들의 위치(특징)뿐임.
가까이 모인 점은 비슷한 것, 멀리 떨어진 점은 다른 것으로 봄.
이렇게 구조만으로 묶는 걸 비지도학습이라 함.

그래서 답을 맞히는 게 아니라 데이터를 탐색·세분화하는 데 씀.
예: 고객을 비슷한 무리로 갈라 마케팅에 쓰는 것.

정답표 없음 · 거리만 봄

라벨이 없는 데이터

색·이름·정답 없음. 위치만 있음.
그래도 눈엔 덩어리가 보임 → 그 구조를 기계가 찾는 게 K-평균임.

P.02통계 · 20

배정 → 이동 → 반복

K-평균은 딱 두 동작을 번갈아 반복함.

1) 배정 — 각 점을 가장 가까운 중심에 붙임.
2) 이동 — 그 중심을, 자기에게 붙은 점들의 평균 위치로 옮김.

옮긴 중심으로 다시 1)을 함.
그럼 또 배정이 바뀌고, 또 평균으로 옮김.

이걸 돌리면 중심이 점점 덩어리 한가운데로 빨려 들어감.
중심이 더 안 움직이면 멈춤 = 수렴.
이름의 “평균(means)”이 바로 이 이동 단계임.

한 줄 더 — 무엇을 줄이는 건가

각 점에서 자기 중심까지 거리의 제곱합(관성, inertia)을 줄임.
배정·이동 두 단계가 매번 이 값을 줄이거나 유지함 → 그래서 반드시 멈춤.
단, 전체 최소가 아닌 국소 최소에 멈출 수 있음(그래서 초기값이 중요).

두 동작을 번갈아 함

반복되는 두 동작

STEP 1배정

각 점 → 가장 가까운 중심에 붙임

↓

STEP 2이동

중심 → 붙은 점들의 평균 위치로

↓

반복

중심이 더 안 움직이면 멈춤 = 수렴

P.03통계 · 20

직접 돌려보기

말로 들으면 추상적임. 오른쪽에서 직접 돌려봄.

반복 한 스텝을 누를 때마다 배정(점 색이 바뀜) + 이동(마름모가 움직임)이 한 번 일어남.

몇 번 누르면 점 색이 더 안 바뀌고 중심도 멈춤.
그게 수렴임. 그 순간 화면에 “수렴함”이 뜸.

마름모가 자연스러운 세 덩어리 한가운데로 빨려 들어가는 게 보임.
정답을 안 줬는데 구조를 스스로 찾아낸 것임.

버튼을 눌러 수렴까지

K-평균 · 직접 돌려보기반복 0

작은 점 = 데이터 · 마름모 = 중심(centroid)

군집 수 k3

2345

한 스텝 = 배정(점→가까운 중심) + 이동(중심→점들 평균). 누르며 수렴까지 가보셈.

P.04통계 · 20

k는 사람이 정한다

K-평균은 군집이 몇 개인지 스스로 모름.
k는 사람이 미리 정해줘야 함.

같은 점구름이라도 k=2면 둘로, k=4면 넷으로 쪼갬.
어느 쪽이 맞는지는 데이터가 안 알려줌.

그래서 적당한 k를 고르는 건 분석가의 판단임.
관성이 꺾이는 지점을 보는 엘보우 같은 기준을 참고하되, 결국 사람이 정함.

같은 점 · k에 따라 다른 묶음

k를 바꾸면 묶음도 바뀜

k = 2

k = 4

같은 점인데 k가 정답을 정함. 어느 쪽이 맞는지는 사람이 판단.

P.05통계 · 20

초기값에 민감하다

중심을 어디에 처음 뿌렸냐에 따라 결과가 달라짐.

운 나쁘게 두 중심이 한 덩어리에 몰리면, 거기 갇혀 엉뚱하게 수렴함.
이게 국소 최소에 빠지는 것임.

실무에선 초기값을 바꿔 여러 번 돌리고 관성이 가장 작은 결과를 고름.
중심을 멀찍이 흩뿌리는 k-means++ 초기화도 흔히 씀.

Lab에서 중심 다시 뿌리기를 눌러 시작 위치가 결과를 바꾸는 걸 직접 봐도 됨.

Q. K-평균이 지도학습과 다른 점은?

정답 라벨을 전혀 안 쓰고, 점들 사이 거리(데이터 구조)만으로 비슷한 것끼리 묶는 비지도학습이라는 점임.
지도학습처럼 “정답을 맞히는” 게 아니라 숨은 덩어리를 찾아냄.

같은 k · 시작 위치 따라 다른 결과

시작 위치가 결과를 바꿈

좋은 시작

세 덩어리 정확히

나쁜 시작

국소 최소에 갇힘

같은 k인데 결과가 다름. 그래서 여러 번 돌려 가장 좋은 걸 고름.