오늘 끝나면
K-평균 군집화
- ✓K-평균 군집화의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 K이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
정답 없이 비슷한 놈들끼리 묶어라 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 20
K-평균
군집화
정답 라벨 없이 비슷한 것끼리 묶는 법임.
중심을 찍고 → 가까운 점 모으고 → 중심을 옮기길 반복함.
그러면 데이터가 스스로 덩어리로 갈라짐.
라벨 없이 비슷한 것끼리
지금까지는 정답이 붙은 데이터를 배웠음.
K-평균은 정답이 없음.
지도학습은 “이건 고양이, 저건 개” 라벨을 보고 배움.
K-평균은 그런 라벨이 하나도 없음.
가진 건 점들의 위치(특징)뿐임.
가까이 모인 점은 비슷한 것, 멀리 떨어진 점은 다른 것으로 봄.
이렇게 구조만으로 묶는 걸 비지도학습이라 함.
그래서 답을 맞히는 게 아니라 데이터를 탐색·세분화하는 데 씀.
예: 고객을 비슷한 무리로 갈라 마케팅에 쓰는 것.
색·이름·정답 없음. 위치만 있음.
그래도 눈엔 덩어리가 보임 → 그 구조를 기계가 찾는 게 K-평균임.
배정 → 이동 → 반복
K-평균은 딱 두 동작을 번갈아 반복함.
1) 배정 — 각 점을 가장 가까운 중심에 붙임.
2) 이동 — 그 중심을, 자기에게 붙은 점들의 평균 위치로 옮김.
옮긴 중심으로 다시 1)을 함.
그럼 또 배정이 바뀌고, 또 평균으로 옮김.
이걸 돌리면 중심이 점점 덩어리 한가운데로 빨려 들어감.
중심이 더 안 움직이면 멈춤 = 수렴.
이름의 “평균(means)”이 바로 이 이동 단계임.
한 줄 더 — 무엇을 줄이는 건가
각 점에서 자기 중심까지 거리의 제곱합(관성, inertia)을 줄임.배정·이동 두 단계가 매번 이 값을 줄이거나 유지함 → 그래서 반드시 멈춤.
단, 전체 최소가 아닌 국소 최소에 멈출 수 있음(그래서 초기값이 중요).
각 점 → 가장 가까운 중심에 붙임
중심 → 붙은 점들의 평균 위치로
중심이 더 안 움직이면 멈춤 = 수렴
직접 돌려보기
말로 들으면 추상적임. 오른쪽에서 직접 돌려봄.
반복 한 스텝을 누를 때마다 배정(점 색이 바뀜) + 이동(마름모가 움직임)이 한 번 일어남.
몇 번 누르면 점 색이 더 안 바뀌고 중심도 멈춤.
그게 수렴임. 그 순간 화면에 “수렴함”이 뜸.
마름모가 자연스러운 세 덩어리 한가운데로 빨려 들어가는 게 보임.
정답을 안 줬는데 구조를 스스로 찾아낸 것임.
작은 점 = 데이터 · 마름모 = 중심(centroid)
한 스텝 = 배정(점→가까운 중심) + 이동(중심→점들 평균). 누르며 수렴까지 가보셈.
k는 사람이 정한다
K-평균은 군집이 몇 개인지 스스로 모름.
k는 사람이 미리 정해줘야 함.
같은 점구름이라도 k=2면 둘로, k=4면 넷으로 쪼갬.
어느 쪽이 맞는지는 데이터가 안 알려줌.
그래서 적당한 k를 고르는 건 분석가의 판단임.
관성이 꺾이는 지점을 보는 엘보우 같은 기준을 참고하되, 결국 사람이 정함.
같은 점인데 k가 정답을 정함. 어느 쪽이 맞는지는 사람이 판단.
초기값에 민감하다
중심을 어디에 처음 뿌렸냐에 따라 결과가 달라짐.
운 나쁘게 두 중심이 한 덩어리에 몰리면, 거기 갇혀 엉뚱하게 수렴함.
이게 국소 최소에 빠지는 것임.
실무에선 초기값을 바꿔 여러 번 돌리고 관성이 가장 작은 결과를 고름.
중심을 멀찍이 흩뿌리는 k-means++ 초기화도 흔히 씀.
Lab에서 중심 다시 뿌리기를 눌러 시작 위치가 결과를 바꾸는 걸 직접 봐도 됨.
Q. K-평균이 지도학습과 다른 점은?
정답 라벨을 전혀 안 쓰고, 점들 사이 거리(데이터 구조)만으로 비슷한 것끼리 묶는 비지도학습이라는 점임.지도학습처럼 “정답을 맞히는” 게 아니라 숨은 덩어리를 찾아냄.
세 덩어리 정확히
국소 최소에 갇힘
같은 k인데 결과가 다름. 그래서 여러 번 돌려 가장 좋은 걸 고름.