34강 · 특성 스케일링

오늘 끝나면

특성 스케일링

✓특성 스케일링의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 특성이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

표준화·정규화 — 단위가 다르면 맞춰야 함 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 34

특성
스케일링

변수마다 단위·범위가 다르면 거리·경사가 큰 변수에 휘둘림.
키 cm vs 소득 원 — 숫자가 큰 쪽이 다 먹음.
표준화·정규화로 변수들을 같은 자에 맞추는 일임.

P.01통계 · 34

단위가 다르면 큰 변수가 다 먹는다

거리를 재는 모델은 두 점의 차이를 변수마다 제곱해 더함. 단위가 다르면 망가짐.

나이 차 10(살)과 소득 차 10(원)은 같은 10이 아님.
근데 유클리드 거리 √Σ(xᵢ−xⱼ)²는 둘을 똑같이 10으로 침.

그래서 범위가 큰 변수(소득: 0~1억) 하나가 거리의 거의 전부를 차지함.
범위가 작은 변수(나이: 0~100)는 거리에 끼지도 못함 / 사실상 무시됨.

경사하강도 같은 병을 앓음.
축마다 스케일이 다르면 손실면이 길쭉한 골짜기가 됨 / 갈지자로 느리게 수렴함.

키 +1 vs 소득 +1 — 거리에 미치는 무게

같은 차이 10 — 거리 기여는 천차만별

나이범위 0~100차이 10

소득(원)범위 0~1억차이 10

P.02통계 · 34

스케일을 켜면 균형이 잡힌다

오른쪽에서 직접 해봄. 두 변수의 점들을 두고 스케일을 켰다 껐다 함.

스케일 OFF면 한 변수(가로 범위가 큰 쪽)가 거리를 지배함.
가장 가까운 이웃이 그 변수 기준으로만 정해짐 / 다른 변수는 무시됨.

스케일 ON이면 두 변수가 같은 자로 맞춰짐.
이웃과 군집이 두 변수를 함께 반영해 다시 잡힘 / 결과가 확 달라짐.

기준점을 옮겨 가며 이웃이 바뀌는 걸 보셈.
스케일링이 모델의 답을 바꾼다는 걸 손으로 느끼는 칸임.

ON/OFF — 점·이웃·군집이 어떻게 바뀌나

스케일링 데모 · 가장 가까운 이웃

□ 기준점 · ● 데이터 · ◎ 가장 가까운 이웃

기준점 X450

기준점 Y5.5

가장 가까운 이웃#3 · (410, 6.4)

스케일 OFF — X(0~1000)가 거리를 거의 독점함 / Y는 사실상 무시됨. 이웃이 X만 보고 정해짐.

P.03통계 · 34

표준화 vs 정규화

변수를 같은 자에 맞추는 방법은 크게 둘임. 쓰는 식이 다름.

표준화(z-점수)는 평균을 빼고 표준편차로 나눔.
z = (x − μ) / σ / 결과는 평균 0, 표준편차 1.
범위는 안 정해짐 / 이상치가 있어도 멀리 안 튐.

정규화(Min-Max)는 최솟값을 0, 최댓값을 1로 늘림.
x' = (x − min) / (max − min) / 결과는 0~1 사이.
범위가 딱 정해짐 / 대신 이상치 하나가 min·max를 끌어 전체를 찌그러뜨림.

정규분포에 가깝거나 이상치가 있으면 표준화.
경계가 0~1로 필요하면(이미지 픽셀, 일부 신경망) 정규화.
어느 쪽이든 같은 변환을 train·test에 똑같이 적용해야 함.

z-점수 vs Min-Max — 같은 데이터, 다른 자

원본 1 · 3 · 4 · 8 → 두 자

원본	표준화 z	정규화 0~1
1	-1.18	0
3	-0.39	0.29
4	0	0.43
8	1.57	1

z: 평균0·표준편차1 (μ=4, σ=2.55) / Min-Max: min0·max1

P.04통계 · 34

어떤 모델에 필요한가

전부 스케일링이 필요한 건 아님. 모델이 데이터를 보는 방식에 달림.

거리를 재는 모델은 필수임.
KNN·K-평균은 거리로 이웃·군집을 정함 / SVM(RBF)도 거리에 민감함.
PCA는 분산이 큰 축을 찾는데, 스케일 안 하면 단위 큰 변수가 분산을 독점함.

경사하강으로 학습하는 모델도 필요함.
신경망·로지스틱/선형 회귀(경사하강) / 스케일을 맞춰야 빠르고 안정적으로 수렴함.
L1·L2 정규화도 계수에 같은 벌점을 주려면 변수 스케일이 같아야 공정함.

트리 계열은 안 해도 됨.
결정트리·랜덤포레스트·그래디언트 부스팅은 한 변수 안에서 임계값으로 자름.
분할은 순서만 보고 단위·크기엔 무관함 / 단조 변환에 결과가 안 변함.

거리·경사 기반은 필수 / 트리는 무관

스케일링 필요 여부

필수

KNN · K-평균

거리로 이웃·군집

필수

SVM (RBF)

거리 기반 커널

필수

PCA

분산 큰 축 탐색

필수

신경망 · 회귀(GD)

경사하강 수렴

—

결정트리·랜덤포레스트

임계값 분할 = 단위 무관

—

그래디언트 부스팅

분할은 순서만 봄

P.05통계 · 34

정리 — 같은 자로 맞춘다

특성 스케일링은 단위·범위가 제각각인 변수를 같은 자로 맞추는 전처리임.

표준화는 평균 0·표준편차 1(z-점수) / 정규화는 0~1(Min-Max).
이상치엔 표준화가 강함 / 경계가 필요하면 정규화.
변환은 train에서 구한 통계로 test에도 똑같이 적용함.

KNN·SVM·K-평균·PCA·신경망엔 필수 / 트리 계열엔 불필요.
다음 강은 결측치와 이상치임 / 빠진 값과 튄 값을 어떻게 다루는지로 넘어감.

Q. 스케일링이 필요 없는 모델은?

정답은 트리 계열(결정트리·랜덤포레스트·부스팅)임.
트리는 한 변수 안에서 임계값으로 분할함 / 단위·크기가 아니라 순서만 봄.
그래서 단조 변환(스케일링 포함)에 분할 결과가 안 바뀜 / 스케일링이 무의미함.
반대로 거리(KNN·SVM·K-평균·PCA)나 경사하강(신경망·회귀)을 쓰면 필수임.

한 장 요약

질문	답
왜 하나?	단위 통일큰 변수 독점 막기
표준화	z-점수(x−μ)/σ · 이상치 강함
정규화	Min-Max(x−min)/(max−min) · 0~1
안 해도 되는 곳	트리 계열분할은 단위 무관