오늘 끝나면
정규화 회귀 (Ridge·Lasso)
- ✓정규화 회귀 (Ridge·Lasso)의 핵심 문제를 한 문장으로 설명한다
- ✓오른쪽 실습에서 정규화이 어떻게 움직이는지 관찰한다
- ✓다음 강의와 이어지는 한계를 말할 수 있다
실습 미션
계수를 눌러 과적합을 막고 변수를 고름 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.
성공 조건
- □실습의 기본값을 먼저 관찰
- □입력값이나 모드를 한 번 이상 바꿔 결과 비교
- □왜 결과가 바뀌었는지 한 문장으로 설명
통계 · 30
정규화 회귀
(Ridge·Lasso)
계수가 너무 커지면 과적합임. 그래서 계수 크기에 벌점을 붙임.
Ridge(L2)는 계수를 작게 / Lasso(L1)는 일부를 0으로.
강도는 λ로 조절함 / 편향은 늘고 분산은 줆.
과적합 = 계수가 폭주하는 것
최소제곱은 잔차제곱합만 줄임. 데이터가 적거나 변수가 많으면 잡음까지 맞추려 함.
그때 계수가 비정상적으로 커짐 / +500, −480처럼 큰 값이 서로 상쇄하며 학습 데이터에 딱 붙음.
학습 오차는 0에 가깝지만 새 데이터엔 엉뚱한 예측을 냄.
이게 과적합임 / 모델이 신호가 아니라 표본의 우연까지 외운 상태.
공선성(특성끼리 겹침)이 있으면 계수가 더 불안정하게 튐.
해법은 단순함 / 계수가 커지는 걸 손해로 치면 됨.
잔차제곱합에 “계수 크기 벌점”을 더해 같이 최소화함 / 그게 정규화임.
검정 = 최소제곱(잡음에 폭주) / 파랑 = 정규화(작게 눌림)
목적함수 = 오차 + 계수 벌점
정규화는 최소화 대상에 항 하나를 더 붙이는 일임. 오차만 보던 걸 계수까지 같이 봄.
Ridge는 계수 제곱합을 벌점으로 씀 / SSE + λ·Σβⱼ² (L2 벌점).
Lasso는 계수 절댓값합을 벌점으로 씀 / SSE + λ·Σ|βⱼ| (L1 벌점).
λ는 두 욕심의 저울임 / 데이터에 맞추려는 힘 vs 계수를 작게 두려는 힘.
λ=0이면 벌점이 사라져 그냥 최소제곱임.
절편은 보통 벌점에서 뺌 / 평균 위치를 옮기는 항이라 줄일 이유가 없음.
또 벌점이 공정하려면 특성을 표준화해 스케일을 맞춰야 함.
SSE + λ·Σβⱼ²
계수 제곱합에 벌점
SSE + λ·Σ|βⱼ|
계수 절댓값합에 벌점
L2 vs L1 — 작게 vs 0으로
벌점 모양 하나 차이가 결과를 완전히 바꿈. Ridge와 Lasso의 갈림길임.
Ridge(L2)는 제약 영역이 원임 / 모서리가 없어 계수를 매끄럽게 작게 당김.
공선성에 강건함 / 겹친 변수끼리 계수를 비슷하게 나눠 가짐. 하지만 0엔 거의 안 닿음.
Lasso(L1)는 제약 영역이 마름모임 / 축 위에 뾰족한 꼭짓점이 있음.
해가 그 꼭짓점에 자주 걸려 일부 계수가 정확히 0이 됨 / 변수 선택이 됨.
그래서 Ridge는 다 남기되 작게 / Lasso는 쓸 변수만 남기고 나머지를 끔.
둘을 섞은 게 엘라스틱넷(L1+L2) / 상황에 따라 골라 씀.
표면에 닿음 (β≠0)
꼭짓점=축 (β2=0)
마름모는 축 위에 모서리가 있어 해가 거기 걸림 → 계수 0
λ를 올리면 계수가 0으로
말로만 들으면 추상적임. λ를 직접 올리며 계수가 줄어드는 경로를 보면 손에 잡힘.
오른쪽에서 Lasso·Ridge를 토글하고 λ 슬라이더를 끌어 보셈.
참계수가 0인 노이즈 변수(회색 라벨)가 어떻게 처리되는지 보면 차이가 분명함.
Lasso는 약한 계수부터 정확히 0으로 떨어뜨려 변수를 골라냄.
Ridge는 다 함께 매끄럽게 작아지지만 0엔 거의 안 닿음.
λ를 키울수록 계수가 작아짐 = 편향↑ 분산↓.
λ를 줄이면 최소제곱에 가까워짐 = 편향↓ 분산↑. 적정 λ는 교차검증으로 고름.
파랑 라벨 = 참계수≠0 / 회색 라벨 = 참계수 0(노이즈)
3 / 6
3.86
Lasso는 λ가 커질수록 계수를 정확히 0으로 떨궈 변수를 골라냄. 지금 3개가 탈락.
정리 — 벌점으로 산 일반화
정규화는 계수 크기에 벌점을 붙여 과적합을 누르는 회귀임 / 강도는 λ.
Ridge(L2)는 계수를 작게 줄이고 공선성에 강건함 / 변수는 다 남김.
Lasso(L1)는 일부 계수를 0으로 떨궈 변수 선택까지 함.
공통 대가는 편향↑ 분산↓ / 학습 적합은 약간 포기하고 일반화를 삼.
λ는 교차검증으로 검증오차가 가장 작은 값을 고름.
Q. Lasso가 Ridge와 다른 점은?
정답은 일부 계수를 정확히 0으로 만들어 변수 선택까지 한다는 것임.Ridge는 L2 벌점이라 계수를 매끄럽게 작게 줄일 뿐 0엔 거의 안 닿음 / 변수를 다 남김.
Lasso는 L1 벌점이라 제약 영역의 뾰족한 꼭짓점에 해가 걸려 약한 계수를 0으로 떨굼.
그래서 Lasso는 회귀와 변수 선택을 동시에 함.
| Ridge | Lasso | |
|---|---|---|
| 벌점 | Σβⱼ² (L2) | Σ|βⱼ| (L1) |
| 계수 | 작게 | 일부 0 |
| 변수 선택 | 안 함 | 함 |
| 공선성 | 강건 | 하나만 택 |