스킬캠퍼스
13강 · 선형 회귀
강의

오늘 끝나면

선형 회귀

  • 선형 회귀의 핵심 문제를 한 문장으로 설명한다
  • 오른쪽 실습에서 선형이 어떻게 움직이는지 관찰한다
  • 다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

수치가 얼마? — 점에 직선 맞추기(최소제곱) 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

  • 실습의 기본값을 먼저 관찰
  • 입력값이나 모드를 한 번 이상 바꿔 결과 비교
  • 왜 결과가 바뀌었는지 한 문장으로 설명

통계 · 13

선형
회귀

수치가 얼마? — x로 연속값 y를 예측하는 직선임.
점들 사이를 가장 잘 지나는 직선 하나를 찾는 일임.
기준은 최소제곱: 잔차의 제곱합을 최소로.

P.01통계 · 13

점에 가장 잘 맞는 직선

x가 늘면 y도 느는 점들이 있음. 공부 시간과 점수, 키와 몸무게처럼.

분류는 “어느 그룹?”을 맞춤.
회귀는 “수치가 얼마?”를 맞춤 / 연속값 y를 예측함.

방법은 직선 하나를 점들 한가운데로 통과시키는 것임.
그 직선이 x에서 y로 가는 규칙임.
새 x가 들어오면 직선 위의 y를 읽어 예측함.

직선의 식은 y = ax + b임.
a는 기울기 / b는 절편(x=0일 때 y).

흩어진 점 → 관통하는 한 직선
y = ax + b
xy

점들 한가운데를 관통하는 한 직선이 규칙임

P.02통계 · 13

잔차 = 점과 직선의 세로 거리

직선이 모든 점을 지날 순 없음. 점마다 빗나감이 생김.

한 점의 실제값 y에서 직선이 그 x에서 내놓은 예측값 ŷ를 뺀 게 잔차임.
잔차 = y − ŷ / 점에서 직선까지의 세로 거리임.

위로 빗나가면 +, 아래로 빗나가면 −.
그냥 더하면 +와 −가 상쇄돼 0이 됨 / 빗나간 양을 못 잼.

그래서 부호를 없애려고 제곱함.
제곱하면 큰 빗나감에 더 큰 벌점이 붙음 / 멀리 튄 점이 직선을 더 끌어당김.

실제값 − 예측값, 그 길이
잔차 = y − ŷ
xy

파란 선분 하나하나가 잔차 / 그 길이를 제곱해 더함

P.03통계 · 13

잔차제곱합 최소 = 최소제곱

잘 맞춤의 기준을 숫자 하나로 정함. 잔차를 제곱해 다 더한 값임.

이 값이 잔차제곱합 SSE = Σ(y − ŷ)²임.
SSE가 작을수록 직선이 점들에 가까이 붙은 것임.

이 SSE를 가장 작게 만드는 a, b를 고르는 게 최소제곱법임.
오른쪽에서 직접 해봄.
손잡이를 끌어 맞춰 보고, 최적선을 눌러 비교해 보셈.

아무리 잘 맞춰도 최적선보다 SSE를 더 줄이진 못함.
그 최적이 최소제곱해임 / 식으로 딱 떨어지게 구해짐.

SSE를 가장 작게 만드는 직선
잔차제곱합 최소화 · 직접 맞춰보기
파란 손잡이를 끌어 직선을 맞춰 보셈
xy
내 직선

y = 0.40x + 2.50

기울기 의미

x 1↑ → y 0.40 변화

내 SSE

10.22

최소 SSE

2.64

내 SSE − 최소 SSE = 7.58. 0에 가까울수록 잘 맞춘 것임.

P.04통계 · 13

기울기 = x 1당 y 변화

직선을 구했으면 기울기 a가 관계를 말해줌.

a는 x가 1 늘 때 y가 평균 얼마나 변하는지임.
a = 0.7이면 / x 1↑ → y 0.7↑.
a가 음수면 x가 늘 때 y는 줆.

절편 b는 x=0일 때 예측 y임 / 직선이 세로축을 만나는 높이.

그래서 회귀는 두 가지를 줌.
예측은 새 x를 식에 넣어 ŷ를 얻는 것
관계 파악은 a의 부호·크기로 x가 y에 주는 영향을 읽는 것

최소제곱해 공식 (펼치기)최소제곱 기울기와 절편은 식으로 바로 나옴.
a = Σ(xᵢ−x̄)(yᵢ−ȳ) / Σ(xᵢ−x̄)²
b = ȳ − a·x̄
x̄, ȳ는 x와 y의 평균임.
최적선은 항상 평균점 (x̄, ȳ)를 지남.
a 한 칸의 의미
기울기 a = Δy / Δx
xyΔx=1Δy=a

x 한 칸 갈 때 y가 a만큼 오름 / a = 0.66이면 x 1↑ → y 0.66

1.98
P.05통계 · 13

정리 — 예측과 관계, 한 직선으로

선형 회귀는 점들에 가장 잘 맞는 직선 y = ax + b를 찾는 일임.

잘 맞춤의 기준은 잔차제곱합(SSE)을 최소로 = 최소제곱.
기울기 a는 x 1당 y 변화 / 예측과 관계 파악에 씀.

다음 강은 로지스틱 회귀임.
연속값이 아니라 “예/아니오” 확률을 예측하는 회귀로 넘어감.

Q. 최소제곱법이 최소화하는 것은?정답은 잔차의 제곱합임.
잔차 = 예측값 ŷ와 실제값 y의 차이(y − ŷ) / 점과 직선의 세로 거리.
이 잔차들을 제곱해 다 더한 SSE = Σ(y − ŷ)²를 가장 작게 만드는 a, b를 고름.
회귀가 답하는 두 질문
회귀가 답하는 것
질문
수치가 얼마?예측새 x → ŷ = ax + b
어떤 관계?기울기 ax 1당 y 변화·부호
얼마나 잘 맞나?SSE잔차제곱합 최소

3줄 요약

  1. 1수치가 얼마? — 점에 직선 맞추기(최소제곱)
  2. 2선형 회귀은 분포 → 표본 → 검정 → 회귀 → 모델 선택 흐름 안의 한 칸이다.
  3. 3개념을 외우는 것보다 입력을 바꾸면 무엇이 달라지는지 보는 것이 우선이다.

완료 전 점검

복습 카드

선형

수치가 얼마? — 점에 직선 맞추기(최소제곱)

분포

데이터가 어떤 모양으로 퍼져 있는지 나타낸 것

표본

전체를 알기 위해 뽑아 본 일부 데이터