Day 5 · CNN 기초

오늘 끝나면

CNN 기초

✓CNN 기초의 핵심 문제를 한 문장으로 설명한다
✓오른쪽 실습에서 CNN이 어떻게 움직이는지 관찰한다
✓다음 강의와 이어지는 한계를 말할 수 있다

실습 미션

1989 LeCun → 2012 AlexNet의 ImageNet 충격 이 문장이 실제로 무슨 뜻인지 실습에서 한 번 손으로 확인한다.

성공 조건

□실습의 기본값을 먼저 관찰
□입력값이나 모드를 한 번 이상 바꿔 결과 비교
□왜 결과가 바뀌었는지 한 문장으로 설명

AI · Day 5 / 지도학습 · 생성 DL

이미지를 보는
뉴런

픽셀을 한 줄로 펴서 MLP에 넣는 순간 그림이 죽음. CNN은 안 폄. 작은 필터를 이미지 위로 미끄러뜨림.같은 눈으로 모든 자리를 봄. 오늘은 그 발상을 바닥부터 따라감.

P.01AI · Day 5

MLP는 왜 그림을 못 보나

MLP로 손글씨 분류도 잘 됨. 근데 왜 CNN을 따로 만들었을까?

MLP는 이미지를 못 받음. 28×28 픽셀을 한 줄로 펴서 784차원 벡터로 만들어야 들어감.

펴는 순간 옆 픽셀이 옆이라는 사실, 즉 공간 구조가 사라짐. 모델은 3번·4번 픽셀이 이웃인지 정반대편인지 알 길이 없음.

첫 층 가중치만 784 × 512 ≈ 40만 개임. 근데 똑같은 고양이가 3픽셀만 옮겨가도 MLP엔 완전히 새 입력임. 위치 바뀌면 처음부터 다시 배워야 함.

28×28 이미지를 펴면 784차원

P.02AI · Day 5

필터를 미끄러뜨린다

CNN의 핵심은 한 문장임. 작은 필터 하나를 이미지 전체에 돌려씀.

커널은 3×3 가중치 묶음임. 이걸 이미지 왼쪽 위에 올림 / 겹친 9개 픽셀과 곱해 더함 / 그 값 하나가 출력 한 칸이 됨.

커널을 한 칸 오른쪽으로 밀고 또 계산함. 끝까지 미끄러뜨리면 새 격자가 나옴. 이걸 특징 맵이라 함.

핵심은 같은 9개 가중치를 모든 위치에서 재사용한다는 것. 이게 파라미터 공유임. 덕분에 고양이가 어디 있든 같은 눈으로 찾음. MLP가 못 가진 평행 이동 불변성의 출발점임.

3×3 커널의 합성곱

P.03AI · Day 5

필터는 무엇을 보나

그 9개 숫자엔 뭐가 들어갈까? 학습 전에 손으로 채워 보면 직관이 옴.

왼쪽은 음수, 오른쪽은 양수로 채운 커널을 봄. 밝기가 평평한 곳에선 양수·음수가 상쇄돼 0에 가까움. 근데 어두운 면에서 밝은 면으로 넘어가는 세로 경계를 만나면 큰 값이 튐. 이게 에지 검출 필터임.

CNN은 이 숫자를 사람이 안 정함. 역전파가 직접 학습함. 첫 층은 에지·색 얼룩 같은 저수준 패턴을 찾음. 깊은 층은 눈·바퀴·글자처럼 복잡한 패턴을 스스로 찾음. 우리가 한 건 구조만 깔아 준 것뿐임.

파이썬 코드 보기

# 세로 에지 검출 커널 (Sobel)
kernel = [[-1, 0, 1],
          [-2, 0, 2],
          [-1, 0, 1]]

# 평평한 영역  -> 합이 0   (반응 없음)
# 세로 경계    -> 큰 값    (에지 감지)

# CNN에선 이 9개 숫자를
# 사람이 안 정한다.
# 역전파가 스스로 학습한다.

Q. 합성곱 출력 크기 공식은?

입력 N, 커널 K, 패딩 P, 스트라이드 S일 때 출력은 (N 빼기 K 더하기 2P) 나누기 S 더하기 1. 입력 28, 커널 3, 패딩 0, 스트라이드 1이면 출력은 26임.

커널을 직접 만지는 합성곱 sim

CNN 학습 · TensorFlow.js

테스트 이미지 예측 (빨강 = 틀림)

학습된 conv 필터 6개

epoch 0

세로 막대 vs 가로 막대. CNN이 직접 학습해서 가른다. ▶ 학습 시작.

P.04AI · Day 5

풀링과 전체 골격

특징 뽑았으면 다음은 요약임. 숫자가 너무 많으니 줄여야 함.

맥스 풀링은 2×2 영역에서 가장 큰 값 하나만 남기는 것. 가로세로가 절반으로 줄어 계산이 가벼워짐. 동시에 특징이 한두 픽셀 움직여도 같은 답을 내는 작은 강건함을 얻음.

전형적인 CNN은 이 블록을 쌓음. Conv → ReLU → Pool을 몇 번 반복해 점점 작고 깊은 특징 맵을 만듦. 마지막에 한 줄로 펴서 완전연결층으로 분류함.

1998년, 르쿤이 LeNet으로 이 골격을 세움. 2012년, AlexNet이 이걸 키워 ImageNet을 뒤집음.

Conv → Pool → FC 파이프라인

P.05AI · Day 5

현장에서 무엇을 바꾸나

이 구조가 비즈니스에서 뭘 바꿨을까? 한마디로 눈으로 하던 검사를 자동화함.

제조 현장은 부품 표면 흠집을 사람이 일일이 봄. 같은 흠집이 화면 어디 찍혀도 잡아내야 함. 이게 CNN의 평행 이동 불변성이 빛나는 자리임. 수백 장만 라벨링해도 95%대 검출이 나오기 시작함.

핵심은 데이터임. 흠집 사진이 적으면 좌우 반전·회전·밝기 변형으로 부풀림. 이걸 데이터 증강이라 함. CNN은 작은 변형에 강함. 근데 그 강건함도 보고 배운 만큼만 생김. 구조가 절반, 데이터가 절반임.

Q. 28×28 입력에 3×3 커널 32개, 패딩 1, 스트라이드 1을 쓰면 출력 크기는?

패딩 1이라 가로세로는 28×28 그대로 유지. 커널 32개라 채널이 32개가 됨. 출력은 28×28×32 임. 패딩이 가장자리를 지켜 크기를 보존함.

학습 손실 곡선