[Deep Learning] 딥러닝 개요
딥러닝
일반 신경망
- 소수의 은닉층 포함
- 원시 데이터에서 직접 특징을 추출해서 만든 특징 벡터를 입력으로 사용
- 특징 벡터들의 품질에 영향
딥러닝 신경망(심층 신경망)
- 다수의 은닉층 포함
- 특징 추출과 학습을 함께 수행
- 데이터로부터 효과적인 특징을 학습을 통해 추출 -> 우수한 성능
기울기 소멸 문제 (Vanishing gradient problem)
기울기 소멸 문제
란 은닉층이 많은 다층 퍼셉트론에서, 출력층에서 아래 층으로 갈수록 전달되는 오차가 크게 줄어들어, 학습이 되지 않는 현상을 말합니다.
이는 특히 은닉층의 뉴런의 활성화 함수로 시그모이드 함수 또는 하이퍼볼릭 탄젠트 함수를 사용하는 경우에 두드러지게 나타납니다.
이는 학습 과정에서 오차 역전파 시 오차의 미분치가 역으로 전달되어 학습이 수행되는데, 활성화 함수의 도함수 값이 0~1 사이의 값을 가지기 때문에 전달되는 양이 점점 작아짐으로써 나타나는 현상입니다.
기울기 소멸 문제 완화
따라서 이를 해결하기 위해 은닉층의 활성화 함수로 ReLU(Rectified Linear Unit)
함수를 사용할 수 있습니다.
ReLU 함수를 사용할 경우 아래 그림과 같이 오차의 미분치가 보존되어 전달됩니다.
ReLU 함수 사용과 함수 근사
- 함수를 부분적인 평면 타일들로 근사하는 형태
- 출력이 0 이상인 것들에 의해 계산되는 결과
- 입력의 선형결합(입력과 가중치 행렬의 곱들의 합)의 결과
ReLU와 변형된 형태
ReLU 함수는 여러 형태의 변환된 함수들을 가집니다.
- ReLU
- Reaky ReLU
- ELU (Exponential Linear Unit)
- Maxout
- PReLU (Parametric ReLU)
가중치 초기화
가중치 초기화
- 신경망의 성능에 큰 영향을 주는 요소
- 보통 가중치의 초기값으로 0에 가까운 무작위 값 사용
개선된 가중치 초기화 방법
각 노드의 입력 노드 개수 ni와 출력 노드의 개수 ni+1를 사용하는 방법
- 균등 분포
- 제이비어(Xavier) 초기화
- 허(He) 초기화
과적합 문제
과적합
- 모델이 학습 데이터에 지나치게 맞추어진 상태
- 데이터는 잡음이나 오류를 포함하므로 학습 데이터셋에 지나치게 맞추어진 모델은 테스트 데이터셋에서 좋은 성능을 보일 수 없다.
과적합 완화기법
- 조기 종료
- 규제화
- 드롭아웃
- 미니배치
- 배치 정규화
- …
조기 종료
모델 훈련 중 검증 데이터셋에 대한 성능을 관찰하며 성능이 좋아지지 않으면 학습을 종료한다.
규제화 기법
오차 함수를 오차 항과 모델 복잡도 항으로 정의한다.
모델이 복잡해지면 과적합이 될 수 있으므로, 모델 복잡도를 패널티 항으로 추가한다.
오차 함수 = (오차 항) + α (모델 복잡도 항)
모델 복잡도 항에는 크게 모든 가중치들에 대해 골고루 규제를 가하는 L1 규제(Lasso)
와 큰 가중치들에 대해 더욱 강한 규제를 가하는 L2 규제(Ridge)
가 있다.
- L1 규제(Lasso)
- L2 규제(Ridge)
드롭 아웃
- 일정 확률로 노드들을 무작위로 선택하여, 선택된 노드의 앞뒤로 연결된 가중치 연결선을 없는 것으로 간주하고 학습
- 미니배치나 학습주기마다 드롭아웃할 노드들을 새롭게 선택하여 학습
- 추론 시에는 드롭아웃을 하지 않고 전체 학습된 신경망을 사용하여 출력 계산
미니 배치
- 전체 데이터: batch / 전체 데이터의 일부: mini-batch
- 학습 데이터가 큰 경우에는 미니배치 단위로 학습
- 경사 하강법 적용 시 미니배치의 그레디언트를 사용
- 미니 배치에 속하는 각 데이터의 그레디언트의 평균 값을 사용
- 미니 배치를 사용하여 데이터에 포함된 오류에 대해 둔감한 학습이 가능
- 과적합 문제 완화에 도움
배치 정규화
-
내부 공변량 이동
- 오차 역전파 알고리즘을 통한 학습 시 발생
- 이전 층들의 학습에 의해 해당 층들의 가중치가 바뀌게 되면, 현재 층에 전달되는 데이터의 분포와 현재 층이 학습했던 시점의 분포 사이에 차이가 발생. 이로 인해 학습 속도 저하
-
배치 정규화
-
신경망의 각 층에서 미니배치 B의 각 데이터에 가중치 연산을 적용한 결과인 xi의 분포를 정규화
-
𝒙𝑖의 평균 𝝁𝐵가 0이 되고 표준편차 𝝈𝐵는 I가 되도록 변환
- 크기조정(scaling) 파라미터 𝛾와 이동(shifting) 파라미터 𝛽 적용
- 변환된 데이터 𝒚𝑖 생성
-
- 가중치 연산 결과의 미니 배치: B = {x1, x2, …, xm}
- 배치 정규화 적용 결과: {y1, y2, …, ym}
-
Leave a comment