[AITech] 20220209 - Generative Model II

3 minute read

학습 내용

이번 포스팅에서는 지난 [Generative Model II] 포스팅에서 얘기한 것처럼, 대표적으로 사용되는 Generative model인 VAE와 GAN에 대해 수식을 위주로 알아보겠습니다.

VAE

VAE and AE

강의에서는 먼저 이 질문을 먼저 던집니다.

“AutoEncoder는 generative model일까요?”

어떻게 생각하시나요? VAE가 생성 모델인 것처럼, AE도 생성 모델이라고 생각하시나요?

간단하게 VAE와 AE가 무엇인지부터 얘기해보겠습니다.

AutoEncoder는 입력 x와 동일한 출력 y를 만들어내기 위해 학습되는 네트워크입니다. AutoEncoder 모델 내부의 latent space에서는 입력 x와 같은 출력 y를 만들기 위해 그 ‘값’을 저장합니다.

반면 Variational AutoEncoder는 모델 내부의 latent space에서 입력 x들에 대한 ‘확률 분포’를 생성합니다.

바로 이것이 AE와 VAE가 다른 점이자, 생성 모델이 아닌 AE에서 생성 모델인 VAE로 나아갈 수 있도록 해 준 부분입니다. 지난 포스팅에서 이야기했던 것 기억나시나요? Generative model이란, 입력 x의 확률 분포를 모델링하는 모델입니다. 따라서 VAE는 generative model이고, AE는 아닌 것이죠.

Objective of VAE

자, 이제 VAE 얘기를 해봅시다. VAE에서 하는 추론을 Variational inference(VI)라고 하는데요, 이 VI의 목적은 입력 데이터 x의 확률 분포인 posterior distribution p에 가장 잘 match하는 모델링 확률 분포 variational distribution q를 찾는 것입니다. 다시 말하면, 이는 variational distribution과 posterior distribution 사이의 KL divergence를 최소화하는 것이라고 할 수 있습니다.

그런데 잠깐. 뭔가 이상하지 않나요?

목표 확률분포인 p(z

x)를 모르는데, 어떻게 그 확률분포에 가까운 q(z

x)를 찾아가죠? (모르는데 어떻게 가요;; 😢)

바로 여기서 사용할 수 있는 방법이 있고, 아래와 같이 수식이 전개됩니다.

데이터의 확률 분포는 ‘ELBO(Evidence Lower Bound)’ 항과 ‘KL Divergence’ 항으로 나눠질 수 있습니다. 그리고 바로 이 ELBO 항은 tractable하기 때문에, 우리는 ELBO 항을 최대화하는 것의 반대급부로 KL Divergence 항이 최소화되는 효과를 얻을 수 있습니다.

그리고 ELBO 항은 다시 아래와 같이 나눠질 수 있습니다.

ELBO는 ‘Reconstruction Term’과 ‘Prior Fitting Term’으로 나눠지고, 결국 이 두 항을 최소화하는 것이 VAE의 목표입니다. 즉, 바로 이 수식이 VAE의 손실 함수가 되는 것입니다. (이렇게 수학적으로 모델 손실 함수가 도출되는 걸 볼 때마다 너무 신기…)

Limitation of VAE

VAE에는 몇 가지 한계점이 있는데요, 그에 대해 살펴봅시다.

VAE는 intractable model이다. (가능도를 계산하기 어렵다)
- 따라서 implicit model이다.
Prior fitting term은 미분이 되는 모양이어야 하는데(손실 함수이기 때문에), 이것이 많은 distribution 형태를 사용하지 못 하게 막는다.
따라서 대부분, VAE에서는 ‘isotropic Gaussian’(모든 output distribution이 independent한 gaussian distribution)을 사용한다.

다른 확률분포를 모델링하고 싶음에도 불구하고, VAE에서는 그 제약사항 때문에 Isotropic Gaussian 만을 사용해야 하는 것입니다.

AAE

AAE(Adverserial Auto Encoder)는 이러한 VAE의 한계를 극복합니다. 그 방법에 대해 여기서 논하지는 않지만 아래 참고자료에 논문 링크를 달아놨으니 궁금하신 분들은 한 번 보시면 좋을 것 같습니다.

간단하게 말하면, AAE는 GAN 구조를 이용하여 prior fitting term을 GAN의 objective로 전환합니다. 이는 곧 sampling만 가능하다면(미분이 가능하지 않아도), 그 어떤 distribution 형태도 사용할 수 있음을 의미합니다.

따라서 AAE는 우리가 그 어떤 임의의 distribution도 sampling만 가능하다면 사용할 수 있도록 해줍니다.

GAN

GAN입니다. 많은 분들이 Generative model하면 GAN을 많이 떠올리실 것 같습니다. 가장 매력적이고 강력한 네트워크니까요.

이제는 어느정도 진부하게 느껴질 정도지만, GAN 구조를 설명할 때는 ‘지폐 위조범과 이를 구별해내는 경찰의 싸움’이라는 이야기를 많이 하죠. 즉 실제 이미지와 유사한 가짜 이미지를 만들어내는 ‘Generator’와 실제 이미지와 가짜 이미지를 구별해내는 ‘Discriminator’의 싸움입니다. GAN의 가장 큰 장점은 바로 이 구별해내는 Discriminator도 가만히 있는 것이 아닌, 학습을 한다는 것이죠. 이로써 Generator와 Discriminator의 성능은 동시에 함께 올라갑니다.

아래는 GAN의 구조를 VAE의 구조와 비교하여 나타낸 그림입니다.