[정리] Variational Discriminator Bottleneck

title

Paper / Official Page

1. Introduction

Adversarial learning methods의 가장 큰 문제점은 학습과정이 불안정하다는 것이다. 학습의 안정성을 위해서는 generator와 discriminator 사이의 학습 균형을 잘 유지하는 것이 아주 중요하다. Discriminator의 성능이 너무 좋으면 generator의 학습에 유용한 gradient가 잘 발생하지 않고, 그렇다고 discriminator의 성능이 나쁘면 generator가 학습하는 것을 방해하기 때문이다.

본 논문에서는 information bottleneck 역할을 하는 variation approximation을 사용하여 discriminator의 성능을 적절하게 유지하는 방안에 대해 다룬다. 저자들은 이 adaptive stochastic regularization method를 Variational Discriminator Bottleneck (VDB)라 명명하고, 이것이 imitation tasks, learning dynamic continuous control from video demonstrations, inverse reinforcement learning과 같이 여러가지 영역에서 폭넓게 사용되어 좋은 성능을 낼 수 있음을 보인다.

2. Preliminaries

본격적인 내용에 들어가기에 앞서 supervised learning 관점의 variational information bottleneck에 대해 알아보도록 하자. Feature , labels 로 이루어진 dataset 이 주어졌을때, 적절한 discriminator를 얻는 것은 다음 문제에 대한 solution 를 찾는 것과 같다.

하지만 위 문제는 푸는 과정에서 쉽게 overfitting을 야기하여 model이 data의 특이한 부분(idiosyncrasy)을 결과물에 반영하는 경우가 종종 생긴다. 이에 Alemi et al. (2016)는 information bottleneck이라는, mutual information을 이용한 regularization 기법을 제안했다.

3. Variational Discriminator Bottleneck

는 feature 를 latent distribution에 매핑(mapping)하는 encoder이며, 는 encoding된 feature와 original feature 간의 mutual information이다. 위 최적화 문제는 model이 가장 특징적인 feature를 중점적으로 보도록 하는 것이라고 볼 수 있다.

여기서 mutual information 를 좀 더 자세히 살펴보자. Mutual information이란 하나의 확률변수를 관측했을때 또 다른 확률변수에서 얻을 수 있는 정보량을 뜻한다. Mutual information의 정의에 의하면 는 다음과 같이 전개된다.

Mutual information을 계산하기 위해서는 marginal distribution 을 계산해야 하는데, 이것을 계산하는 것이 intractable하므로 variational lower bound를 사용하여 문제의 contraint를 약간 변형한다.

우선 marginal에 대한 근사함수 을 도입해보겠다. 항상 참인 명제 로부터 의 관계식을 유도해보자.

이 관계를 이용하면 의 upper bound를 구할 수 있다.

의 upper bound를 활용하여 앞서 정의한 문제 에 대한 tractable upper bound인 를 정의해보자. ()

Unconstrained optimization으로 위 문제에 접근한다면 문제를 Lagrangian형태로 변형하여 unconstrained problem으로 변환할 수 있다. (with coefficient )

Variational Information Bottleneck (VIB)은 overfitting을 줄이는 효과가 있으며 도한 adversarial examples에 대해 robust한 특성을 보인다.

4. Variational Discriminator Bottleneck

다음은 discriminator 와 generator 로 구성되어있는 기본적인 GAN framework다.

Discriminator에 encoder 를 도입하여 GAN’s discriminator + VIB의 문제를 정의해보자.

(mixture distribution은 (특히 초반의) 학습이 잘 되지 않은 에 의해 일어날 수 있는 high variance를 방지한다.)

위의 문제를 Variational Discriminator Bottleneck (VDB)라 명명한다. 또한 Lagrange function을 통해 동일한 문제를 아래와 같이도 정의할 수 있다. ( is a Lagrangian multiplier)

Dual Gradient Method를 통해 위 문제를 푼다면 에 대한 update는 아래의 과정을 반복하게 될 것이다.

그 외

title

Fig2의 우측 그림은 disjoint support의 2개 가우시안 분포에 대한 discriminator의 decision boundary를 가시화한 것이다. Constraint가 느슨해질수록 decision boundary가 더 날카로워지는 것을 확인할 수 있다. 즉, 가 낮아질수록 decision boundary가 완만해지므로, generator의 학습을 위한 informative gradient가 더욱 제공될 것이다.

5. VAIL: Variational Adversarial Imitating Learning

Ho & Ermon (2016)은 generative adversarial imitation learning (GAIL)을 통해 target policy 와 agent의 policy 로부터의 state distributions를 구분하는 discriminator를 제안했다.

VDB를 discriminator에 도입하면 최적화 문제는 아래와 같이 변형되고, 저자들은 이를 Variational Adversarial Imitation Learning (VAIL)이라 칭한다.

6. VAIRL: Variational Adversarial Inverse Reinforcement Learning

Fu et al. (2017)는 Adversarial Inverse Reinforcement Learning (AIRL)을 통해 disentangled reward function을 학습하는 discriminator를 다음과 같이 정의했다.

VAIRL에서는 stochastic encoders 와 latent variable에 대한 함수 를 도입되며 discriminator는 아래와 같이 변형된다.

또한 VAIRL의 최적화 문제는 아래와 같다.

7. Experiments

VDB가 imitation learning, inverse reinforcement learning, image generation에 대해 효과적으로 작동하는지 실험해본다.

7.1 VAIL: Variational Adversarial Imitating Learning

Mocap clip의 single demonstration을 얼마나 잘 따라하는지 측정하는 실험이다. 128차원의 encoding , information constraint , dual stepsize 를 사용하였으며, policy의 학습에는 PPO를 이용했다.

title

VAIL과 VAIL-GP (Gradient Penalty to the discriminator)가 가장 좋은 성능을 보였으며, handcrafted reward를 사용한 경우에 전반적으로 상당히 근접한 결과를 얻어냈다.

7.2 VAIRL: Variational Adversarial Inverse Reinforcement Learning

C-Maze와 S-Maze 환경에서 dynamics의 변동이 발생하더라도 agent의 유의미한 behaviour를 얼마나 잘 유지하는지 측정해보았다. C-Maze에서 AIRL이 gradient penalty 없이는 overfitting으로 인해 transferring에 실패하는 모습을 종종 보인 반면에, VAIRL은 gradient penalty 없이도 transferring task에 좀 더 안정적인 모습을 보였다. 또한 KL constraint를 사용하지 않았을때 두 개의 task에서 VAIRL의 성능이 떨어지는 것을 관찰할 수 있었다.

title

7.3 VGAN: Variational Generative Adversarial Networks

VDB를 이미지 생성모델에 적용하여 CIFAR-10, CelebA, CelebAHQ 데이터셋을 이용해 실험해보았다. 실험 비교군은 근래 제안되었던 stabilization technicques인 WGAN-GP, Spectral Normalization (SN), Gradient Penalty (GP) 및 original GAN이 채택되었다. 성능 측정에는 Fréchet Inception Distance (FID)를 이용하였다.

모든 methods는 Mescheder et al. (2018)의 resnet architecture를 base model로 구현하였고, VGAN의 경우 KL constraint 외의 모든 파라미터는 Mescheder et al. (2018)의 것을 그대로 사용했다.

title

VDB에 Gradient Penalty가 적용된 것이 가장 좋은 성능을 보였으며, VDB에 SN이 적용된 경우에는 쉽게 diverging하는 모습이 관찰되었다.