[요약] MUNIT

Demo, Paper

1. Limitation of existing methods: Image-to-image translation의 경우, 보통 deterministic one-to-one mapping이거나 unimodal mapping이다.

2. Goal: many-to-many cross-domain mapping을 해보자!

3. Assumption:

4. Related works:

5. Model: 논문 Fig2 참고

6. Loss function: 논문 (1) ~ (5) 참고. Bidirectional reconstruction loss (Image reconstruction + latent reconstruction)와 Adversarial loss가 합쳐진 형태.

7. Theoretical Analysis: (some remarkable points) Joint distribution matching(when optimality is reached, we have \(p(x_1, x_{1\rightarrow2}) = p(x_{2\rightarrow1}, x_2))\)은 unsupervised image-to-image translation을 위한 중요한 제약사항이다. (CycleGAN에서 제안한 cycle consistency constraint로 이 제약사항을 만족시킬 수 있음) 허나, 이 제약사항을 너무 강제하게되면 model이 deterministic function이 된다. (AppendixA - 5에 증명) Multimodal image translation을 위해서는 cycle consistency를 다소 느슨하게 할 필요가 있음. => image를 target domain으로 translate하는 과정에 style code가 들어감으로써 이를 달성할 수 있음. original style code를 사용함으로써 target image를 다시 original image로 translate back 할 수 있다.

8. Implementation (Autoencoder part): 논문 Fig3 참고 discriminator로는 LSGAN의 것이 사용됨

9. Experiment: (1) Paired supervision으로 학습된 BicycleGAN에 거의 근접한 퀄리티를 보임. (2) 양적 평가에서 CycleGAN, UNIT을 압도

10. Conclusions: Multimodal unsupervised image-to-image translation을 위한 framework를 만들었다! 우리가 봐도 짱짱맨인듯. (양적 / 질적으로)

11. Questions… (Things to study more)