GenTron : Diffusion Transformers for Image and video Generation

Abstract

이 논문은 Transformer 기반 Diffusion 모델을 Image와 Video Generation Task에 적용하는 논문이다. Diffusion Transformer에서 시작해 이를 영상 생성모델로 확장한 버전이라고 이해할 수 있다.

1. Introduction

이번 논문은 Transformer을 Diffusion에 적용한 버전을 개량한다. DiT에서는 1000개의 Class Conditional Input만 주어졌지만, 이 논문에서는 기존의 Language Embedding을 활용하여 prompt 기반 영상 생성을 목표로 한다. 그리고 이 Condition을 주는 방식 adaLN vs Cross Attention, Text Encoding Method도 비교한다고 한다. 결과적으로 T2I Model을 Temporal Self Attention Block을 삽입하여 T2V model로 잘 변환할 수 있었다고 한다. 또한 저자들은 Motion Free Guidance를 도입하여 이미지와 영상을 동시에 학습할 수 있는 프레임워크를 제안한다.

3. Method

3.2 Text-to-image GenTron

GenTron Model은 DiT-XL/2 모델을 기반으로 변형되었다고 한다. Latent Space를 $32 \times 32 \times 4$형태로 정의하고 이를 Non-overlapping $2 \times 2$ patchify Layer를 통해 변형하여 $\mathbb{R}^{(16 \times 16) \times d}$ 길이의 Token으로 변형하는 과정을 거쳐 Transformer의 입력으로 들어간다는 의미이다. 이후 다시 Decoder를 활용하여 최종 Token을 Image Latent로 변환하는 과정을 거친다.

기존의 DiT Model이 사실 Class-Conditioned 시나리오에서는 놀라운 결과를 보이긴 했지만, 여전히 T2I 과제에 대해서는 UNet 기반의 방법론보다 더 좋은 결과를 가져오지 못했기 때문에, 저자들은 Transformer 기반 T2I에 대한 광범위한 연구를 진행하면서 최상의 성능을 얻고자 했다.

3.2.1 From Class to Text Condition

T2I Task는 전적으로 Text Condition에 의해 조절되기 때문에, 이와 관련하여 어떤 Text Embedding을 사용할 것인지, Text Embedding을 생성 과정에서 어떻게 사용할 것인지를 잘 선택해야 한다.

Text Encoder Model Transformer 기반 Diffusion 모델과 가장 잘 맞는 Embedding을 잘 찾기 위해서 이 논문에서는 Multi modal 인코더인 CLIP 인코더와 Language Model Flan-T5를 사용한다.

Embedding Integration 이 연구는 2가지의 Text Embedding을 통합하는 형태로 동작한다.

하나는 DiT에서 언급했던 AdaLN방식이다. Layer Normalization에 사용되는 파라미터를 학습 가능한 파라미터로 사용하는 것이 아니라 Condition(Time + Text)정보를 사용하여 처리하도록 하는 방식을 사용한다. 나머지 하나는 Cross-Attention 방법으로 Condition에 해당하는 정보를 Key, Value로, Image Feature에 해당하는 내용을 Query로 사용하여 제대로 정보를 섞는 과정을 거친다.

GenTron: Diffusion Transformers for Image and Video Generation

GenTron : Diffusion Transformers for Image and video Generation

Abstract

1. Introduction

3. Method

3.2 Text-to-image GenTron

3.2.1 From Class to Text Condition

Further Reading

Video Diffusion Models

ModelScopeT2V

Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation