Daily Papers — 2025-11-20
1. Mixture of States: Routing Token-Level Dynamics for Multimodal Generation
Introduction
- Goal: 본 논문은 다중모달 확산 모델에서 모달리티 간 융합을 유연하고 동적으로 수행하는 Mixture of States (MoS)라는 새로운 융합 패러다임을 제안하는데 목적이 있다.
- Motivation: 텍스트와 비주얼 모달리티 간의 표현 정렬 문제는 이질적인 특성과 고정된 상호작용 설계로 인해 해결이 어렵고, 기존 방법들은 계층 고정과 대칭성 제약 등으로 한계가 존재한다.
- Contribution: MoS는 입력과 디노이징 단계에 따라 토큰 단위로 적응적으로 상태를 선택하는 학습 가능 라우터를 도입하여, 적은 파라미터와 계산량으로 최첨단 성능을 달성하는 유연하고 효율적인 다중모달 융합 구조를 제시하였다.
Method
MoS는 텍스트 및 이미지 모달리티의 모든 계층 은닉 상태를 이용하고, 각 디노이징 단계에서 입력, 시점, 노이즈에 의존하는 토큰별 라우터를 통해 희소하고 동적인 특징 선택을 수행한다.
라우터는 경량 변환기 구조에 기반하며 top-k ϵ-greedy 샘플링을 통해 선택된 상태를 가중합하여 생성 타워에 전달함으로써 시간 및 토큰별 적응적 융합이 가능하다.
이 방식은 비대칭적이며 깊이가 다른 변환기 백본 간의 효과적인 상호작용을 가능하게 하며, 텍스트-이미지 생성과 편집 모두에 적용된다.
Results
제안된 MoS 기반 모델은 3~5B 파라미터 크기임에도 불구하고, 기존 4배 큰 모델들과 동등하거나 더 뛰어난 성능으로 텍스트-이미지 생성 및 이미지 편집 분야에서 최첨단 결과를 달성하였다.
Limitations
현재 모델은 훈련에 상당한 자원을 요구하며, 본 논문에서는 복합한 멀티모달 태스크를 완전히 통합하는 부분에 대한 실험이 제한적이다.
Conclusion
MoS는 동적이고 희소한 상태 기반 상호작용을 통해 확산 모델에서 다중모달 융합을 대폭 개선하며, 효율적이고 확장 가능한 차세대 멀티모달 생성 모델 설계의 유망한 방향임을 입증하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: