Daily Papers — 2025-10-10
1. UniVideo: Unified Understanding, Generation, and Editing for Videos
Introduction
- Goal: 본 연구의 목표는 영상 분야에서 통합된 멀티모달 인식, 생성, 편집을 지원하는 범용 프레임워크 UniVideo를 개발하는 것이다.
- Motivation: 기존 통합 모델들은 이미지 도메인에 국한되어 영상에 대한 통합 모델링과 복합 멀티모달 지시사항 처리가 제한적인 문제를 해결하고자 하였다.
- Contribution: 본 연구는 MLLM과 MMDiT를 결합한 이중 스트림 아키텍처를 제안하여 다양한 영상 생성 및 편집 작업을 하나의 다중모달 지시 패러다임으로 통합하고, 다양한 과제에서 최첨단 성능과 새로운 작업 일반화를 달성하였다.
Method
UniVideo는 시맨틱 이해를 담당하는 MLLM과 세밀한 영상 생성을 위한 MMDiT를 조합한 이중 스트림 구조로 설계되었다. MLLM은 텍스트, 이미지 및 영상 입력을 이해하며, MMDiT는 VAE 기반 인코더를 활용하여 정교한 시각 신호를 처리한다. 이 아키텍처를 통해 다중 과제를 통합하고, 비디오 편집 및 문맥 내 영상 생성의 정밀성 및 일관성을 보장한다.
Results
대규모 벤치마크에서 UniVideo는 텍스트 및 이미지-투-비디오 생성, 문맥 내 생성과 편집 등 다양한 영상 작업에서 기존 최첨단 모델들을 능가하거나 동등한 성능을 보였으며, 마스크 없이 지시 기반 편집을 수행하는 유일한 모델로서 높은 편집 정확성과 주체 일관성을 기록하였다.
Limitations
복합적인 자유형식 비디오 편집 데이터에 대한 명시적인 학습이 이루어지지 않아 일부 미세한 편집 작업에서 제약이 있을 수 있다.
Conclusion
UniVideo는 멀티모달 영상 이해, 생성, 편집을 통합한 혁신적 모델로, 다양한 작업을 단일 체계에서 수행하며 기존 방법들이 어려워하던 작업 조합과 제로샷 일반화를 가능하게 하여 향후 멀티모달 AI 연구의 새로운 방향을 제시한다.
2. VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
Introduction
- Goal: 본 연구는 임의의 시공간적 패치로부터 영상을 완성하는 통합적 비디오 완성 과제를 제안하고, 이를 해결하기 위한 VideoCanvas 프레임워크를 제시하는 데 목적이 있다.
- Motivation: 기존의 제어 가능한 비디오 생성 기법들은 특정 작업에 국한되어 시공간적 제어를 통합적으로 다루지 못하는 한계가 존재한다.
- Contribution: In-Context Conditioning(ICC)과 새로운 하이브리드 조건화 전략을 활용하여, 동결된 VAE 백본 위에서 미세한 시공간적 제어를 효율적으로 가능하게 하는 VideoCanvas를 개발하였다.
Method
VideoCanvas는 공간 제어를 위한 제로 패딩과 시간적 정렬을 위한 Temporal RoPE Interpolation을 결합한 하이브리드 컨디셔닝 전략을 적용한다. 이를 통해 VAE의 시간적 모호성을 해소하며, 재학습 없이도 세밀한 프레임 단위 제어를 실현한다. 조건 영상 토큰과 원본 잠재 토큰을 단일 시퀀스로 합쳐 DiT를 효율적으로 미세 조정한다.
Results
VideoCanvas는 VideoCanvasBench 벤치마크에서 기존의 Latent Replacement 및 Channel Concatenation 기법 대비 모든 평가 지표에서 우수한 성능을 보이며, 사용자 연구에서도 높은 선호도를 얻었다.
Limitations
독립적인 프레임 인코딩 방식은 희소 조건 입력에 효과적이나, 밀집 조건 입력 시 연산 비용 측면의 트레이드오프가 존재한다.
Conclusion
본 연구는 임의의 시공간적 패치로부터 영상 완성을 가능하게 하는 통합적 프레임워크를 통해 유연하고 강력한 비디오 합성 기반을 마련하였으며, 향후 비디오 생성 연구에 중요한 기초가 될 것이다.
3. UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
Introduction
- 본 논문의 목표는 텍스트, 이미지, 비디오 등 다양한 모달 조건을 통합하여 다중 모달 기반의 고해상도 비디오 생성 및 초해상화를 수행하는 통합 프레임워크 UniMMVSR을 제안하는 것이다.
- 기존 텍스트 기반 비디오 생성 연구들은 다중 모달 조건을 제대로 활용하지 못해 생성된 비디오의 충실도가 떨어지는 한계를 지니며, 이를 극복할 필요가 존재한다.
- UniMMVSR은 로우 레졸루션 비디오와 텍스트, 다중 ID 이미지, 참조 비디오를 조건으로 활용할 수 있는 최초의 다중 모달 영상 초해상화 생성 모델을 제시하였다.
Method
- UniMMVSR은 텍스트-비디오 변환을 기반으로 다중 모달 조건을 통합하여 시퀀스 토큰 연결(token concatenation) 방식을 통해 시각 정보를 통합하고, 별도의 위치 임베딩(RoPE)을 적용하여 조건간 혼동을 방지한다.
- 고해상도 영상과 로우 레졸루션 영상을 실제 기반 모델 결과를 모사하는 맞춤형 열화파이프라인(SDEdit 기반)을 통해 합성하여 훈련의 견고성을 강화하였다.
- 어려운 과제부터 쉽게 해결하는 순차적 훈련 전략과 참조 데이터의 증강 기법을 도입하여 다양한 비디오 생성 및 편집 과제에서의 전이 학습 효과를 극대화하였다.
Results
- 다양한 비주얼 품질 및 조건 충실도 평가 지표에서 현존 최고 수준의 성능을 보였으며, 특히 4K 고해상도 다중 모달 유도 비디오 생성이 가능함을 실험적으로 입증하였다.
Limitations
- 정보 부족
Conclusion
- UniMMVSR은 다중 모달 조건을 효과적으로 활용하는 최초의 초해상도 영상 생성 프레임워크로서, 고품질 및 고충실도의 초고해상도 다중 모달 비디오 생성 문제에 대한 새로운 해결책을 제시하였다.
4. PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
Introduction
- Goal: 본 연구의 목표는 입력 비디오의 맥락을 유지하면서 텍스트 프롬프트로 지정된 목표 스타일로 비디오를 변환하는 영상 간 스타일 전송을 실현하는 것이다.
- Motivation: 기존 영상 스타일 전송은 페어링된 비디오 데이터 부족과 모션 및 시각적 일관성 유지가 어려워 한계가 존재하였다.
- Contribution: 이에 본 논문은 사전학습된 영상 확산 모델에 스타일 어댑터를 추가하고 이미지 쌍 데이터를 모션 증강으로 확장하여 시간적 일관성과 스타일 충실도를 높인 PICKSTYLE 프레임워크를 제안하였다.
Method
PICKSTYLE은 소스 비디오와 스타일 이미지 쌍에서 합성된 모션 증강을 통해 학습하며, 자신-어텐션 층에 저계수 어댑터를 삽입해 모션-스타일 전환을 특화시킨다. 독립된 텍스트(스타일) 및 비디오(맥락) 방향으로 분해하는 Context–Style Classifier-Free Guidance (CS–CFG)를 도입해 맥락 보존과 스타일 전송을 균형 있게 수행한다. 또한, 기존 무작위 노이즈 초기화 대신 부분 노이즈화된 입력 영상을 초기화에 사용하여 모션 및 내용 보존과 스타일 적용을 효과적으로 달성한다.
Results
다양한 벤치마크 실험에서 PICKSTYLE은 콘텐츠 정합도, 스타일 충실도, 그리고 시간적 일관성 지표 모두에서 기존 기법을 질적·양적으로 능가하였다.
Limitations
PICKSTYLE은 기반으로 사용하는 사전학습 모델의 한계로 인해 얼굴 및 손 등 세밀한 부위에서 왜곡이 발생할 수 있다는 한계가 존재한다.
Conclusion
본 연구는 제한된 데이터 내에서 스타일 전송의 품질과 시간적 안정성을 크게 향상시킨 영상 간 스타일 전송 프레임워크 PICKSTYLE을 제시하여 향후 제어 가능한 영상 스타일화 분야 연구의 기반을 마련하였다.
5. Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction
Introduction
- Goal: 본 연구는 텍스트 조건으로부터 시각 및 음향이 정합된 동영상을 생성하는 텍스트-투-사운딩-비디오(Text-to-Sounding-Video, T2SV) 생성 문제를 다룬다.
- Motivation: 기존 연구들은 단일 공유 캡션 사용 시 모달 간 간섭 문제와 최적의 교차 모달 상호작용 메커니즘 미확립이라는 두 가지 중요한 과제를 해결하지 못했다.
- Contribution: 이를 해결하기 위해 본 논문은 불필요한 모달 간섭을 없애는 계층적 시각기반 캡셔닝(Hierarchical Visual-Grounded Captioning, HVGC)과 쌍방향 정보 교환을 위한 듀얼 크로스어텐션(Dual Cross-Attention) 융합 메커니즘을 갖춘 듀얼 타워 구조인 BridgeDiT를 제안한다.
Method
계층적 시각기반 캡셔닝(HVGC)은 시각 정보를 기반으로 음향 및 영상에 각각 독립적이고 정확한 캡션을 생성하여 모달 간 간섭을 제거한다. BridgeDiT 아키텍처는 사전에 학습된 영상 및 음향 디퓨전 트랜스포머 두 타워를 포함하며, 각 타워 간 쌍방향 융합을 담당하는 듀얼 크로스어텐션 모듈을 삽입하여 시간적 및 의미적 동기화를 극대화한다. 다양한 융합 방식과의 비교 실험을 통해 듀얼 크로스어텐션 메커니즘의 우수성이 검증되었다.
Results
제안 방법은 AVSync15, VGGSound-SS, Landscape 세 가지 데이터셋에서 영상과 음향 품질, 텍스트 정합성, 그리고 오디오-비디오 동기화 측면에서 기존 최첨단 기법들을 대부분 능가하는 성능을 보였으며, 인간 평가에서도 가장 높은 선호도를 획득하였다.
Limitations
본 연구는 공유 캡션 문제와 교차 모달 융합 문제에 집중하였으나, 보다 복잡한 장면 표현과 장시간 생성에 대한 연구는 향후 과제로 남아 있다.
Conclusion
계층적 시각기반 캡셔닝과 듀얼 크로스어텐션 융합을 결합한 BridgeDiT는 텍스트-투-사운딩-비디오 생성에서 최신 성능을 달성하며 향후 T2SV 모델 설계에 중요한 방향을 제시한다.
6. Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
Introduction
- Goal: 본 논문은 기존에 훈련된 체크포인트를 재활용하여 대규모 언어 모델의 효율적인 사전학습을 위한 모델 확장 방법을 제안하는 것이다.
- Motivation: 기존에 투자된 막대한 계산 자원이 활용되지 못하는 문제를 해결하고, 학습 비용 절감과 성능 향상을 동시에 달성할 필요가 있다.
- Contribution: 미리 수렴한 Mixture-of-Experts (MoE) 모델에 적합한 직교적 성장 전략과 최적의 성장 시점을 규명하여 대규모 모델 확장에 성공적으로 적용하였다.
Method
본 연구는 깊이 확장(층 복제)과 폭 확장(전문가 수 증가)을 직교적으로 수행하며, 깊이 확장 시 기존 스택 방식 대신 층별 위치를 고려한 인터포지션 방식을 도입하여 구조적 특성을 유지하였다. 또한 폭 확장에서는 전문가 중복 시 가우시안 노이즈를 주입하여 전문가의 특화 성능을 촉진하였다. 성장 시점에 따른 성능 변화를 분석하여 처음 투자한 연산량(sunk cost)이 많을수록 최종 성능이 향상됨을 입증하였다.
Results
70B 파라미터 규모의 MoE 모델을 1조 개 토큰 이상으로 학습시켜, 동일한 추가 연산량 대비 스크래치 학습보다 10.66% 높은 정확도 향상을 달성하였다.
Limitations
본 연구는 성장 시 학습률 조정 최적화가 필요하며, 후기 학습 단계에서 성장 효과의 한계가 존재함을 보였다.
Conclusion
사전학습된 체크포인트를 효율적으로 성장시키는 본 접근법은 대규모 언어 모델의 경제적이고 지속 가능한 확장 경로를 제시한다.
7. Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs
Introduction
- Goal: 본 논문은 대규모 언어 모델(LLM)들을 비용과 성능 사이의 선호도에 따라 효율적으로 라우팅하는 방법을 제안하는 데 목적이 있다.
- Motivation: 기존 라우터는 모든 후보 모델의 완전한 라벨 정보를 필요로 하여 배포 환경에서의 부분 피드백 제한과 불일치하는 문제가 존재한다.
- Contribution: 제안된 BARP는 밴딧 피드백 기반의 선호도 조절 가능한 라우팅 정책을 학습하여 재학습 없이도 성능-비용 간의 트레이드오프를 유연하게 조절할 수 있게 한다.
Method
라우팅 문제를 다목적 컨텍스추얼 밴딧으로 정식화하고, 쿼리와 사용자 선호도를 동시에 인코딩하는 신경망 정책으로 후보 LLM 중 하나를 선택한다.
정책은 정책 그래디언트 강화학습(REINFORCE)과 엔트로피 규제 및 비용 스케일링 기법으로 학습하며, 학습 시에는 부분 피드백 환경을 시뮬레이션한다.
이로써 전통적인 전수 라벨 학습 없이도 배포 시와 동일한 피드백 조건 하에서 사용자 선호에 맞춘 제어 가능한 라우팅이 가능하다.
Results
제안하는 BARP는 기존 오프라인 라우터 대비 평균 12.46% 이상 성능이 향상되었으며, 새로운 태스크에 대해서도 강건한 일반화 성능을 보였다.
Limitations
본 연구는 정적인 오프라인 로그 데이터를 사용해 학습하며, 실시간 온라인 피드백 학습이나 지연(latency)과 같은 추가 제약 조건은 고려하지 않았다.
Conclusion
BARP는 밴딧 피드백과 선호도 조절 기능을 통합한 실용적인 LLM 라우팅 프레임워크로서 비용과 성능 간 균형을 효과적으로 최적화한다.
8. UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
Introduction
- Goal: UP2You는 제약 없는 다양한 포토 컬렉션으로부터 고품질 3D 의상 인물 모델을 신속하게 재구성하는 방법을 제안하는 데 목표가 있다.
- Motivation: 기존 3D 재구성 방법들은 동기화된 카메라 뷰나 전신 이미지 등 “청결한” 입력을 요구하지만, 실제 개인 사진들은 포즈, 시점, 가림 등 매우 불규칙하고 제약이 없어 이를 처리하기 어려웠다.
- Contribution: 본 연구는 튜닝 없이 원천적인 제약 없는 사진을 정형화된 정교한 다중 시점 이미지로 변환하고, 포즈 연관 특징 집계 모듈(PCFA)을 통해 정체성 보존과 효율성을 크게 향상하는 최초의 데이터 정형화 기반 재구성 시스템을 제안하였다.
Method
UP2You는 입력되는 불규칙한 사진들을 SMPL-X 정규 맵을 조건으로 하는 고사양 정사각 다중 시점 이미지로 효율 변환한다. PCFA 모듈로 포즈별로 가장 유용한 참조 특징을 선택적으로 집계하여 계산 비용과 메모리 소모를 낮춤과 동시에 정보 통합을 최적화한다. 추가로 여러 입력에서 직접 신체형상을 예측하는 퍼시버(Perceiver) 기반 다중 참조형 체형 예측기를 도입하며, 다중 시점 텍스처와 노멀 맵 생성을 거쳐 3D 메시를 정밀하게 생성한다.
Results
PuzzleIOI와 4D-Dress, 야생 환경 데이터셋에서 UP2You는 Chamfer 거리 15% 감소, P2S 18% 감소, PSNR 21% 증가, LPIPS 46% 감소 등의 기준으로 기존 최첨단 방식들을 뛰어넘는 기하학적 정확도 및 텍스처 화질을 달성하였다.
Limitations
고품질 3D 데이터를 다량으로 필요로 하며, 6방향 정사각 뷰만을 사용해 텍스처 정렬 문제와 제한된 텍스처 품질 이슈가 존재한다.
Conclusion
UP2You는 훈련 없이도 제약 없는 다중 2D 사진을 고속으로 정규화하여 일관되고 고품질의 3D 의복 인물 재구성을 가능케 하여 실제 활용에 적합한 실용적 솔루션임을 입증하였다.
9. DreamOmni2: Multimodal Instruction-based Editing and Generation
Introduction
- Goal: 본 논문은 텍스트와 이미지 지시문을 모두 활용하여 구체적 객체와 추상 속성을 대상으로 멀티모달 지시 기반 이미지 편집 및 생성 작업을 지원하는 DreamOmni2를 제안하는 것이다.
- Motivation: 기존의 언어 기반 편집은 편집 세부사항을 완전히 반영하지 못하며, 주제 중심 생성은 구체적 객체에만 국한되어 추상적 개념을 다루지 못하는 한계가 존재한다.
- Contribution: DreamOmni2는 세 단계 데이터 합성 파이프라인과 다중 이미지 입력을 처리하는 인덱스 및 위치 인코딩 기법, 그리고 복잡한 사용자 지시를 이해하기 위한 VLM과 생성·편집 모델의 공동 학습 방식을 도입하여 이 문제를 극복하였다.
Method
DreamOmni2의 데이터 생성은 (1) 특징 믹싱 방식으로 추상 및 구체 속성이 같은 이미지 쌍을 생성하고, (2) 추출 모델과 편집 모델을 활용해 멀티모달 편집 학습 데이터를 구성하며, (3) 추출 모델을 다시 적용하여 멀티모달 생성 학습 데이터를 만든다. 모델 프레임워크는 인덱스 인코딩과 위치 인코딩 시프트로 다중 참조 이미지의 구분과 픽셀 혼동 방지를 해결하며, VLM과 생성·편집 모델의 공동 학습으로 복잡한 지시문의 이해도를 향상시킨다.
Results
DreamOmni2는 DreamOmni2 벤치마크에서 여러 공개 및 상용 모델 대비 멀티모달 편집과 생성 양면에서 우수한 성공률과 일관성을 보이며 시험 평가자와 시각언어 모델 평가 모두에서 뛰어난 성능을 입증하였다.
Limitations
본 연구는 현재 진행형으로, 멀티모달 입력 및 추상 속성 인식과 관련된 일부 과제가 여전히 완전하게 해결되지는 못하였다.
Conclusion
DreamOmni2는 참조 이미지와 텍스트 지시를 통합해 구체적 객체 및 추상 속성을 포함하는 멀티모달 지시 기반 편집과 생성을 가능케 하여 통합 생성·편집 모델의 실용성과 지능을 크게 확장하였다.
10. SViM3D: Stable Video Material Diffusion for Single Image 3D Generation
Introduction
- Goal: 본 논문은 단일 이미지와 카메라 궤도를 입력 받아 다중 시점 일관성이 보장된 공간 변이 물리 기반 렌더링(PBR) 재질과 표면 법선을 예측하는 SViM3D 프레임워크를 제안한다.
- Motivation: 기존 3D 재구성 기법은 간단한 재질 모델에 의존하거나 후처리 단계에서만 반사율을 추정하여 재조명 및 외형 조정에 한계가 존재한다.
- Contribution: SViM3D는 잠재 비디오 확산 모델을 확장하여 RGB, PBR 재질 파라미터, 표면 법선을 동시에 생성하고, 다중 시점 일관성 및 카메라 제어를 지원하는 최초의 모델이다.
Method
SViM3D는 Blender Cycles를 이용해 다중 조명과 다중 시점을 포함하는 합성 데이터셋으로 학습되며, 사진측량을 위한 신경망 구조를 주로 UNet 기반으로 설계하였다. 재질 파라미터와 법선을 이미지로 간주하여 기존 VAE를 재활용하고, 시야 종속 마스킹, 호모그래피 보정, 빠른 미분 가능 환경 기반 조명 등 복합 최적화 기법을 도입하여 다중 시점의 모순과 왜곡을 최소화하였다. 또한 3D 재구성은 NeRF 및 DMTet 기반 최적화 과정과 결합하여 고품질의 텍스처 메시를 생성한다.
Results
SViM3D는 단일 이미지로부터 획득한 다중 시점 PBR 재질 및 법선 정보의 신뢰성 높은 예측을 통하여 Poly Haven, Stanford Orb 데이터셋에서 최첨단 다중 시점 재조명, 신기 시점 합성, 3D 재구성 성능을 달성하였다.
Limitations
본 모델은 주로 객체 중심 이미지에 한정되며, 투명체 등 복잡한 재질 표현에는 한계가 존재한다.
Conclusion
SViM3D는 단일 이미지와 사용자 정의 카메라 궤도로부터 다중 시점 일관성 있는 RGB, PBR 재질 및 법선을 동시 예측하는 최초의 기초 모델로서, 향후 다중 시점 물리적 재질 생성 연구에 중요한 기반을 제공한다.
11. Beyond Outliers: A Study of Optimizers Under Quantization
Introduction
- Goal: 본 논문은 다양한 최적화 알고리즘이 대규모 언어 모델의 양자화 성능에 미치는 영향을 체계적으로 분석하는 것을 목표로 한다.
- Motivation: 최신 최적화 기법과 모델 양자화가 모두 발전하는 가운데, 두 요소 간 상호작용에 관한 체계적 연구가 부족하다는 점에서 연구 동기가 부여되었다.
- Contribution: 여러 규모의 모델에 대해 6가지 최적화 알고리즘을 적용하여 전체 정밀도, 사후 양자화(PTQ), 양자화 인식 훈련(QAT) 환경에서의 성능 차이와 오차 전파 메커니즘을 분석하였다.
Method
OLMo2 아키텍처 기반의 다양한 크기 모델을 BFloat16 정밀도로 학습하고, 6종 최적화 알고리즘별 최적 하이퍼파라미터 탐색을 수행하였다.
사후 양자화에 관해서는 기존 최대-중앙값 비율(MMR)과 Kurtosis 지표가 성능 예측에 실패함을 보이고, 양자화 오차 전파를 정량화하는 ABC 분해 이론적 프레임워크와 새로운 예측 지표를 도입하였다.
양자화 인식 훈련은 QuEST 기법을 활용해 4비트 환경에서 실시하였으며, 전체 정밀도 대비 QAT 성능 저하와 스케일링 법칙도 도출하였다.
Results
전체 정밀도 학습에서는 Muon이 일관되게 우수하였으나, PTQ하에서는 Shampoo가 가장 강인하여 MMR과 실제 정확도 간 상관관계가 없음을 밝혔고, QAT에서는 최적화 알고리즘에 따라 결과가 크게 달라지나 Shampoo가 가장 작은 정확도 저하를 보이며 파라미터 효율성 또한 최고임을 확인하였다.
Limitations
본 연구는 4비트 양자화에 집중하였으며, 6비트, 8비트 및 다양한 사후 양자화 방식에 대한 확장 연구가 필요하다.
Conclusion
최적화 알고리즘 선택은 양자화 환경에서 모델 성능에 중요한 영향을 미치며, 기존의 오차 예측 지표를 개선하는 새로운 해석적 접근법과 QAT 스케일링 법칙을 통해 최적화-양자화 상호작용에 대한 이해를 제고하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: