Daily Papers — 2025-12-09
1. Scaling Zero-Shot Reference-to-Video Generation
Introduction
- Goal: 본 연구의 목표는 명시적인 레퍼런스 이미지-비디오-텍스트 삼중 데이터 없이도 텍스트 지시에 부합하며 레퍼런스 이미지의 정체성을 보존하는 영상 생성을 구현하는 것이다.
- Motivation: 기존 레퍼런스-투-비디오(reference-to-video, R2V) 기법은 비용이 크고 확장성이 제한적인 삼중 데이터셋 구축에 의존하여 한계가 존재한다.
- Contribution: 본 논문에서는 대규모 비디오-텍스트 쌍만을 활용하고 마스킹 훈련 전략 및 주의 기반 모델 설계를 도입한 제로샷 R2V 프레임워크 Saber를 제안한다.
Method
Saber는 훈련 시 임의로 마스크된 비디오 프레임을 레퍼런스 이미지로 사용하여 다양한 조건에서의 일반화를 가능하게 한다. 마스크 증강 방법을 통합해 복사-붙여넣기 아티팩트를 완화하고 특화된 주의 메커니즘으로 레퍼런스 특징에 집중하여 시각적 일관성을 높인다. 최종적으로 다중 레퍼런스를 자연스럽게 지원하며 데이터 구성이나 훈련 파이프라인 변경 없이 확장성을 확보한다.
Results
OpenS2V-Eval 벤치마크에서 Saber는 명시적 R2V 데이터 기반 방법을 능가하는 성능을 보여 제로샷 학습의 우수성을 검증하였다.
Limitations
참고 이미지 수가 너무 많아질 경우 영상 구성이 파편화되는 현상과 세밀한 동작 제어 및 복잡한 시간적 일관성 유지가 어려운 점은 개선이 필요한 과제로 남았다.
Conclusion
Saber는 명시적 R2V 데이터 없이도 확장 가능하고 정체성 보존에 강한 제로샷 참조 기반 비디오 생성 모델로, 향후 보다 일반화 가능하고 효율적인 영상 생성 연구의 토대를 마련하였다.
2. EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
Introduction
- Goal: 본 연구의 목표는 증강현실(AR)용 상호작용적 1인칭 시점 비디오 편집을 위한 실시간 스트리밍 편집 모델과 데이터셋 및 평가 체계를 개발하는 것이다.
- Motivation: 기존의 AI 비디오 편집 기술은 3인칭 시점에 초점을 맞추고 있으며, 1인칭 시점에서는 빠른 카메라 움직임과 손-물체 상호작용 등으로 인해 성능이 현저히 저하되고, 오프라인 편집 방식은 높은 지연 시간을 가진다.
- Contribution: 본 연구는 1인칭 시점 편집에 특화된 10만 쌍 이상의 정밀 편집 데이터셋인 EgoEditData, 단일 GPU에서 855ms 첫 프레임 지연으로 실시간 스트리밍 편집이 가능한 EgoEdit 모델, 그리고 1인칭 시점 편집 성능 평가를 위한 벤치마크 EgoEditBench를 제안하였다.
Method
EgoEditData는 실제 1인칭 동영상에서 손과 상호작용하는 물체를 고도 필터링, 분할, 편집하여 자연 언어 명령과 짝지어진 고품질 편집 쌍을 제공한다. EgoEdit 모델은 pretrained 비디오 생성기 기반으로 채널 단위 소스-타겟 비디오 결합과 고속 디스토릴레이션을 적용하여 실시간 저지연 편집을 가능하게 한다. EgoEditBench는 15가지 1인칭 편집 과제를 포함하며 손 보존, 명령 이행성, 시간적 일관성 등 상세 평가 지표를 가진다.
Results
EgoEdit과 실시간 버전 EgoEdit-RT는 기존 최첨단 모델 대비 1인칭 시점 편집 과제에서 우수한 명령 이행도와 시간적 안정성을 보여주고, 일반 편집 벤치마크에서도 경쟁력 있는 성능을 달성하였다.
Limitations
EgoEdit-RT는 높은 실시간성을 보이나 일부 비분포 외 편집 명령 수행 능력과 시간적 일관성에서 본 모델 대비 일부 성능 저하가 나타나며, 해상도 및 프레임 속도가 일반적인 480p, 16fps보다 낮다.
Conclusion
본 연구는 1인칭 증강현실 영상 편집을 위한 데이터셋, 실시간 스트리밍 편집 모델, 그리고 종합 평가 체계를 제공함으로써 AR 상호작용 편집 연구를 위한 통합 생태계를 구축하였다.
3. Distribution Matching Variational AutoEncoder
Introduction
- 본 논문은 인코더의 잠재 분포를 임의의 참조 분포와 명시적으로 정렬하는 Distribution Matching VAE(DMVAE)를 제안하는 것을 목표로 한다.
- 기존 VAE들은 잠재 공간에 암묵적인 제약만 가하고 분포 형태를 명확히 조절하지 않아 최적의 잠재 분포 유형이 불명확한 문제를 동기로 한다.
- DMVAE는 다양한 참조 분포와 잠재 분포를 맞춤으로써 잠재 공간 구조화 및 생성 모델 성능 향상을 가능하게 한 점에서 기여한다.
Method
DMVAE는 인코더의 전체 후방분포 q(z)를 사전에 정의된 참조 분포 pr(z)에 분포 매칭 제약을 통해 강제 정렬한다. 이를 위해 확산 모델 기반의 분포 매칭 증류 기법을 적용하여 잠재 분포의 점수 함수(score function)를 참조 분포의 점수 함수에 근접하도록 학습한다. 해당 방식은 기존의 per-sample 규제가 아닌 분포 수준 제약으로 잠재 공간의 전역 구조를 효과적으로 제어한다.
Results
ImageNet 256×256 데이터셋에서 DMVAE는 64 epoch 만에 gFID 3.22를 달성하여 최첨단 모델보다 높은 학습 효율과 생성 품질을 보였다.
Limitations
초기 잠재 분포 q(z)와 참조 분포 pr(z) 간 거리가 클 경우 학습의 불안정성이 존재하며, 완전한 분포 정합보다는 규제 역할에 머무르는 한계가 있다.
Conclusion
DMVAE는 잠재 분포를 자유롭게 조절할 수 있는 분포 매칭 프레임워크로서, 의미 구조가 풍부한 자기지도 학습 특성 분포를 참조 분포로 활용하여 최적의 균형점을 달성하는 잠재 공간 설계의 새로운 길을 제시한다.
4. Multi-view Pyramid Transformer: Look Coarser to See Broader
Introduction
- 목표는 수십에서 수백 장의 다중 뷰 이미지로부터 단일 순방향 패스로 대규모 3D 장면을 효율적이고 고품질로 재구성하는 것이다.
- 기존 다중 뷰 트랜스포머 모델은 입력 뷰 수가 늘어날수록 계산 복잡도와 메모리 요구량이 급증하는 확장성 한계가 존재한다.
- 본 연구는 로컬 뷰에서 그룹, 전체 장면으로 점진적으로 넓혀가는 인터뷰 계층과 세밀한 공간 표현을 점차 압축하는 인트라뷰 계층을 결합한 Dual Attention Hierarchy를 도입하여 효율성과 성능 모두를 개선한 다중 뷰 피라미드 트랜스포머(MVP)를 제안한다.
Method
- MVP는 입력 이미지를 토크나이징하고, 프레임 단위, 그룹 단위, 전체 글로벌 단계로 확장하는 인터뷰 계층과 세밀한 이미지 패치를 점차 병합해 다운샘플링하는 인트라뷰 계층을 병렬로 적용하는 세 단계 계층적 자기 주의 메커니즘으로 구성된다.
- 각 단계별 토큰 해상도와 임베딩 차원은 점진적으로 변경되며, 피라미드 특성 집계 모듈을 통해 다양한 스케일의 특성들을 융합하여 최종 디코더로 전달한다.
- 모델은 3D Gaussian Splatting과 결합해 뷰 합성 손실과 지각 손실, 뷰 의존적 불투명도 정규화를 포함한 손실함수로 학습된다.
Results
- DL3DV, Tanks&Temples, Mip-NeRF360 등 다양한 데이터셋의 최대 256개 입력 뷰 실험에서 기존의 Long-LRM, iLRM 및 최적화 기반 3D-GS 대비 우수한 재구성 품질과 최대 250배 빠른 추론 속도를 달성하였다.
Limitations
- 본 연구는 정적 장면의 포즈가 알려진 이미지 기반 피드포워드 3D 재구성에 초점을 맞추었으며, 동적 장면 처리나 기하학적 감독 학습 적용은 추후 연구 과제로 남아 있다.
Conclusion
- MVP는 인터뷰와 인트라뷰 이중 계층적 자기 주의 메커니즘을 통해 대규모 다중 뷰 3D 재구성의 확장성과 효율성을 획기적으로 향상시켜, 향후 다양한 3D 비전 과제에 확장 적용 가능한 강력한 프레임워크임을 입증하였다.
5. Vector Quantization using Gaussian Variational Autoencoder
Introduction
- Goal: 본 논문은 제약된 가우시안 변분 오토인코더를 훈련 없이 벡터 양자화 방식의 이산 오토인코더로 변환하는 방법을 제안하는 것을 목표로 한다.
- Motivation: 기존 VQ-VAE는 코드북 학습과정의 미분 불가능성 및 코드북 붕괴 문제로 인해 훈련이 매우 어렵다.
- Contribution: Gaussian Quant (GQ) 방법을 제안하여, 가우시안 VAE의 후방 평균과 임의 가우시안 잡음 코드북 간 최근접값을 찾아 VQ-VAE로 변환하며, 대상 발산 제약(TDC)을 통해 효율적인 훈련을 지원한다.
Method
GQ는 1차원 가우시안 잡음을 코드북으로 생성해, 각 잠재 변수 차원의 후방 평균과 가장 가까운 코드북 항목을 선택하는 단순 무훈련 벡터 양자화 기법이다.
이론적으로 코드북 크기의 로그가 가우시안 VAE의 비트백 코딩 비트레이트를 초과할 경우 양자화 오류가 지수적으로 감소함을 보이며, TDC는 각 차원의 Kullback–Leibler 발산을 코드북 크기에 맞춰 조절하는 손실 함수를 도입한다.
또한 다차원 코드를 지원하기 위한 후처리 및 훈련 기반 그룹화 전략도 제안되었다.
Results
실험에서 GQ는 UNet 및 ViT 아키텍처 기반 다양한 벤치마크에서 VQGAN, FSQ, LFQ, BSQ 등 기존 VQ-VAE 계열보다 우수한 영상 재구성 품질을 달성하였다.
Limitations
본 연구는 표준 아키텍처 및 0.22~1.00 bpp 범위 내 평가에 한정되며, 다중 스케일 또는 초저 비트율 영역에 대한 확장 가능성은 추후 연구 과제로 남았다.
Conclusion
Gaussian Quant와 Target Divergence Constraint를 통해 무훈련으로 가우시안 VAE를 고성능 벡터 양자화 오토인코더로 효과적으로 변환할 수 있음을 입증하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: