Daily Papers — 2025-12-23

1. Region-Constraint In-Context Generation for Instructional Video Editing

Alphaxiv

Introduction

  • Goal: 본 연구는 자연어 명령어만으로 정확하고 고품질의 영상 편집이 가능한 지역 제약 기반 문맥 내 생성 패러다임인 ReCo를 제안하는 것이다.
  • Motivation: 기존 영상 편집은 편집 영역을 명확히 지정하지 않으면 편집의 부정확성과 편집 및 비편집 영역 간 토큰 간섭 문제가 발생하여 제한적이었다.
  • Contribution: 본 연구는 영상 잠재공간과 어텐션 맵에서 지역별 제약을 도입해 편집 영역을 정확히 국한하고 교차 간섭을 완화하는 새로운 인스트럭션 기반 영상 편집 프레임워크와 50만 쌍의 고품질 학습 데이터셋 ReCo-Data를 새롭게 구축하였다.

Method

ReCo는 원본 영상과 편집 목표 영상을 좌우로 연접하여 영상 확산 모델에서 공동 소거 과정을 수행하고, 편집 영역은 영상 잠재공간에서 원본 대비 차이를 증가시키고 비편집 영역은 차이를 감소시키는 잠재공간 제약을 적용한다. 또한 어텐션 공간에서는 편집 영역에서 원본 영상 동일 영역에 대한 집중도를 억제하고, 편집 영역 내 생성 객체가 배경 영역에 더 집중하도록 유도한다. 이렇게 두 개의 지역 제약을 포함한 다중 손실을 통해 텍스트 명령어만으로도 정확하면서 자연스러운 영상 편집을 실현한다.

Results

ReCo는 4가지 주요 영상 편집 과제(객체 추가, 교체, 제거, 스타일 변환)를 대상으로 한 평가에서 기존 최첨단 방법들보다 편집 정확도, 영상 자연스러움 및 전체 품질 면에서 우수함을 보였다.

Limitations

비편집 영역에서의 불필요한 컨텐츠 생성 억제 및 편집 영역 토큰 간섭 감소에 효과적이나, 복잡한 시간적 변환 및 극한 편집 상황에 대한 적용 가능성은 추가 연구가 필요하다.

Conclusion

본 연구는 인스트럭션 기반 영상 편집에서 지역별 제약을 효과적으로 도입한 문맥 내 생성 패러다임 ReCo를 제안하고, 대규모 고품질 데이터셋 ReCo-Data와 함께 실험적 우월성을 입증하였다.

2. Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

Alphaxiv

Introduction

  • Goal: 본 연구는 깊이 정보 없이 무한호모그래피 기반 조건화를 활용하여 주어진 카메라 궤적에 충실한 카메라 제어형 비디오 생성 기법을 제안하는 데 목적이 있다.
  • Motivation: 기존 기법들은 부정확한 깊이 추정에 의한 재투영 오류와 제한된 카메라 궤적 다양성으로 인해 카메라 자세 정확도와 영상 품질에서 한계가 존재하였다.
  • Contribution: 무한호모그래피 왜곡 모듈과 궤적 및 내재변수 데이터 증강 기법을 통합하여 깊이 추정에 의존하지 않고도 높은 카메라 자세 충실도와 일반화 능력을 달성하는 프레임워크를 개발하였다.

Method

InfCam은 초기 프레임의 카메라 회전을 노이즈 없는 무한호모그래피로 잠재 공간에서 왜곡하여 모델이 잔여 시차(parallax)를 효율적으로 학습하도록 설계되었다. 추가로, 다중 뷰 합성 데이터셋을 변환하여 다양한 카메라 궤적과 초점거리를 포함하는 증강된 학습 데이터를 생성하였다. 이러한 구조와 학습 전략을 통해 모델은 실제 및 합성 데이터 모두에서 높은 카메라 자세 정확도와 영상 일관성을 달성한다.

Results

AugMCV 및 WebVid 데이터셋 실험에서 InfCam은 PSNR, SSIM, LPIPS, FID, FVD 및 카메라 회전·이동 오류 전반에서 기존 최첨단 기법들을 능가하는 성능을 나타냈다.

Limitations

정보 부족이다.

Conclusion

무한호모그래피 기반 조건화와 데이터 증강을 결합한 InfCam은 깊이 정보 없이도 정밀한 카메라 제어 영상 생성을 가능케 하며, 추후 장기 영상 제어로 확장이 기대된다.

3. WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

Alphaxiv

Introduction

  • 본 연구의 목표는 단일 이미지로부터 긴 거리의 3D 기하학적 일관성을 유지하는 새로운 시점 비디오를 생성하는 것이다.
  • 기존 방법들은 카메라 조건화된 잠재 공간에서 작동하며 폐색 영역 및 복잡한 카메라 궤적 처리에 어려움을 겪는다는 문제점이 존재한다.
  • 이에 본 연구는 3D 구조 앵커와 2D 생성 리파이너를 결합한 WorldWarp 프레임워크와 공간-시간 변동 노이즈 스케줄을 적용한 비확률적 확산 모델인 ST-Diff를 제안하였다.

Method

WorldWarp는 3D Gaussian Splatting 기반의 온라인 3D 기하학 캐시를 유지하며, 전 단계에서 정방향 왜곡된 이미지들을 구조적 골격으로 사용한다. 이 캐시를 바탕으로 ST-Diff 확산 모델은 빈 영역을 순수 노이즈로 초기화하고 왜곡된 영역은 부분 노이즈로 보정하여 “채우고 수정하는” 과제를 수행한다. 최종적으로, WorldWarp는 이러한 절차를 영상 청크 단위로 자율회귀적으로 반복하며 긴 시퀀스의 기하학적 일관성과 시각적 충실도를 확보한다.

Results

RealEstate10K와 DL3DV 데이터셋에서 WorldWarp는 기존 최첨단 기법 대비 모든 평가 지표(PSNR, LPIPS, FID, 회전 및 평행 이동 오차)에서 우수한 성능을 기록하며 긴 거리 시점 외삽에서 뛰어난 기하학적 일관성 및 영상 품질을 증명하였다.

Limitations

본 방법은 확산 모델의 반복적인 역확산 과정으로 인해 생성 속도가 느리며, 주된 계산 부하는 50단계의 ST-Diff 역확산이며 3D 기하학 연산은 비교적 낮은 부하를 차지한다.

Conclusion

WorldWarp는 공간-시간 변동 노이즈 스케줄을 지닌 비확률적 확산 모델과 온라인 3D 기하학 캐시를 결합하여 긴 거리 카메라 조건화 기반 비디오 생성을 가능하게 함으로써 기하학적 불일치 문제를 극복하고 새로운 장을 열었다.

4. LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Alphaxiv

Introduction

  • Goal: 본 연구는 다중 토큰 병렬 생성을 위한 토큰 채우기 순서(Token Filling Order, TFO)를 최적화하여 Diffusion 대형 언어 모델(dLLM)의 추론 병렬성을 확장하는 알고리즘을 제안하는 데 목적이 있다.
  • Motivation: 기존 dLLM의 신뢰도 기반 디코딩 전략은 매 순방향 추론마다 1~3개 토큰만 처리하는 병렬성 한계에 직면해 있어 효율적인 추론 가속화가 요구된다.
  • Contribution: 본 논문에서는 훈련이 필요 없는 플러그인 방식의 Lookahead Parallel Decoding(LoPA) 알고리즘을 제안하고, 이를 통해 D2F 모델의 병렬 처리 효율을 대폭 향상시키며 멀티 디바이스 분산 추론 시스템과 함께 적용하여 초당 1000개 이상의 토큰 처리량을 달성하였다.

Method

LoPA는 각 추론 단계마다 앵커 분기와 다수의 사전 탐색 분기를 병렬로 생성하고, 각 분기의 평균 신뢰도를 기반으로 이후 병렬 처리가 가장 용이한 경로를 선택한다.
이 과정은 단일 순방향 연산 내에서 모든 후보 분기들의 신뢰도 평가를 수행해 연산 효율을 유지하며, D2F 모델에 완전히 통합되어 기존 구조를 변경하지 않고 적용 가능하다.
또한, LoPA를 최대한 활용하기 위해 토큰 병렬 분기들을 멀티 GPU/NPU에 분산시키는 Branch Parallelism 기반 분산 추론 시스템도 함께 설계되었다.

Results

LoPA는 D2F-Dream 모델에서 GSM8K 벤치마크 기준으로 Tokens Per Forward pass(TPF)를 10.1까지 확장하며 기존 대비 두 배 이상의 추론 스루풋을 유지한 채 성능 저하 없이 가속함을 보였다.

Limitations

LoPA는 분기 수를 과도하게 늘릴 경우 미래 신뢰도 예측이 불안정해져 성능 변동성이 증가할 수 있다는 점에서 적절한 하이퍼파라미터 조정이 필요하다.

Conclusion

LoPA는 dLLM의 토큰 채우기 순서 탐색을 통해 높은 병렬성 확보와 추론 속도 향상을 동시에 달성하며, 범용적이고 효율적인 비순차적 시퀀스 생성 가속 솔루션임이 입증되었다.

5. StoryMem: Multi-shot Long Video Storytelling with Memory

Alphaxiv

Introduction

  • Goal: 본 논문은 인간 기억에 영감을 받아 명시적 시각 메모리를 조건으로 하는 반복적 샷 생성 방식으로 다중 샷 장편 비디오 스토리텔링 문제를 해결하고자 한다.
  • Motivation: 기존의 다중 샷 비디오 생성법은 전역 주의(attention)를 사용하는 방법이 높은 계산 비용과 데이터 요구량 문제를 겪거나 독립 샷 처리로 인해 장기적인 일관성을 유지하지 못하는 한계가 존재하였기 때문이다.
  • Contribution: 본 연구는 Memory-to-Video (M2V) 설계를 통해 사전 학습된 단발 영상 확산 모델에 경량의 LoRA 미세 조정만으로 명시적 메모리 조건부 생성을 구현해, 효율적이고 교차 샷 일관성을 크게 상승시킨 StoryMem 패러다임을 제안하였다.

Method

StoryMem은 각 샷을 생성할 때 이전 샷에서 추출한 핵심 키프레임을 메모리 은행에 저장하고 이를 3D VAE를 이용해 잠재 공간에 인코딩한 후, 이를 텍스트 조건과 함께 DiT 기반의 영상 확산 모델에 입력해 샷을 합성한다. 시간 위치 인코딩에서 메모리 프레임은 음수 인덱스로 지정하는 부정 RoPE 방식을 적용하여 모델이 장기 문맥 의존성을 자연스럽게 학습하도록 하였다. 또한 CLIP 임베딩 기반 의미 키프레임 선택과 미적 필터링 기법을 도입하여 메모리의 정보량과 신뢰도를 보장하며, 동적 은행 업데이트 전략으로 메모리 크기를 효과적으로 관리한다.

Results

ST-Bench 벤치마크 평가에서 StoryMem은 교차 샷 일관성 지표에서 기존 최첨단 방법 대비 9.4% 이상 우수하며, 시각적 미학 품질과 스크립트 준수성에서도 뛰어난 성능을 나타냈다.

Limitations

복잡한 다인물 시나리오에서는 순수한 시각 메모리만으로 인물 구분과 정체성 유지를 완벽히 담보하기 어려우며 대규모 카메라 움직임이 동반된 샷 간 전환에서는 자연스러운 흐름 구현이 제한적이다.

Conclusion

StoryMem은 시각 메모리와 경량 미세조정을 결합한 단발 영상 확산 모델의 샷 단위 생성 체계로서, 미분기 영상 기반 장편 비디오 스토리텔링에서 효율성과 일관성의 균형을 달성하며 의미 있는 발전을 이룩하였다.

6. Name That Part: 3D Part Segmentation and Naming

Alphaxiv

Introduction

  • 목표는 3D 객체를 의미 있는 부품 단위로 분할하고 각 부품에 의미 있는 이름을 할당하는 3D 의미론적 부품 분할 문제를 해결하는 것이다.
  • 기존 데이터셋 간 부품 정의의 불일치로 인해 일관된 학습이 어려우며, 기존 방법들은 이름 없는 분할이나 단일 부품 검색만 수행하는 한계가 있었다.
  • 본 연구는 부분 이름 부여를 직접적인 집합 정렬 문제로 정식화하여, 부품 표현체인 ‘Partlet’와 이들의 텍스트 묘사와의 이분 할당 방식을 제안하였다.

Method

ALIGN-Parts는 기하학적 특징, 다중 시점 외관 특징, 그리고 대형 언어 모델이 생성한 부품 기능 기술을 융합하여 의미론적이고 시각적으로 일관된 부품 표현을 생성한다.
Partlets는 점군 특징을 집계해 부품 수준 임베딩을 학습하며, Sinkhorn 알고리즘을 이용한 최적의 이분할당으로 부품 이름 묘사와 정렬한다.
훈련은 텍스트 정렬 손실과 마스크 및 부분 활성도 손실을 결합해 진행되며, 추론 시에는 폐쇄 및 개방 어휘 설정 모두를 지원한다.

Results

ALIGN-Parts는 PartField와 Find3D를 포함한 최신 기법 대비 100배 빠른 속도와 함께, 완전한 비중첩 3D 부품 분할 및 이름 지정에서 뛰어난 성능과 개방 어휘 일반화를 입증하였다.

Limitations

정보 부족

Conclusion

본 연구는 3D 부품 분할과 명명 문제를 집합 정렬 기반 end-to-end 학습으로 성공적으로 해결하며, 일관된 통합 부품 온톨로지 구축과 대규모 의미부품 데이터셋 생성에 기여한다.

7. CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

Alphaxiv

Introduction

  • Goal: 본 논문은 기존 비전-언어 모델에서의 토큰 삽입 방식과 교차 어텐션 방식 간 성능 격차를 해소하면서 효율성을 유지하는 새로운 융합 메커니즘을 제안하는 데 목적이 있다.
  • Motivation: 토큰 삽입 방식은 고해상도 이미지나 긴 동영상 처리 시 계산량과 메모리 비용이 급증하는 반면, 교차 어텐션 방식은 효율적이나 세밀한 시각적 이해 작업에서 성능 저하가 확인되었다.
  • Contribution: 텍스트 토큰 간 상호작용을 포함하는 자체 어텐션 기반 교차 어텐션 기법인 CASA를 제안하여, 삽입 방식과 유사한 성능 수준을 유지하면서 교차 어텐션의 확장성과 효율성을 확보하였다.

Method

CASA는 텍스트 토큰이 시각 토큰뿐 아니라 자신과도 국소적인 자체 어텐션을 수행하도록 설계되어, 기존 교차 어텐션에서 부족한 텍스트 간 상호작용을 보완한다. 이에 따라 자연스러운 게이팅 효과가 발생하며 별도의 명시적 게이트 없이 시각 및 텍스트 정보가 균형 있게 융합된다. 또한 블록 단위의 어텐션 구현으로 대규모 시퀀스 학습 시에도 효율적인 메모리 및 연산 처리 능력을 갖춘다.

Results

CASA는 공개된 다양한 비전-언어 벤치마크에서 기존 교차 어텐션 모델을 크게 앞서며, 토큰 삽입 방식과의 성능 격차를 상당히 줄였고, 선행 VLM을 CASA 구조로 효과적으로 적응시켜 효율성을 높였다.

Limitations

CASA 역시 매우 세밀한 시각적 정보가 요구되는 차트 및 다이어그램 이해 작업에서는 소폭의 성능 저하가 존재하였다.

Conclusion

CASA는 자체 어텐션과 교차 어텐션을 결합한 간단한 구조로 토큰 삽입 방식에 근접하는 비전-언어 융합 성능을 달성하며, 특히 실시간 스트리밍 비디오 자막처리 등 긴 멀티모달 시퀀스 처리에 적합한 효율적이고 확장 가능한 대안임을 입증하였다.

8. MatSpray: Fusing 2D Material World Knowledge on 3D Geometry

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 2D 확산 모델로부터 추출한 물질 정보를 3D 지오메트리에 융합하여 고품질의 재조명 가능한 3D 자산을 자동으로 생성하는 것이다.
  • Motivation: 기존 3D 재구성 방법들은 정확한 공간별 물질 매개변수의 부재로 인해 재조명 성능이 제한되며, 2D 확산 모델 기반의 물질 예측 결과를 3D에 효과적으로 적용하는 데 어려움이 존재한다.
  • Contribution: 본 논문은 2D 확산 모델의 물질 예측을 3D Gaussian Splatting 기법과 Gaussian 광선 추적을 통해 3D에 융합하고, Neural Merger를 도입하여 다중 시점 일관성을 강화하는 신규 프레임워크를 제안한다.

Method

입력 다중 시점 이미지에서 2D 확산 모델을 활용해 PBR 물질 지도(기본색, 거칠기, 금속성)를 예측한다. 3D 장면은 Gaussian Splatting으로 재구성하고, Gaussian 광선 추적 기법으로 2D 물질 정보를 3D Gaussian에 투사하여 초기 융합을 수행한다. 이후 Neural Merger로 각 Gaussian의 다중 시점 물질 예측을 가중 합산하여 물리적 정확성과 시점 일관성을 높인다.

Results

제안 방법은 기존 최신 기법(IRGS, 확장된 R3DGS) 대비 재조명 품질, 물질 지도 정확성(PSNR, SSIM, LPIPS 지표)과 최종 시각적 현실감에서 우수하며, 약 3.5배 빠른 연산 속도를 보였다.

Limitations

물질 품질은 선택된 2D 확산 모델 성능에 의존하며, 불완전한 3D 기하 및 노멀 추정 시 결과 품질이 저하될 수 있다.

Conclusion

MatSpray는 2D 확산 기반 물질 지식을 효과적으로 3D에 융합하여 실제감 높은 재조명 가능 3D 자산을 빠르고 정확하게 생성하는 강력한 도구임을 입증하였다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-12-26
  • Daily Papers — 2025-12-25
  • Daily Papers — 2025-12-24
  • Daily Papers — 2025-12-22
  • Daily Papers — 2025-12-19