Daily Papers — 2025-12-03

1. ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

Alphaxiv

Introduction

  • Goal: 본 연구는 무성 동영상으로부터 공간적 몰입감을 갖는 이중 귀 binaural 공간 오디오를 종단간(end-to-end) 방식으로 생성하는 기술을 제안하는 데 있다.
  • Motivation: 기존 접근법은 모노 오디오를 먼저 생성한 후 공간화를 수행하는 2단계 파이프라인에 의존하여 누적 오류와 시공간 불일치 문제가 발생하였다.
  • Contribution: 본 연구에서는 다양한 시야각 변화를 포함하는 약 9.7만 쌍의 대규모 BiAudio 데이터셋을 구축하고, 이중 분기 오디오 생성과 조건부 시공간 모듈을 결합한 ViSAudio 모델을 제안하였다.

Method

ViSAudio는 왼쪽 및 오른쪽 채널의 오디오 잠재 흐름을 각각 모델링하는 이중 분기 구조를 사용하고, 동영상과 선택적 텍스트 조건에 기반한 조건부 흐름 매칭 기법을 활용한다. 시공간 정보를 효과적으로 반영하기 위해 조건부 시공간 모듈을 도입하여 두 채널 간 일관성을 유지하면서도 공간적 특성을 보존한다. 이를 통해 동영상과 정밀하게 시공간 정렬된 고품질 binaural 오디오 생성을 가능하게 한다.

Results

종합적인 객관적 지표 및 주관적 평가에서 ViSAudio는 기존 최첨단 모델들을 능가하며, 시야 변화와 음원 이동, 다양한 음향 환경에 효과적으로 적응하는 몰입도 높은 binaural 오디오를 생성하였다.

Limitations

현재 모델은 짧은 클립 단위의 처리에 한정되어 장기간 시공간적 의존성과 복잡한 음향 현상을 충분히 포착하지 못한다.

Conclusion

ViSAudio와 BiAudio 데이터셋은 동영상에서 binaural 공간 음향을 종단간으로 재현하는 분야에 있어 새로운 가능성을 열어, 향후 다채널 및 장시간 오디오 생성 연구의 기반을 마련하였다.

2. PixelDiT: Pixel Diffusion Transformers for Image Generation

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 픽셀 공간에서 직접 확산 과정을 학습하는 단일 단계, 종단 간 변환기 기반 이미지 생성 모델인 PixelDiT를 제안하는 것이다.
  • Motivation: 기존 잠재 공간 기반 확산 변환기 모델들은 오토인코더의 손실적 재구성에 의한 오류 누적과 공동 최적화의 어려움이라는 구조적 한계를 지닌다.
  • Contribution: PixelDiT는 글로벌 의미와 국부 텍스처 세부를 각각 추출하는 이중 수준 변환기 구조와 픽셀별 AdaLN 변조 및 토큰 압축 기법을 도입하여 고해상도 픽셀 공간 확산 모델의 효율적 학습과 세부 묘사를 가능하게 하였다.

Method

PixelDiT는 패치 수준 DiT와 픽셀 수준 DiT로 구성된 이중 수준 변환기 아키텍처를 채택하여 글로벌 의미를 캡처하고 세부 텍스처를 정제한다. 픽셀별 AdaLN 변조 방법으로 각 픽셀 토큰을 글로벌 문맥에 맞춰 조건부로 조정하며, 픽셀 토큰 압축 기법으로 연산 복잡도를 낮춰 효율적인 글로벌 어텐션을 구현한다. 이 방식을 텍스트-이미지 생성에도 확장하여 1024×1024 해상도까지 픽셀 공간에서 학습 가능함을 보였다.

Results

PixelDiT-XL은 ImageNet 256×256에서 FID 1.61을 달성하여 기존 픽셀 공간 생성 모델 대비 뛰어난 성능을 보였으며, 텍스트-이미지 생성에서도 1024×1024 해상도에서 Latent Diffusion 모델과 경쟁력 있는 점수를 기록하였다.

Limitations

픽셀 공간 확산은 잠재 공간 방식 대비 원시 데이터 차원으로 인해 계산 비용이 높다는 한계가 존재한다.

Conclusion

PixelDiT는 효율적인 픽셀 토큰 모델링 구조를 통해 기존 잠재 공간 기반 한계를 극복하며 고품질 픽셀 공간 확산 모델 가능성을 제시하였다.

3. Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

Alphaxiv

Introduction

  • Goal: 본 논문은 음성-영상 공동 디노이징 학습이 영상 생성 품질 향상에 기여하는지 규명하는 것을 목표로 한다.
  • Motivation: 기존 연구들은 음성과 영상의 동기화에 초점을 맞추었으나 영상 자체 품질 개선에 대한 체계적 비교가 부족했다.
  • Contribution: 음성과 영상을 통합 학습하는 AVFullDiT 구조를 제안하고, 동일 조건에서 T2V와 T2AV 모델을 비교하여 음향 신호가 영상 생성에 실질적 이점을 제공함을 실증하였다.

Method

AVFullDiT는 사전학습된 텍스트-투-비디오(T2V)와 텍스트-투-오디오(T2A) 모듈을 재활용하여 음성-영상 토큰을 하나의 AVFull-Attention으로 처리하고, 시간 동기화를 위해 AVSyncRoPE 위치 인코딩을 적용한다. 이 구조는 최소한의 추가 파라미터만 도입하며, 영상 및 음성 노이즈 예측을 동시에 수행한다. 다양한 데이터셋을 활용해 교육하고, 영상 생성 성능을 평가하였다.

Results

T2AV 모델은 T2V 대비 물리적 상식성, 대상 및 배경 일관성 등 여러 영상 품질 지표에서 일관된 성능 개선을 보였으며, 특히 물체 접촉 등 동작이 큰 영상에서 우수성을 증명하였다.

Limitations

비록 영상 검증 손실은 T2V가 약간 낮게 나타났으나, 음성 분기 훈련이 상대적으로 늦게 수렴하는 문제점이 존재한다.

Conclusion

음향-영상 공동 디노이징 학습은 영상 생성에서 실제로 유의미한 품질 향상을 가져오며, 음성이 영상 이해와 물리적 장면 구성에 핵심적인 역할을 수행함을 확인하였다.

4. RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

Alphaxiv

Introduction

  • 본 연구의 목표는 차세대 비디오 생성 모델의 규칙 기반 추론 능력을 평가하는 종합 벤치마크인 RULER-Bench를 제안하는 것이다.
  • 기존 비디오 생성 벤치마크가 주로 시각적 미학, 명령 준수, 시간적 일관성에 초점을 맞춘 반면, 비디오 생성 모델의 규칙 기반 추론 능력은 충분히 탐구되지 않았다.
  • 본 연구는 비디오 생성에서 인지적 규칙 기반 예측 능력을 체계적으로 분류하고, 6개 규칙 범주, 40개 과제, 622개 고품질 사례를 포함하는 평가 프레임워크를 구축하였다.

Method

  • RULER-Bench는 자연, 사회, 가상세계를 아우르는 세 가지 근본 도메인과 시각, 과학, 의미론, 가설, 게임, 인간성의 여섯 인지 규칙 카테고리를 바탕으로 과제를 구성하였다.
  • 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 두 가지 생성 패러다임을 포함하며, GPT-5 및 멀티모달 대형언어모델(MLLM)을 활용해 체크리스트 기반 평가 질문을 생성하였다.
  • 평가 지표는 명령 준수, 시각적 일관성, 시각적 충실도, 규칙 일관성의 네 가지로 구성되며, GPT-o3와 인간 평가의 85% 일치율로 신뢰성을 검증하였다.

Results

  • 10종 최신 비디오 생성 모델 평가 결과, 규칙 일관성(metric)에서 최고 성능 모델조차 평균 48.87점에 그쳐 규칙 기반 추론 능력의 전반적 한계를 드러냈다.

Limitations

  • 본 연구에 포함된 비디오 생성 모델은 전반적으로 규칙 기반 추론 능력과 이미지 이해 능력이 부족하여 고품질 추론 영상 생성에 제한적이다.

Conclusion

  • RULER-Bench는 비디오 생성 모델의 규칙 기반 추론 능력 평가를 위한 최초의 체계적 벤치마크로서, 향후 추론 인지 능력을 강화하는 연구 발전에 기여할 것으로 기대된다.

5. BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

Alphaxiv

Introduction

  • Goal: 본 연구는 고품질이며 일관된 1분 길이 동영상 생성을 위한 블록 디퓨전(Block Diffusion) 기반 프레임워크인 BlockVid를 제안하는 데 있다.
  • Motivation: 기존의 블록 디퓨전 방식에서 발생하는 키-값 캐시(KV cache)로 인한 장기 오류 누적과 미세한 장기 동영상 평가 기준 및 벤치마크 부족 문제를 해결하고자 한다.
  • Contribution: 본 연구는 의미 인지형 희소 KV 캐시, Block Forcing 훈련 전략, 청크 단위 노이즈 스케줄링 및 셔플링 방식을 도입하고, 미세 주석이 포함된 1,000개 분량의 분 단위 동영상 벤치마크 LV-Bench와 장기 일관성 평가 지표를 제시하였다.

Method

BlockVid는 의미 인지형 희소 KV 캐시를 통해 중복 오류 누적을 줄이고, Block Forcing과 Self Forcing을 결합하여 시간적 일관성과 훈련-추론 격차 문제를 완화한다. 훈련 및 추론 단계에서 청크별 노이즈 수치를 점진적으로 조절하고 경계에서는 노이즈 셔플링을 통해 동영상의 연속성과 안정성을 강화한다. 또한, 장기 문맥 검색을 위한 프롬프트 임베딩 기반 의미 검색이 포함된 세밀한 캐시관리 기법을 적용하였다.

Results

LV-Bench와 VBench 벤치마크 평가에서 BlockVid는 VDE 주제 정확도 22.2%, VDE 선명도 19.4% 향상을 달성하며 기존 최첨단 기법들을 능가하였다.

Limitations

본 연구는 단일 청크 기반 장기 동영상 생성에 초점을 두었으며, 다중 샷 구성 및 장면 전환 간의 일관성 확보 문제는 향후 연구가 필요하다.

Conclusion

BlockVid는 의미 기반 희소 캐시 및 정교한 훈련과 노이즈 전략으로 분 길이 장기 동영상 생성의 시간적 일관성과 시각적 품질을 효과적으로 향상시키는 혁신적 블록 디퓨전 프레임워크이다.

6. Understanding and Harnessing Sparsity in Unified Multimodal Models

Alphaxiv

Introduction

  • Goal: 본 연구는 통합 멀티모달(unified multimodal) 모델의 효율성 문제를 완화하기 위해 구조적 여분 및 희소성(sparsity)을 체계적으로 분석하고 활용하는 방법을 제안하는 것이다.
  • Motivation: 이해 및 생성 기능을 통합하는 멀티모달 모델은 다양한 하위 컴포넌트의 비효율적인 활성화 문제를 갖고 있으며, 이에 따른 체계적 분석과 효율적 연산 활용 방안이 부족하다.
  • Contribution: 이해 컴포넌트의 높은 압축 가능성과 생성 컴포넌트의 압축 민감성을 규명하고, 동적 활성화가 가능한 Mixture-of-Experts(MoE) 적응 기법을 고안하여 효율성과 성능을 동시에 확보하였다.

Method

훈련 없이 구조 중요도를 평가하는 pruning 기법으로 깊이 및 너비 차원에서 컴포넌트별 여분을 분석하였다.
이해 및 생성 컴포넌트의 활성 패턴 차이를 바탕으로, 신경망 은닉 뉴런을 전문가 그룹으로 분할하고 입력에 따라 동적으로 활성화하는 MoE 적응을 도입하였다.
전문가 고정 튜닝과 전면 훈련 단계를 통해 sparse 활성화 하에도 생성 품질을 복원하고 모델의 효율적 운용을 실현하였다.

Results

제안한 MoE 적응을 적용한 BAGEL 모델은 전체 파라미터의 약 절반만 활성화하면서도 원본 성능과 동등한 수준의 생성 품질을 달성하였다.

Limitations

생성 컴포넌트는 압축에 매우 민감하여 정적 pruning 시 성능 저하가 크고, 완전한 효율화를 위한 동적 활성화 구현은 복잡성을 내포한다.

Conclusion

본 연구는 통합 멀티모달 모델 내 컴포넌트별 희소성과 구조적 여분을 체계적으로 분석하고, 동적 활성화 기반 MoE 적응을 통해 고성능과 효율성을 동시에 달성할 수 있음을 입증하였다.

7. UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

Alphaxiv

Introduction

  • Goal: 본 논문은 대규모 고품질 이미지 편집 데이터셋과 이를 평가할 통합 벤치마크인 UnicEdit-10M과 UnicBench를 제안하는 데 목적이 있다.
  • Motivation: 기존 개방형 데이터셋과 벤치마크는 데이터 규모와 품질 간의 한계, 그리고 복잡한 추론을 포함한 편집 과제 평가 부족으로 인해 모델 성능 향상에 제약이 있었다.
  • Contribution: 저자들은 단일 엔드투엔드 모델과 7B 듀얼 태스크 전문가 모델 Qwen-Verify를 활용한 경량 파이프라인으로 22개 세부 작업을 포함하는 1000만 규모 데이터셋과 복합적 편집 능력을 평가하는 새 벤치마크를 구축하였다.

Method

본 연구는 (1) 이미지와 명령어로부터 다양한 편집 지시문을 자동 생성하고, (2) 선택된 오픈소스 편집 모델로 실제 편집을 수행하며, (3) 전문가 검증 모델을 통해 실패 편집을 필터링하고 명령어를 재작성하는 세 단계 파이프라인으로 데이터셋을 구성한다.
Qwen-Verify 모델은 실패 탐지와 명령어 재작성 작업을 동시에 수행하는 듀얼 태스크 학습으로 고효율 검증을 지원한다.
평가는 기존 지표의 한계를 보완하기 위해 지시문 수행도, 비편집 영역 보존, 시각 품질, 논리 추론 정확도를 포함하는 정교한 평가 메트릭으로 진행된다.

Results

UnicEdit-10M은 기존 데이터셋 대비 가장 우수한 인지적 일관성과 미적 품질을 달성하였으며, UnicBench를 통한 주요 모델 평가에서 복잡한 논리 추론 작업 수행률의 현저한 저하를 드러내어 연구 방향을 명확히 제시하였다.

Limitations

현재 모델들은 복잡한 세계 지식과 공간적 추론을 필요로 하는 고난이도 편집 과제 수행에 있어 현저한 성능 한계를 보이고 있다.

Conclusion

본 연구는 대규모 고품질 편집 데이터와 종합 평가체계 제공을 통해 개방형 이미지 편집 모델의 성능 향상과 폐쇄형 모델과의 격차 해소를 위한 필수 인프라를 마련하였다.

8. Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models

Alphaxiv

Introduction

  • Goal: 본 연구는 Masked Diffusion Language Models(MDLMs)의 문맥 이해 능력을 평가하고 한계점을 규명하는 데 목적이 있다.
  • Motivation: MDLMs는 전통적 Autoregressive Language Models(ARLMs)에 비해 전역적 문맥 활용이 가능할 것으로 기대되지만, 실제 문맥 처리 방식과 편향성에 대한 이해가 부족하다.
  • Contribution: 본 연구는 MDLM에서 나타나는 강한 지역성 편향과 다수의 마스크 토큰이 문맥 이해를 방해하는 문제를 발견하고, 이를 완화하는 마스크 불변 손실(mask-agnostic loss) 방식을 제안한다.

Method

본 연구에서는 LLaDA-8B와 Dream-7B 두 개의 공개 MDLM을 대상으로 문맥 내 정보 위치 변화를 통한 성능 영향과 마스크 개수 증가에 따른 성능 변화를 실험적으로 분석한다.
성능 저하 원인 규명을 위해 그래디언트 어트리뷰션 분석 및 중복 토큰 처리 실험을 수행하였으며, 마스크 개수 변화에 불변하도록 유도하는 새로운 손실 함수를 설계하여 미세조정(fine-tuning)을 진행하였다.
또한, 다단계 디코딩을 통한 마스크 제거 전략과 MDLM 평가 지침을 제시하였다.

Results

MDLM은 전통적 ARLM과 유사하게 문맥 내 최근 위치 정보에 편중된 지역성 편향을 가지며, 마스크 토큰이 증가할수록 문맥 이해 성능이 크게 하락하지만 제안한 마스크 불변 손실을 적용한 미세조정을 통해 이 문제를 효과적으로 완화하였다.

Limitations

본 연구는 공개된 LLaDA와 Dream 모델에 한정하여 실험을 수행하였으며, 다른 MDLM 및 학습 설정에 대한 일반화 가능성은 추가 연구가 필요하다.

Conclusion

본 연구는 MDLM의 문맥 이해에서 중대한 한계인 지역성 편향과 마스크 토큰의 산만 효과를 규명하고, 마스크 불변 학습 방식을 통해 이를 개선하여 MDLM의 강력한 문맥 이해능력 향상에 기여하였다.

9. BOOM: Beyond Only One Modality KIT’s Multimodal Multilingual Lecture Companion

Alphaxiv

Introduction

  • Goal: 본 논문은 다중 모달 및 다국어 환경에서 강의 음성 및 슬라이드를 동기화하여 번역하는 시스템인 BOOM을 제안하는 것이다.
  • Motivation: 교육의 세계화와 온라인 학습의 급속한 확산으로 교육 콘텐츠 현지화가 중요해지며, 강의 자료가 음성, 텍스트, 시각 정보를 포함하는 다중 모달 특성을 가지기 때문이었다.
  • Contribution: 우리는 강의 슬라이드 이미지 정보를 통합한 다중 모달 음성 번역 모델 OmniFusion을 도입하고, 슬라이드 내 텍스트를 감지·인식·번역·재구성하는 완전한 오픈소스 슬라이드 번역 파이프라인을 개발하였다.

Method

강의 음성은 자동 음성 인식 및 다중 모달 음성 번역을 통해 직접 번역되며, 오디오 세그먼트별로 해당 슬라이드 스크린샷이 추출되어 문맥 정보를 제공한다.
슬라이드 내 텍스트는 OCR과 레이아웃 분석으로 추출하고 이를 다중 모달 번역 모델을 사용해 번역한 뒤, 원본 레이아웃과 스타일을 보존하며 재렌더링한다.
또한, 생성된 텍스트 번역 결과는 대형 언어 모델을 이용해 요약과 질의응답 등의 후속 작업에 활용된다.

Results

BOOM 시스템은 슬라이드 정보를 포함한 다중 모달 입력이 단일 음성 입력 대비 요약 및 질의응답 성능을 다수 언어 쌍과 LLM에서 일관되게 향상시켰으며, VISTRA 벤치마크에서 다중 모달 번역이 단일 모달 번역보다 정확도가 우수함을 보였다.

Limitations

제안 시스템 평가는 VISTRA 벤치마크 및 ACL 강연 데이터셋에 기반해 수행되었으며, 실제 강의 도메인에 대한 슬라이드 렌더링 품질 및 실시간 라이브 강의 시나리오에 부합하는 평가가 부족하여 인간 평가가 필요하다.

Conclusion

본 연구는 다중 입력 모달리티를 활용하여 강의 음성 및 슬라이드의 동기화된 다국어 번역을 실현하는 통합 시스템을 구축하였으며, 향후 인간 평가와 대상별 개선을 통해 완성도를 높일 계획이다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-12-15
  • Daily Papers — 2025-12-12
  • Daily Papers — 2025-12-11
  • Daily Papers — 2025-12-10
  • Daily Papers — 2025-12-09