Daily Papers — 2025-10-14

1. Diffusion Transformers with Representation Autoencoders

Alphaxiv

Introduction

  • Goal: 본 연구는 기존 VAE 인코더 대신 사전학습된 표현 인코더와 학습된 디코더를 결합한 Representation Autoencoders(RAEs)를 도입하여 Diffusion Transformers(DiT)의 잠재 공간을 개선하는 것이다.
  • Motivation: 기존 VAE 기반의 DiT는 낮은 차원의 잠재 공간과 재구성 위주의 학습으로 인해 표현력과 생성 품질에 한계가 존재한다.
  • Contribution: RAEs는 고품질 재구성과 의미론적으로 풍부한 잠재 공간을 제공하며, 고차원 잠재 공간에서 효과적으로 작동할 수 있는 확장 가능한 변환기 아키텍처 설계와 함께 적용되었다.

Method

RAE는 고정된 사전학습된 표현 인코더(e.g., DINOv2, SigLIP, MAE)와 경량 ViT 기반 디코더로 구성되어 재구성 정확도와 의미론적 표현력을 모두 향상시킨다.
고차원 잠재 공간에서 DiT의 효율적 학습을 위해 모델 폭을 토큰 차원 이상으로 확장하고, 차원 의존적 노이즈 스케줄 조정 및 노이즈 보강 디코딩 기법을 도입하였다.
또한, DDT 구조에서 영감을 받은 얕고 넓은 디퓨전 헤드를 도입한 새로운 DiTDH 아키텍처는 학습 효율과 성능을 크게 높인다.

Results

RAE 기반 DiTDH 모델은 ImageNet 256×256 해상도에서 가이드 없이 FID 1.51, 가이드 적용시 1.13의 최첨단 생성 성능을 달성하였다.

Limitations

고차원 잠재 공간 처리에는 보다 큰 모델 폭이 요구되며, 전통적인 DiT 구조는 이러한 고차원 잠재 공간에서의 성능 저하 문제를 겪는다.

Conclusion

Representation Autoencoders와 DiTDH 아키텍처를 결합함으로써, 기존 VAE 기반 모델을 능가하는 효율적이고 고품질의 확산 변환기 학습이 가능해짐을 보였다.

2. OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Alphaxiv

Introduction

  • Goal: 본 연구는 멀티모달 대형 언어 모델(MLLM)의 음성-영상 협력 추론 능력을 평가하기 위한 대규모 벤치마크 데이터셋인 OmniVideoBench를 제안하는 것이다.
  • Motivation: 기존 벤치마크들은 음성과 영상을 통합하는 상호작용적 추론 능력을 포괄적으로 평가하지 못하며, 한쪽 모달리티를 소홀히 하거나 논리적으로 일관되지 않은 통합방식을 사용해 본질적 어려움을 반영하지 못하였다.
  • Contribution: 628개의 다양한 영상과 1000개의 고품질 질문-답변 쌍, 세밀한 단계별 추론 경로를 포함해 음성-영상 모달리티의 상호보완성과 논리적 일관성을 강조한 평가 체계를 구축하였다.

Method

OmniVideoBench는 유튜브와 빌리빌리에서 수집한 8개 대분류, 68개 소분류에 속하는 최대 30분 길이의 실제 영상 628개를 포함한다. 수동으로 작성된 1000개의 객관식 QA 세트에는 13가지 유형의 질문이 있어, 시간적·공간적 추론, 인과관계 분석, 요약 등 영상 이해의 핵심 과제를 포괄한다. 각 질문에는 음성과 영상 근거를 명확히 분리한 단계별 추론 체인이 첨부되어 있으며, 모달리티별 단일 증거 단위를 원자적 단계로 명시하여 평가 신뢰도를 높였다.

Results

OmniVideoBench를 통한 다양한 공개·비공개 MLLM 평가에서 최고 성능 모델이라도 정확도가 60%를 넘지 못해 인간 능력과 현격한 격차를 보여주었으며, 특히 공개 모델들은 임의 추측 수준에 머물러 현존 모델의 음성-영상 협력 추론 능력의 어려움을 강조하였다.

Limitations

현재 MLLM들은 음악 등 저의미적 음향 신호 처리, 장시간 영상 내 추론, 그리고 음성과 영상 간의 긴밀한 상호작용 발휘에 있어 여전히 중요한 한계를 가진다.

Conclusion

OmniVideoBench는 음성과 영상을 아우르는 멀티모달 추론 능력 평가를 위한 새로운 지평을 열어, 보다 견고하고 일반화된 MLLM 개발을 촉진할 것으로 전망된다.

3. Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States

Alphaxiv

Introduction

  • 본 논문의 목표는 확산 기반 언어 모델의 정보 손실과 조기 결정 문제를 극복하기 위해 믿음 상태를 정제하는 새로운 디코딩 방식인 Latent Refinement Decoding (LRD)을 제안하는 것이다.
  • 기존 확산 언어 모델은 높은 지연 시간 문제를 완화하나, 하드 마스킹으로 인한 정보 손실과 전역 조율 부족으로 인한 불안정한 수렴 문제를 겪는다.
  • 본 연구는 연속 임베딩 공간에서 분포 보존적 업데이트와 적응적 이산 토큰 확정을 결합한 이중 단계 프레임워크를 통해 성능 및 효율성을 동시에 향상시키는 방법론을 제시한다.

Method

LRD는 첫 번째 단계에서 [MASK] 임베딩과 예측 토큰 임베딩의 혼합으로 부드러운 확산 과정을 수행하여 전역적 일관성을 갖는 확신 상태를 형성한다. 두 번째 단계에서는 불확실 토큰을 유지하면서 확신 토큰을 점진적으로 이산 임베딩으로 전환하며 KL 발산 모니터링을 통한 적응적 조기 종료를 구현한다. 이러한 방식은 연속 임베딩 공간에서의 잠재적 정제와 단계적 피드백 루프를 통해 확산 기반 모델의 수렴 및 정보 보존 문제를 완화한다.

Results

코드 생성(HumanEval 최대 +6.3, MBPP +2.6) 및 수리 추론(GSM8K +2.9, MATH500 +3.8) 벤치마크에서 LRD는 정확도를 일관되게 개선하는 동시에 최대 10.6배의 추론 속도 향상을 달성하였다.

Limitations

예측 분포의 완전한 이산화는 불가능하며, 잠재 정제 단계가 디코딩 속도를 다소 저하시킬 수 있는 점이 존재한다.

Conclusion

LRD는 확산 언어 모델의 정보 손실과 비효율적 수렴 문제를 잠재 공간에서의 분포 보존적 정제와 적응적 하드 디코딩 결합을 통해 해결하여, 성능 향상과 효율적 병렬 생성을 동시에 실현하는 유망한 디코딩 방안임을 보였다.

4. FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Alphaxiv

Introduction

  • Goal: 본 연구는 대규모 언어 모델(LLMs)의 금융감사 역량을 평가하기 위한 최초의 금융 분류체계 구조 기반 다문서 벤치마크인 FINAUDITING을 제안하는 데 있다.
  • Motivation: GAAP의 복잡성과 XBRL 보고서의 계층적 구조로 인하여 금융감사 자동화 및 검증이 점차 어려워지고 있으나, LLM이 구조적이고 상호의존적이며 분류체계 기반의 금융 문서 이해 능력은 충분히 탐구되지 못하였다.
  • Contribution: 실제 미국 GAAP 준수 XBRL 데이터를 활용하여 의미적 일관성(FinSM), 관계적 일관성(FinRE), 수치적 일관성(FinMR) 세 가지 하위 과제를 정의하고, 통합 평가 체계를 통한 13개 최신 LLM의 체계적 성능 검증 및 한계 분석을 수행하였다.

Method

FINAUDITING은 미국 GAAP 분류체계와 XBRL의 다문서 계층적 구조를 기반으로 금융 감사 오류 감지를 위한 세 가지 독립적 과제, 즉 의미 일치 검증, 관계 추출, 수치 추론을 정의하였다.
각 과제별로 적합한 입력 포맷과 평가 지표(Hit Rate, Macro-F1, 정확도 등)를 통합하여 LLM의 구조적, 계층적, 다단계 금융 데이터 처리 능력을 평가한다.
총 372개 XBRL 보고서로부터 1,102개 오류 사례를 선별·주석하였으며, 대규모 실험 환경에서 13개 SOTA 모델을 제로샷 방식으로 측정하였다.

Results

제로샷 평가에서 최우수 모델이 각 과제별 최고점수를 기록하였으나, 구조적 다문서 및 계층적 관계를 다루는 과정에서 최대 60~90%의 정확도 저하를 보여 LLM이 금융 분류체계 기반 추론에 현저한 한계를 가짐을 확인하였다.

Limitations

현재의 LLM들은 XBRL 다문서 및 분류체계 기반 금융 문서 내 의미적, 관계적, 수치적 일관성을 유지하는 데 있어 신뢰할 만한 수준의 정합성을 달성하지 못하였다.

Conclusion

FINAUDITING은 금융 분야에서 신뢰성 있고 구조 인지 능력이 강한 자동화 감사 시스템 개발을 위한 기초 벤치마크를 제공하며, LLM의 금융 분류체계 기반 추론 역량 향상을 위한 연구 방향을 제시한다.

5. CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 수학 문제 해결에서 시각적 사고를 코드 기반 이미지 생성과 통합하여 수학적 시각 추론 능력을 향상시키는 것이다.
  • Motivation: 기존 대형 언어모델과 비전-언어 모델은 시각 보조가 필요한 수학 문제에서 텍스트 중심 사고 사슬에 한계가 있으며 정확하고 제어 가능한 시각적 추론이 어렵다는 문제점이 존재한다.
  • Contribution: 본 연구는 수학적 시각 추론을 위한 최초의 대규모 이중언어 데이터셋 Math-VR과 고품질 이미지-코드 변환기 MatplotCode를 구축하고, 이를 활용한 실행 가능한 코드 기반의 시각 추론 패러다임 CodePlot-CoT를 제안하였다.

Method

본 방법은 VLM이 자연어 추론과 함께 실행 가능한 플로팅 코드를 생성하도록 유도하며, 코드가 렌더링된 이미지는 시각적 사고로 활용되어 모델의 후속 추론에 입력된다.
고품질 데이터 확보를 위해 수학 도형을 코드로 변환하는 MatplotCode를 개발하여 코드 기반 사고 체인을 훈련 데이터로 구축하였다.
CodePlot-CoT 모델은 이 데이터를 기반으로 훈련되어 시각 및 텍스트 추론을 통합하는 멀티모달 수학 문제 해결을 수행한다.

Results

CodePlot-CoT는 Math-VR 벤치마크에서 기본 VLM 모델 대비 최대 21%의 성능 향상을 보여 코드 기반 시각 추론 패러다임의 유효성을 입증하였다.

Limitations

현재 모델과 도구들의 시각적 문제 해결 정확도와 제어 가능성은 여전히 일부 한계가 존재한다.

Conclusion

실행 가능한 코드에 기반한 시각적 사고를 통해 멀티모달 수학 추론 능력을 크게 향상시킨 CodePlot-CoT는 수학 시각 추론 연구의 새로운 방향을 제시한다.

6. Skill-Targeted Adaptive Training

Alphaxiv

Introduction

  • Goal: 본 연구는 언어 모델의 포화 현상을 극복하기 위해 학생 모델의 부족한 기술을 표적으로 삼는 적응형 미세조정 기법인 STAT를 제안하는 데 목적이 있다.
  • Motivation: 기존의 일반적인 지도 미세조정은 모델이 훈련 데이터와 유사한 문제에서 더 이상 성능 향상을 보이지 않는 포화 상태에 빠지는 문제를 겪기 때문이다.
  • Contribution: 강력한 대형 언어 모델을 교사로 활용하여 학생 모델의 기술 부족을 분석하고, 이를 반영한 선별 및 합성 훈련 데이터를 통해 수학 문제 해결 능력을 유의미하게 개선하는 방법을 제시하였다.

Method

본 방법은 세 단계로 구성된다: 1) 보상 모델을 이용해 학생 모델의 어려운 문제를 식별, 2) 교사 모델이 학생 모델의 답변에서 누락된 기술을 분석하여 누락 기술 프로필(Missing-Skill-Profile)을 생성, 3) 해당 기술에 맞는 훈련 데이터를 재가중치 부여(STAT-Sel)하거나 합성 질문 생성(STAT-Syn)으로 학생 모델을 집중 훈련한다.

Results

STAT는 Llama-3.2-3B-Instruct와 Qwen2.5-3B 모델에서 MATH 데이터셋 기준 최대 7.5%의 성능 향상을 달성하였으며, AIME, AMC23 등 다양한 배포적분포(out-of-distribution) 벤치마크에서도 평균 4.6%의 성능 개선을 나타내었다.

Limitations

본 연구는 주로 소형 수학 문제 해결 모델을 대상으로 하였으며, STAT의 다른 언어 도메인과 대규모 모델에 대한 적용 가능성 및 한계에 대해서는 추가 검증이 필요하다.

Conclusion

STAT는 학생 모델의 기술 결함을 정확히 진단하고 목표로 하여 훈련 데이터를 적응적으로 조정함으로써, 기존 미세조정 기법 대비 뛰어난 내재적 및 일반화 성능 향상을 가능하게 함을 입증하였다.

7. HUME: Measuring the Human-Model Performance Gap in Text Embedding Task

Alphaxiv

Introduction

  • Goal: 본 연구는 텍스트 임베딩 과제에서 인간과 모델 간 성능 격차를 측정하기 위한 인간 평가 프레임워크인 HUME을 제안하는 것이다.
  • Motivation: 기존 임베딩 벤치마크는 인간 성능에 대한 신뢰할 만한 기준이 없어서 모델 점수 해석이 어려웠다.
  • Contribution: 본 연구는 16개 다양한 데이터셋을 통한 인간 성능 기준을 제공하고, 인간과 최신 임베딩 모델의 성능 비교를 통해 과제 난이도 및 데이터셋 문제를 분석하였다.

Method

본 연구는 MTEB 데이터셋 16종을 대상으로 재순위, 분류, 군집, 의미 텍스트 유사도 등 4개 과제 유형에서 인간 평가 프로토콜을 개발하였다. 평가에는 다양한 고·저자원 언어의 NLP 전문가들이 참여하여 독립적인 주석을 수행하였다. 모델은 13개 임베딩 모델로 선정하여 인간 평가와 동일 지표 및 절차로 성능 비교를 진행하였다.

Results

인간 평균 성능은 77.6%로서 최고 임베딩 모델(80.1%)과 근접하였으나, 과제 및 언어별 편차가 커서 특정 데이터셋에서는 인간이 우위를 보였고, 저자원 언어 및 불명확한 과제에서는 데이터셋 문제가 부각되었다.

Limitations

평가에 참여한 주석자 수와 샘플 규모가 제한적이며, 전문성 높은 주석자가 더 나은 성능을 보일 가능성이 존재한다.

Conclusion

HUME은 임베딩 모델 평가에서 인간 성능 기준을 제공하여 모델 점수 해석과 벤치마크 설계에 기여하며, 인간과 일치하는 의미 이해에 기반한 평가 체계를 확립할 수 있는 기반을 제시하였다.

8. The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

Alphaxiv

Introduction

  • Goal: 본 연구는 사용자 메모리가 대형 언어 모델(LLM)의 감정 추론에 미치는 영향을 분석하는 데 목적이 있다.
  • Motivation: 개인화된 AI 시스템이 장기 사용자 메모리를 통합하면서 이러한 메모리가 감정 지능과 사회적 편향에 어떤 영향을 주는지에 대한 이해가 필요하다.
  • Contribution: 다양한 사용자 프로필을 반영한 15개 LLM을 인간 검증된 감정 지능 시험으로 평가하여 사용자의 사회적 배경이 감정 해석에 체계적 편향을 야기함을 밝혀냈다.

Method

사용자 프로필은 보르디외의 사회 자본 이론에 기초해 유리한 조건과 불리한 조건을 반영한 30개 기본 페르소나를 변형하여 생성하였다.
키워드 인 인 인종, 성별, 연령, 종교의 교차성에 따른 81개 페르소나를 제작해 LLM 감정 이해능력과 감정 기반 조언 정확도를 평가하였다.
감정 지능 평가는 인간 전문가가 검증한 STEU 및 수정된 STEM 테스트를 사용하였으며, 편향 가능성이 있는 항목은 사전 제거하였다.

Results

사용자 메모리의 포함이 대부분 모델에서 감정 이해 성능을 유의미하게 변화시켰으며, 특히 사회적 혜택을 받는 프로필에 비해 불리한 프로필에서 정확도가 낮고 편향이 두드러졌다.

Limitations

STEU와 STEM 테스트는 인간 전문가 합의에 기반하며, 원래는 3인칭 가상 시나리오이나 본 연구는 1인칭 개인화 문맥에서 평가되어 점수 차이가 부적절한 영향을 받을 수 있다.

Conclusion

개인화된 기억 메커니즘은 LLM의 감정 추론을 변화시키며, 사회적 불평등을 강화할 위험이 있어 개인화와 공정성 사이의 균형을 맞추는 새로운 접근법이 요구된다.

9. InfiniHuman: Infinite 3D Human Creation with Precise Control

Alphaxiv

Introduction

  • 본 연구의 목표는 텍스트, 신체 형태, 의류 이미지를 조건으로 하는 무한한 3D 인간 아바타를 정밀하게 생성하는 것이다.
  • 기존 3D 인간 생성 기술은 다양성 확보와 세밀한 제어가 어려우며 대규모 데이터셋 구축이 고비용이라는 한계가 존재한다.
  • 본 논문에서는 대규모 다중모달 주석 데이터셋 구축을 위한 자동화 파이프라인과 정밀 제어가 가능한 생성 모델을 포함한 InfiniHuman 프레임워크를 제안한다.

Method

본 연구는 기존 기반 모델들을 증류하여 111,000개 이상의 다양하고 정교한 주석이 포함된 InfiniHumanData를 자동으로 생성하며, 이를 기반으로 텍스트, SMPL 신체 파라미터, 의류 이미지 조건을 다중으로 받아 고속 생성이 가능한 Gen-Schnell과 고해상도, 고품질 생성이 가능한 Gen-HRes 두 가지 생성 모델을 학습한다. Orthographic 다중뷰 확산 모델과 가상 착용 기술을 사용해 스캔과 구별이 어려운 이미지 데이터를 생성하며, SMPL 파라미터를 활용해 신체 형태와 포즈 제어를 정밀하게 수행한다.

Results

제안된 InfiniHumanGen 모델은 기존 최첨단 방법들 대비 시각 품질, 생성 속도, 텍스트 및 의류 제어 정확성에서 월등한 성능을 보이며, 특히 Gen-HRes는 고해상도 3D 메시 생성 시 소요 시간을 대폭 단축하였다.

Limitations

Gen-HRes 모델의 고품질 생성은 아직 Gen-Schnell보다 느리며, 셀프오클루드된 부분 텍스처링에서 일부 인공물이 발생하는 한계가 존재한다.

Conclusion

InfiniHuman 프레임워크는 자동화된 대규모 고품질 3D 인간 데이터셋과 다중 조건 정밀 제어가 가능한 생성 모델을 통해 실시간에 가까운 정밀한 3D 아바타 생성을 가능하게 하여, 향후 가상 패션, 게임, AR/VR 등 다양한 분야에서의 고퀄리티 아바타 생성을 민주화한다.

10. IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

Alphaxiv

Introduction

  • Goal: 본 논문은 Instruction-Guided Video Editing(IVE) 평가를 위한 현대적 벤치마크 스위트인 IVEBench를 제안하는 데 목표가 있다.
  • Motivation: 기존 비디오 편집 벤치마크는 소스 다양성 부족, 협소한 작업 범위, 불완전한 평가 지표로 인해 IVE 방식을 충분히 평가하지 못하는 한계가 존재한다.
  • Contribution: IVEBench는 600개의 고품질 소스 비디오, 8개 범주의 35개 하위 편집 작업, 그리고 전통적 및 MLLM 기반의 3차원 평가 프로토콜을 도입하여 포괄적이고 인간 인지와 정렬된 평가를 가능하게 한다.

Method

IVEBench는 7개의 의미 차원에 걸쳐 다양하게 구성된 600개 비디오로 이루어진 데이터베이스를 구축하였다.
각 비디오에 대해 대형 언어 모델과 전문가 검토를 통해 생성 및 정제된 편집 명령문을 포함한 8개 주요 편집 과제를 설계하였다.
평가는 비디오 품질, 명령 준수, 비디오 충실도 세 차원과 총 12개의 지표를 사용하며, 전통적인 척도뿐 아니라 멀티모달 대형 언어 모델(MLLM)을 활용하였다.

Results

IVEBench를 이용한 다수 최신 IVE 모델들의 실험에서, 본 벤치마크는 다양한 작업 수행 능력과 평가 지표에 대해 인간 인지와 높은 정합성을 가지는 통합적이고 객관적인 평가 결과를 제공함을 입증하였다.

Limitations

현재 대표적인 IVE 모델들은 전체 편집 작업 범위 지원이 미흡하며, 단일 프레임 화질 저하와 긴 시퀀스 처리에서 한계가 존재한다.

Conclusion

IVEBench는 대규모 데이터셋과 광범위한 편집 작업, 다차원 평가 체계를 통합하여 IVE 분야 평가를 체계화하고 향후 연구 발전에 중요한 기준을 마련한다.

11. CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs

Alphaxiv

Introduction

  • Goal: 본 연구는 인간 입력에 의해 대형 언어 모델(LLM)이 편향된 유해 발언을 생성하는 상황에서 모델의 안전성 회복 능력을 평가하는 데 목적이 있다.
  • Motivation: 기존의 LLM 안전 장치가 향상되었음에도 불구하고, 대화 중에는 숨겨진 사회적 편향이 드러나며, 비전문가 사용자도 편향된 발언에 노출될 위험이 존재한다.
  • Contribution: 본 논문에서는 CoBia라는 단일 쿼리만으로 구성된 대화를 통해 LLM 내에 감춰진 사회적 편향을 드러내는 경량 적대적 공격 방법과 112개 사회집단의 부정적 특성 데이터를 제안한다.

Method

CoBia는 대화 기록을 조작해 모델이 특정 사회집단에 대해 편향적 주장을 하도록 유도하고 후속 편향 질문에 대한 거부 여부를 평가한다.
두 가지 프롬프트 구조(HCC, SCC)를 활용하며, 부정적 특성은 긍정적 특성과 혼합해 자연스러운 대화 맥락을 형성한다.
여기에 언급된 안전장치 우회 공격은 단일 쿼리 기반으로, 다수의 공개 및 비공개 LLM 11종에 대해 실행된다.

Results

CoBia 방법은 기존 0-shot, DAN, Roleplay 등 기법 대비 일관되게 높은 사회적 편향 노출률을 보였으며, 특히 출신국가 관련 편향이 가장 심각하게 드러났다.

Limitations

본 연구는 9개 기관에서 개발한 11개 LLM만을 평가하여 모든 모델에 일반화하기에는 한계가 존재한다.

Conclusion

CoBia는 대화 기반으로 LLM의 은폐된 사회적 편향을 효과적으로 드러내며, 향후 대화 전반의 안전장치 강화 필요성을 제기하는 실용적 도구로서 의의를 가진다.

12. MultiCOIN: Multi-Modal COntrollable Video INbetweening

Alphaxiv

Introduction

  • Goal: 본 논문은 사용자 의도에 맞는 세밀한 제어가 가능한 다중모달 영상 중간 프레임 생성(Multi-modal Controllable Video Inbetweening) 방법을 제안하는 것이다.
  • Motivation: 기존 영상 중간 프레임 생성 기법은 복잡한 동작을 효과적으로 처리하지 못하며, 사용자의 다양한 편집 의도를 충분히 반영하지 못하는 한계가 존재한다.
  • Contribution: 본 연구에서는 깊이 변화, 움직임 궤적, 텍스트 명령어, 타깃 영역 등 다중모달 제어 신호를 통합하고, Diffusion Transformer 기반의 모델을 통해 정밀하고 유연한 영상 보간을 구현하였다.

Method

제안된 MultiCOIN은 광학 흐름과 깊이 맵으로부터 희소한 궤적 및 깊이 점을 추출하는 Sparse Motion-Depth Generator와, 지역적 내용 제어를 위한 타깃 영역을 생성하는 Augmented Frame Generator로 구성된다.
이들 모듈은 내용과 동작 정보를 별도의 두 인코더에서 따로 임베딩하여 노이즈 제거 과정에 활용하는 이중 분기 구조를 채택한다.
또한, 단계별 학습 전략을 도입하여 모델이 밀집된 입력으로부터 점차 희소하고 고차원적인 조건을 효과적으로 학습하도록 하였다.

Results

제안된 모델은 DAVIS 및 UCF 데이터셋에서 기존 Framer 대비 영상 품질은 유지하면서도 움직임 궤적 제어 정확도를 크게 향상시킨 것으로 평가되었다.

Limitations

강한 내용 조건이 모션 신호를 압도하여 궤적과 이미지 콘텐츠를 완벽히 정렬하는 데 어려움이 남아있는 한계가 존재한다.

Conclusion

MultiCOIN은 다중모달 제어를 통합한 영상 중간 프레임 생성 프레임워크로, 다양한 제어 신호를 효과적으로 반영하며 고품질 및 정밀한 영상 보간을 실현하였다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-11-05
  • Daily Papers — 2025-11-04
  • Daily Papers — 2025-11-03
  • Daily Papers — 2025-10-31
  • Daily Papers — 2025-10-30