Daily Papers — 2025-12-08
1. TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
Introduction
- 본 논문은 대규모 다중모달 생성 모델에서 1단계 생성(one-step generation)을 실현하는 TWINFLOW 프레임워크를 제안하는 것이 목표이다.
- 기존 확산 및 플로우 매칭 기반의 다단계 생성 모델들은 높은 추론 비용과 학습 복잡성이라는 문제를 가지고 있으며, 이를 개선하기 위해 단순하고 안정적인 1단계 생성 방법이 필요하다.
- TWINFLOW는 고정된 사전학습 교사 모델과 외부 GAN 손실 없이 자체 적대적 흐름(self-adversarial flows)을 활용하여 효과적인 1단계 생성 훈련을 가능하게 하는 단순하면서도 효율적인 방법론을 제안하였다.
Method
- TWINFLOW는 시간 구간을 [-1, 1]로 확장하여 노이즈에서 실제 데이터와 모델 생성의 가짜 데이터로 이동하는 두 개의 대칭 경로(twin trajectories)를 학습함으로써 자체 적대적 신호를 생성한다.
- 이 두 경로의 속도장 차이를 최소화하는 방향으로 네트워크를 학습하여 노이즈와 데이터 간 직접적이고 견고한 변환을 획득한다.
- 자체 적대적 손실과 경로 정정 손실을 통합하여 다단계와 1단계 생성 모두에서 우수한 성능을 발휘하도록 설계되었다.
Results
- Qwen-Image-20B 대규모 모델에 TWINFLOW를 적용하여 1-NFE 상태에서 거의 원본 100-NFE 모델과 동등한 수준의 GenEval 및 DPG-Bench 성능(GenEval 0.86, DPG 86.52)을 달성하며, 기존 방법 대비 최대 100배 추론 비용 절감을 보였다.
Limitations
- TWINFLOW의 이미지 편집, 비디오 및 오디오 생성과 같은 다양한 작업과 모달리티에 대한 확장성과 적응성은 아직 충분히 검증되지 않았다.
Conclusion
- TWINFLOW는 별도의 보조 모델이나 고정된 교사 모델 없이 대규모 모델에서 효율적이고 고성능의 1단계 및 소수 단계 생성이 가능한 간결한 학습 프레임워크임을 입증하였다.
2. Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image
Introduction
- Goal: 본 연구의 목적은 단일 이미지로부터 일관된 4D 장면을 생성하기 위해 3D 기하 구조 복원과 동작 생성을 공동으로 수행하는 프레임워크를 제안하는 것이다.
- Motivation: 기존의 생성 후 복원 방식과 복원 후 생성 방식은 기하학적 불일치 혹은 제한적인 동작 모델링 문제를 야기하여 공간-시간적 일관성과 일반화 성능이 떨어진다.
- Contribution: 본 연구에서는 고품질 4D 데이터셋인 TrajScene-60K를 구축하고, 깊이 정보 기반 동작 정규화 및 동작 인식 모듈을 포함하는 4D Scene Trajectory Generator (4D-STraG)와 4D View Synthesis Module (4D-ViSM)을 제안하여 기하학과 동작의 밀접한 결합을 실현하였다.
Method
제안하는 4D-STraG는 단일 입력 이미지로부터 3D 구조와 동작을 확산 기반 공동 모델링하며 깊이 가이드 정규화로 거리별 모션 변동을 조절한다. Motion Perception Module(MPM)은 동작 가능 영역을 인식해 동작 생성의 정밀도를 높이며, 4D-ViSM은 재구성된 4D 포인트 클라우드를 이용해 임의의 카메라 궤적에서 동영상을 생성한다. 전체 시스템은 움직임과 기하학이 상호 보완적으로 연동되어 고품질의 4D 영상 합성을 가능하게 한다.
Results
실험 결과, 제안한 MoRe4D는 다양한 공개 데이터 및 비교 대상에 대해 4D 장면의 동적 리얼리즘, 다중 시점 일관성, 그리고 영상 품질에서 기존 최첨단 방법을 능가하는 성능을 보였다.
Limitations
본 연구는 단일 이미지에 기초하여 4D 합성을 수행하나, 복잡한 장면이나 대규모 움직임에 대한 보다 보편적인 동역학 표현과 경량 모델 구현에 대한 추가 연구가 필요하다.
Conclusion
본 연구는 동작 생성과 3D 기하 복원을 결합한 단일 이미지 기반 4D 합성 프레임워크를 제시하여 관련 분야의 기술적 진보와 향후 연구 방향을 제시하였다.
3. SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling
Introduction
- 본 연구의 목표는 사용자가 지정한 공간적 기하학 정보를 활용하여 고품질의 3D 자산을 직관적이고 정밀하게 제어하는 것이다.
- 기존 3D 생성 방법들은 텍스트나 이미지 프롬프트에 의존하여 기하학적 구체성이 부족하다는 한계가 존재하였다.
- 이에 SPACECONTROL이라는 훈련이 필요 없는 테스트 시공간 제어 방법을 도입하여 다양한 형태의 기하학 입력과 현대 사전학습된 3D 생성모델과의 통합을 실현하였다.
Method
SPACECONTROL은 사용자가 제공하는 거친 원시형(primitive)부터 정교한 메시(mesh)까지 다양한 입력 기하학을 사전학습된 Trellis 모델의 잠재공간에 직접 인코딩하여 공간적 제어를 수행한다.
기하학 제어 강도는 τ0 파라미터를 통해 조정 가능하며, 이를 통해 기하학적 정확도와 시각적 리얼리즘 간의 균형을 조절한다.
텍스트 또는 이미지 조건과 결합하여 3D 구조 생성과 외관 생성을 분리하고 각각에 맞게 제어하여 고품질의 3D 자산을 생성한다.
Results
Toys4K와 ShapeNet 데이터셋을 대상으로 기존의 학습 기반 및 가이드 기반 방법들과 비교 실험한 결과, SPACECONTROL은 공간적 제어 정확도(L2 첨퍼 거리)에서 월등한 성능을 보이며 시각적 품질도 우수하게 유지하였다.
Limitations
현재 공간적 제어 강도 파라미터 τ0는 수동으로 설정해야 하며 객체 내 서로 다른 부위에 대한 부분별 제어 기능은 미구현 상태이다.
Conclusion
SPACECONTROL은 추가 훈련 없이도 3D 공간에서 직접 작동하는 시험 시공간 제어 프레임워크로서, 실용적인 인터페이스와 함께 창작 작업 흐름에 즉시 적용 가능한 고품질 3D 생성 제어 방법임을 입증하였다.
4. M3DR: Towards Universal Multilingual Multimodal Document Retrieval
Introduction
- Goal: 본 연구는 22개 언어에 걸쳐 다국어 다중모달 문서 검색을 효율적으로 수행할 수 있는 범용 문서 검색기 M3DR 프레임워크를 개발하는 것이다.
- Motivation: 기존 다중모달 문서 검색 시스템이 주로 영어 중심으로 개발되어 다국어 환경에서 성능이 크게 저하되는 문제를 해결하고자 한다.
- Contribution: 합성 다국어 문서 데이터 생성, 다양한 비전-언어 모델과 크기에서의 일반화, 22개 언어를 포괄하는 다국어 다중모달 문서 검색 벤치마크 및 두 가지 고성능 4B 파라미터 모델(NetraEmbed, ColNetraEmbed)을 제시하였다.
Method
본 연구는 레이아웃 인지 신경망과 신경망 번역기를 이용한 합성 병렬 문서 데이터셋을 구축하였으며, 대형 비전-언어 모델을 활용해 다양한 질의 유형을 합성하였다. 두 가지 검색 모델을 설계하였으며, 단일 밀집 벡터와 ColBERT 스타일 다중 벡터 접근법을 모두 지원한다. 대조학습 기반 손실 함수를 포함한 세 가지 학습 전략을 비교 평가하였고, Matryoshka 표현 학습으로 임베딩 차원 조절이 가능하도록 하였다.
Results
NetraEmbed 모델은 교차언어 검색에서 NDCG@5 지표 0.716를 기록하여 기존 영어 중심 모델 대비 약 152% 상대 성능 향상을 달성하며 다국어 문서 검색 분야 최첨단 성능을 보였다.
Limitations
드문 언어 쌍 간 성능 저하, 복잡한 표 형식 처리의 어려움, 문서 내 구간 또는 구역 수준 검색 미지원, 22개 언어 이상의 희소 언어 및 제로샷 일반화 한계 등이 여전히 존재한다.
Conclusion
M3DR은 다국어 다중모달 문서 검색에서 획기적인 성능 향상과 영어 성능 유지의 두 마리 토끼를 잡아 실제 다국어 정보 검색 시스템 구축 가능성을 크게 확장하였다.
5. Self-Improving VLM Judges Without Human Annotations
Introduction
- Goal: 본 연구는 인간의 선호도 주석 없이 자체 합성 데이터를 활용하여 자가 학습 방식으로 비전-언어 모델(VLM) 평가자를 훈련하는 방법을 제시하는 것이다.
- Motivation: 기존 VLM 평가자 훈련은 대규모 인간 선호도 주석에 의존하며, 이는 비용이 크고 모델 발전 속도에 따라 빠르게 무용해진다는 문제점이 존재한다.
- Contribution: 본 연구는 합성된 선호 쌍 및 추론 근거를 활용한 반복적 자기 지도 학습 프레임워크를 통해 크기가 작은 모델로도 대형 모델과 경쟁 가능한 성능을 달성함을 보였다.
Method
제안된 방법은 (1) 다양한 품질 수준의 다중모달 지시-응답 쌍을 생성하고, (2) 각 쌍에 대한 추론 과정과 판단을 생성하여 예상 품질과 일치하지 않는 샘플을 필터링하며, (3) 올바른 판단과 그 추론 근거를 기반으로 평가자를 훈련하는 세 단계의 반복적 과정을 수행한다.
Results
11B 파라미터급의 자가 학습 VLM 평가자는 VL-RewardBench에서 초기 0.38의 정확도에서 0.51로 상승하며, 90B 이상의 대형 모델 및 GPT-4o, Claude 3.5 Sonnet 등을 능가하는 전반적 성능 향상을 달성하였다.
Limitations
본 방법은 편향 및 안전성 평가에 필요한 악성 콘텐츠에 대한 합성 데이터 생성이 포함되지 않아 안전성 평가 성능 향상에 한계가 존재한다.
Conclusion
본 연구는 인간 주석 없이도 자체 생성된 합성 데이터를 활용해 반복적으로 개선 가능한 VLM 평가자 학습 프레임워크를 제안하며, 이는 신속히 발전하는 VLM 능력에 효과적으로 대응 가능한 자가 판단 시스템 개발 가능성을 시사한다.
6. TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation
Introduction
- Goal: 본 연구는 딥러닝 기반의 시간 영역 조건 생성 모델인 TimesNet-Gen을 개발하여 지진 발생 시 현장 특이적 강진 운동 신호를 생성하는 것을 목표로 한다.
- Motivation: 지진 위험 저감에는 지역별 지반 특성에 따른 정확한 운동 예측이 필수적이나, 기존 모델들은 복잡한 시간 및 주파수 특성을 효과적으로 표현하지 못하는 한계가 있었다.
- Contribution: 본 연구는 TimesNet-Gen 구조 제안, 기본 주파수 기반 평가 지표 도입, 그리고 위치별 조건 부여를 통한 데이터 직접 학습 방식을 통해 기존 연구 대비 향상된 장소 특이적 강진 시뮬레이션을 달성하였다.
Method
TimesNet-Gen은 시간 영역 신호를 입력으로 multi-scale 시계열 패턴을 추출하는 TimesNet을 기반으로 하여, 인코더-디코더 구조에 잠재 병목층과 관측소 ID 기반 조건부 생성을 포함한다.
비교 모델로는 진폭/위상 스펙트로그램에 조건부 VAE를 적용하였으며, 두 모델 모두 AFAD 데이터셋을 이용해 무조건적 예비학습 후 5개 관측소 데이터에 대한 조건부 미세조정을 수행하였다.
모델 평가는 관측소별 기본 주파수 분포 및 HVSR (수평대 수직 스펙트럼비) 곡선을 활용하여 신호의 물리적 일관성과 지역 특성을 검증하였다.
Results
TimesNet-Gen은 VAE 모델 대비 기본 주파수 분포에서 더 뛰어난 관측소별 신호 구분력과 HVSR 피크 특성 재현을 보여, 현장별 주파수 특성을 안정적으로 포착함을 확인하였다.
Limitations
TimesNet-Gen은 현장 ID 조건부 생성을 위한 충분한 기록 데이터가 필요한 반면, 일부 관측소는 데이터가 제한적이어서 일반화에 어려움이 있을 수 있다.
Conclusion
TimesNet-Gen은 현장 조건부 딥러닝 기반 강진 신호 생성에 성공했으며, 향후 물리 기반 모델과의 결합 및 지진 조기경보 등 후속 지진공학 과제 응용 가능성을 제시한다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: