Daily Papers — 2025-11-28

1. Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Alphaxiv

Introduction

  • 본 논문은 다양한 멀티모달 제어를 단일 캔버스 인터페이스로 통합하여 고품질의 합성 이미지 생성을 목표로 한다.
  • 기존 확산 모델들은 텍스트 프롬프트, 피사체 참조, 공간 배치, 포즈 제한, 레이아웃 주석 등 복합적 제어의 정밀한 반영에 한계를 가진다.
  • 제안하는 Canvas-to-Image는 다양하고 이질적인 제어 신호를 하나의 RGB 캔버스 이미지로 통합하여 모델이 복합 비주얼·공간적 논리를 수행하도록 학습시키는 통합 멀티태스크 캔버스 훈련 전략을 개발하였다.

Method

Canvas-to-Image는 주제 삽입, 포즈 가이드, 레이아웃 제약 등 이질적인 제어를 단일 RGB 이미지 형태의 Multi-Task Canvas로 통합한다. 이 캔버스는 비전-언어 모델과 변분 오토인코더의 결합 아키텍처를 통해 인코딩되어 확산 모델에 조건으로 제공된다. 모델은 단일 작업별 훈련 샘플로부터 학습 후에는 훈련에서 보지 못한 다중 제어 신호의 조합에도 일반화하여 처리할 수 있다.

Results

다양한 벤치마크에서 Canvas-to-Image는 기반 모델 및 최첨단 상업용 모델 대비 피사체 정체성 보존, 포즈 일치도, 공간 배치 충실도에서 현저한 우수성을 보였다.

Limitations

현재 단일 RGB 캔버스 인터페이스의 정보 밀도 한계가 존재하며, 이는 향후 시각적·의미적 제어 범위 확장에 제약이 된다.

Conclusion

Canvas-to-Image는 멀티모달 및 합성 제어를 하나의 시각적 캔버스 형식으로 통합하여 단일 모델로 정체성, 포즈, 공간 제약을 충실히 반영하는 유연하고 일관된 이미지 생성을 실현하였다.

2. Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

Alphaxiv

Introduction

  • Goal: 본 논문은 다중 기준에 따른 평가 준수 능력과 신뢰성 있는 세부 기준 판단을 측정하는 멀티모달 평가자 모델들의 성능을 평가하기 위한 Multi-Crit 벤치마크를 제시하는 데 목적이 있다.
  • Motivation: 기존 멀티모달 평가 시스템에서 모델들이 인간 판단과 일치하는지 여부에 집중되었으나, 다양한 세부 평가 기준을 따르고 기준 간 상충을 인지하는 능력에 대해서는 충분히 탐구되지 않았다.
  • Contribution: Multi-Crit은 다중 세부 기준별 인간 주석이 포함된 엄격한 데이터셋과 세 가지 평가 지표를 도입하여 평가자 모델이 다면적 기준을 따르고, 기준 간 상충 및 선호 절충을 인식하는 능력을 체계적으로 검증할 수 있도록 한다.

Method

Multi-Crit은 개방형 생성과 검증 가능한 추론 과제를 포함하는 다양한 멀티모달 프롬프트와 11개 LMM에서 생성한 응답 쌍으로 구성된다.
데이터는 다단계 필터링을 통해 미묘한 품질 차이가 있는 도전적 사례만을 선별하며, 9명의 전문 연구자가 5-10개의 세부 기준에 따라 인간 주석을 수행하였다.
평가자 능력 판단을 위하여 1) 다중 기준 정확도, 2) 기준 간 선호 절충 인식, 3) 기준 수준의 선호 상충 해결력의 세 가지 신규 지표를 제안한다.

Results

25개 LMM을 대상으로 진행한 종합 평가에서 최고 성능의 독점 모델들도 개방형 태스크에서 32.78%의 다중 기준 정확도에 그쳤으며, 오픈소스 모델은 특히 기준별 상충 인식 및 절충 능력에서 크게 뒤처짐이 확인되었다.

Limitations

비평자 모델 미세조정은 시각적 정합성 평가는 개선하였으나, 다중 기준의 세부적이고 상충하는 평가 차원에 일반화되지 못하는 한계가 존재한다.

Conclusion

Multi-Crit은 다중 기준 평가 준수와 기준 간 상충 인식 능력에 중점을 둔 최초의 멀티모달 평가자 벤치마크로서, 보다 신뢰 가능하고 조절 가능한 AI 평가 시스템 개발의 토대를 마련하였다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-12-15
  • Daily Papers — 2025-12-12
  • Daily Papers — 2025-12-11
  • Daily Papers — 2025-12-10
  • Daily Papers — 2025-12-09