Daily Papers — 2025-09-13"

1. HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

Introduction

  • Goal: 본 논문은 텍스트, 참조 이미지, 오디오의 삼중 조건에 기반하여 인간 중심 영상 생성을 수행하는 HuMo 프레임워크를 제안하는 것을 목적으로 한다.
  • Motivation: 기존 인간 중심 영상 생성 기법들은 적절히 균형잡힌 다중 모달 협력 제어와 이를 위한 고품질 데이터 부족 문제로 인해 텍스트, 이미지, 오디오의 통합 제어가 어려웠다.
  • Contribution: HuMo는 고품질의 다중 모달 데이터 구축과 점진적 다중 모달 학습 및 시각-청각 동기화 향상을 위한 새로운 학습 전략과 시간 적응적 가이드 방식을 통해 세 모달리티의 협력적 제어를 달성하였다.

Method

HuMo는 DiT 기반 텍스트-투-비디오 백본을 확장하여 참조 이미지 주제 보존과 음성-시각 동기화를 위한 점진적 다중 단계 학습을 수행한다. 고품질 데이터 파이프라인을 통해 텍스트, 이미지, 오디오가 정밀하게 정렬된 삼중 조건 데이터를 구축하고, 이미지 주제 보존에는 최소 침해 이미지 주입 전략을, 음성-시각 동기화에는 얼굴 영역 집중 예측 방식을 적용한다. 추론 시에는 시간에 따라 가중치를 조절하는 시간 적응적 Classifier-Free Guidance 전략으로 세 모달리티 간 협력적이고 세밀한 통제력을 구현하였다.

Results

HuMo는 주제 보존과 음성-시각 동기화 하위 과제 모두에서 기존 최신 기법들을 능가하며, 1.7B 및 17B 규모 모델에서 뛰어난 품질과 협력적 모달 제어 성능을 입증하였다.

Limitations

현재 음성 정렬 데이터가 인간 중심 영상에 국한되어 비인간 모달리티에 대한 오디오-시각 동기화는 제한적이다.

Conclusion

HuMo는 다중 모달 조건 하에 텍스트, 이미지, 오디오의 협력적 조합으로 인간 중심 영상 생성의 조작성과 품질을 동시에 향상시키는 통합 프레임워크로서 의의를 가진다.

2. AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

Introduction

  • Goal: 본 연구는 대규모 오디오 언어 모델(Audio LLMs, LALMs)의 효율적이고 포괄적인 평가를 위한 오픈소스 툴킷 AU-Harness를 제안하는 것이다.
  • Motivation: 기존 평가 도구들은 처리 속도 저하, 비일관적 프롬프트, 그리고 제한된 작업 범위로 인해 대규모 비교와 체계적 평가 수행에 한계가 존재한다.
  • Contribution: AU-Harness는 고속 병렬처리, 표준화된 프롬프트, 그리고 LLM 적응형 발화자 분리 및 구어 기반 추론 등 확장된 작업을 포함하는 종합 평가 체계를 구현하였다.

Method

AU-Harness는 중앙 요청 제어기를 통한 토큰 기반 병렬 요청 스케줄링과 데이터셋 샤딩으로 다수 모델 및 노드 환경에서 평가를 효율적으로 수행한다.
프롬프트 표준화 및 다중 회차 대화 지원을 통해 평가 재현성과 맞춤 구성이 가능하다.
새롭게 도입한 LLM-Adaptive Diarization과 Spoken Language Reasoning 과제는 시간적 이해와 복잡한 음성 추론 능력을 평가한다.

Results

380개 이상의 작업을 포함한 평가에서 AU-Harness는 기존 도구 대비 최대 127% 처리량 향상과 59% 처리 시간 감소를 달성하며, 오디오 명령 해석 시 지시어 종류에 따른 성능 격차 최대 9.5점의 유의미한 결과를 밝혔다.

Limitations

본 시스템의 효율성은 vLLM과 백엔드 연동에 의존하며, 표준화된 프롬프트에도 여전한 민감성과 영어 중심의 데이터 편향 등의 한계가 존재한다.

Conclusion

AU-Harness는 대규모 LALM의 공정하고 광범위한 평가를 가능케 하여 오디오 언어 모델 연구의 표준화 및 발전에 기여한다.

3. mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

Introduction

  • Goal: 본 연구는 1800개 이상의 언어에 걸쳐 3조 토큰의 다국어 텍스트로 사전학습된 최신 인코더 전용 언어 모델 MMBERT를 제안하는 것이다.
  • Motivation: 기존 인코더 전용 다국어 언어 모델 연구가 부족하며, 특히 대규모 다국어 성능 향상과 최신 사전학습 기법 적용에 한계가 있었다.
  • Contribution: 역마스킹 비율 스케줄, 역온도 샘플링 비율, 저자원 언어에 대한 단계적 추가 방식 등 새로운 사전학습 기법을 도입하여 MMBERT가 기존 모델 대비 뛰어난 분류 및 검색 성능을 보여주었다.

Method

MMBERT는 ModernBERT 아키텍처와 Gemma 2 토크나이저를 기반으로 하며, 60개 언어에서 시작해 110개, 최종적으로 1833개 언어까지 단계적으로 학습 대상 언어를 확장한다.
학습 과정은 사전학습, 중간학습, 감쇠단계로 구분되며, 각 단계별로 마스킹 비율을 점진적으로 낮추고 데이터 품질과 언어 다양성을 높인다.
저자원 언어는 마지막 감쇠단계에서만 포함시켜 소량의 데이터로도 빠르게 학습하는 Annealed Language Learning 기법을 적용하였다.

Results

MMBERT는 XLM-R, mGTE, EuroBERT 등 기존 다국어 인코더 모델을 모든 주요 자연어 이해와 검색 벤치마크에서 능가하며, 특히 저자원 언어 분류 성능에서 OpenAI o3 및 Google Gemini 2.5 Pro 같은 대규모 디코더 모델보다 우수한 성과를 보였다.

Limitations

저자원 언어에 대한 데이터 부족 문제와 고품질 필터링 데이터가 여전히 부족한 한계가 존재한다.

Conclusion

MMBERT는 3조 토큰, 1833개 언어 데이터와 새로운 사전학습 기법을 통해 기존 다국어 인코더 모델을 뛰어넘는 성능을 달성한 현대적인 다국어 인코더 모델이다.

4. Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation

Introduction

  • 이 연구의 목적은 멀티모달 추천 시스템에서 시각적 및 텍스트 특징 간의 정밀한 교차모달 정합과 전역 분포 일관성을 달성하는 새로운 프레임워크 MambaRec을 제안하는 것이다.
  • 사용자의 과거 행동과 상품의 다중 모달 특성을 통합하여 개인화 추천을 구현하는 기존 방법들은 정적 융합과 국소 상호작용 모델링에 의존함으로써 미세한 의미 연관성 포착과 전역 일관성 유지에 한계가 있었다.
  • 본 연구에서는 다중 스케일 확장 합성과 채널 및 공간 주의 메커니즘을 활용한 Dilated Refinement Attention Module (DREAM)과 최대 평균 차이(MMD) 손실을 융합하여 모달 간 지역적 정렬과 전역 분포 정규화를 동시에 수행하는 점에서 기여한다.

Method

MambaRec은 DREAM 모듈을 통해 멀티스케일 확장 합성과 이중 주의 집중으로 시각 및 텍스트 피처 간 미세한 지역 정합을 수행한다. 또한, MMD 손실과 대조 학습을 결합하여 모달 분포 간 거리 차이를 감소시키고 전역 의미 정렬을 강화한다. 아울러, 고차원 특징을 위한 차원 축소 기법을 도입해 메모리 사용과 연산 비용을 효율적으로 최적화한다.

Results

세 개의 실제 전자상거래 데이터셋에서 MambaRec은 기존 최신 기법들을 능가하는 융합 품질, 일반화 성능 및 연산 효율성을 보였다.

Limitations

정보 부족.

Conclusion

MambaRec은 지역적 정합과 전역 분포 정규화를 통합하여 멀티모달 추천에서 의미적 일관성과 노이즈 저항성을 높인 효과적이고 확장 가능한 모델임을 확인하였다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-09-12"
  • Daily Papers — 2025-09-11"
  • Daily Papers — 2025-09-10"
  • Daily Papers — 2025-09-09"
  • Daily Papers — 2025-09-08"