Daily Papers — 2025-11-19
1. MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs
Introduction
- Goal: 본 논문은 Large Vision-Language Models(LVLMs)의 오도하는 시각적 입력에 대한 강인성을 평가하기 위한 종합적인 벤치마크 MVI-Bench를 제안한다.
- Motivation: 기존 강인성 평가들은 주로 혼동을 일으키는 텍스트 입력에 집중하여 시각 입력으로 인한 오도 문제를 간과하였다.
- Contribution: 본 연구는 시각 개념, 속성, 관계의 세 단계 계층적 분류 체계를 도입하고, 6개 대표 카테고리, 1,248개의 정교하게 주석된 VQA 쌍을 포함하는 MVI-Bench와 MVI-Sensitivity 평가 지표를 제안하였다.
Method
MVI-Bench는 의미론적 내용은 동일하지만 미묘한 오도 시각 단서가 포함된 쌍(pair)으로 구성된 VQA 데이터셋이다.
시각적 오도 유형은 시각 개념(유사성, 표현 혼동), 속성(재질 혼동), 관계(거울 반사, 가림 혼동, 착시)로 세분화된다.
평가는 정상 이미지 대비 오도 이미지에서의 성능 저하를 정량화하는 MVI-Sensitivity 지표를 활용한다.
Results
18종 LVLM 평가 결과, 최신 폐쇄-오픈소스 모델 모두 오도 시각 입력에 취약하며 특히 공간적 관계를 요구하는 카테고리에서 성능 저하가 두드러졌다.
Limitations
장기적 사고 과정을 포함한 추론 강화가 일관되지 않은 성능 향상을 보이며 시각 인지 능력이 여전히 주된 병목임이 관찰되었다.
Conclusion
MVI-Bench는 LVLM의 시각적 오도에 대한 약점을 체계적으로 조명하며, 향후 보다 견고하고 신뢰성 있는 멀티모달 모델 개발에 유용한 인사이트를 제공한다.
2. OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
Introduction
- Goal: 본 연구의 목표는 오디오 정보를 활용하여 오디오-비디오 토큰을 동적으로 압축함으로써 Omnimodal 대형 언어 모델(OmniLLMs)의 추론 속도와 효율을 향상시키는 방법을 제안하는 것이다.
- Motivation: 기존 연구들은 단일 모달리티에 국한된 토큰 압축 방식에 집중하였으나, 빠르게 발전하는 OmniLLMs에서는 멀티모달 토큰을 함께 압축하는 효율적 방법에 대한 연구가 부족하다.
- Contribution: 본 논문에서는 학습이 필요 없는 audio-guided 오디오-비디오 토큰 압축 프레임워크 OmniZip을 제안하여, 오디오 토큰 기반 정보 밀도 평가를 통해 동적으로 비디오 토큰 프루닝 비율을 조절하는 혁신적 방식을 도입하였다.
Method
OmniZip은 시간 구간별로 눈에 띄는 오디오 토큰을 선별하고, 해당 구간의 오디오 유지율을 정보 밀도 및 이벤트 경계로 간주하여 동적으로 비디오 토큰 압축 비율을 조절한다. 비디오 토큰은 시공간적 중복을 해소하기 위해 상호교차식(spatio-temporal) 압축 방식을 채택하며, 비주얼 센서 기반 전통적 토큰 압축 한계를 극복하였다. 또한 비학습 기반으로 FlashAttention과 호환되어 실시간 추론 가속화에 기여한다.
Results
OmniZip은 Qwen2.5-Omni (3B, 7B) 모델에서 여러 오디오-비디오 이해 벤치마크 상에서 2.7~3.8배의 추론 속도 향상과 10GB GPU 메모리 절감 효과를 보임과 동시에 기존 최고 성능 기법 대비 평균 99% 이상의 정확도를 유지하였다.
Limitations
OmniZip은 다양한 벤치마크에서 우수한 성능을 보이나, 특정 도메인 및 모달리티 조합에 따른 최적 압축 비율 설정에 대한 민감도가 존재한다.
Conclusion
본 연구는 오디오 신호를 기반으로 멀티모달 토큰 압축 문제를 최초로 체계적으로 고찰하고, OmniZip이라는 비학습 오디오 가이드 동적 압축 기법을 통해 OmniLLMs의 실용적인 효율성과 성능을 동시에 개선하였다.
3. Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
Introduction
- Goal: 본 논문은 대규모 디코더 전용 모델과 시각 정보를 이용한 효율적인 다중 모달 극한 다중 라벨 분류(XMC) 프레임워크를 제안하는 것을 목표로 한다.
- Motivation: XMC에서 수백만 개에 달하는 라벨 공간을 가지고 효율성과 성능 간 균형을 맞추는 것이 필수적이나, 대형 언어 모델과 시각적 메타데이터를 활용하는 연구는 미흡하였다.
- Contribution: 본 연구는 디코더 전용 대규모 모델을 효과적으로 활용하는 듀얼-디코더 학습 방법과 시각 정보를 통합하는 ViXML 프레임워크를 제안하고, 기존 텍스트 전용 데이터셋을 이미지 메타데이터로 확장하였다.
Method
본 연구는 시암쌍둥이(Siamese) 스타일의 듀얼-디코더 학습 방식을 도입하여 텍스트 임베딩에 대형 디코더 전용 트랜스포머를 효율적으로 적용하였다. 제안된 ViXML 프레임워크는 기초 시각 모델의 고정된 이미지 임베딩을 활용하여 텍스트 임베딩과 결합하는 초기 융합 방식을 사용하며, 이를 통해 연산 오버헤드는 최소화하면서 다중 모달 정보를 효과적으로 통합한다. 또한, 디코더 모델을 위한 구조화된 프롬프트 템플릿을 설계하여 이미지 메타데이터를 명시적으로 반영하도록 하였다.
Results
제안된 ViXML과 듀얼-디코더 학습은 네 개의 공개 텍스트 전용 및 이미지 확장 XMC 데이터셋에서 이전 최첨단 대비 최대 +8.21%p P@1 성능향상을 달성하였다.
Limitations
현 연구는 디코더 전용 모델의 자원 소모 및 추론 지연 문제를 완전히 해결하지 못하며, 본 논문에서는 주로 상대적으로 작은 모델까지 확장에 집중하였다.
Conclusion
본 연구는 대규모 디코더 전용 모델과 시각적 메타데이터를 효율적으로 융합한 ViXML 프레임워크를 통해 XMC 분야에서 성능과 효율성을 동시에 향상시키며 새로운 연구 방향을 제시하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: