Daily Papers — 2025-12-04

1. ViDiC: Video Difference Captioning

Alphaxiv

Introduction

  • Goal: 본 논문은 두 영상 클립 간의 정밀한 유사점과 차이점을 자연어로 설명하는 비디오 차이 캡셔닝(Video Difference Captioning, ViDiC) 과제를 제안하는 것이다.
  • Motivation: 기존 이미지 차이 캡셔닝은 정적인 이미지 쌍만 다루어 시간적 변화 및 움직임 연속성을 반영하지 못하는 한계가 있다.
  • Contribution: 1,000개 비디오 쌍과 4,000개 이상의 비교 항목이 주석된 ViDiC-1K 데이터셋과, 정확하고 확장 가능한 다중모달 대형언어모델(MLLM) 평가 프레임워크를 함께 제시하였다.

Method

ViDiC-1K 데이터셋은 실제 영상과 합성 영상 쌍을 수집 및 생성하였고, 7개 범주(주체, 스타일, 배경, 촬영기법, 동작, 위치, 재생기술)에 따라 유사성과 차이점 체크리스트를 정밀하게 주석하였다. 평가에는 대형언어모델(LLM) 기반 판사 모델을 사용하여 생성된 캡션의 사실성 검증을 수행하는 이중 체크리스트 방식을 도입하였다. 주석 과정은 자동 초안 생성과 다수 전문가의 엄격한 검증으로 진행되었다.

Results

19개 대표 멀티모달 모델 실험 결과, 스타일 인식에서는 높은 성능을 보였으나 촬영기법과 재생기술 인식에서는 전반적으로 낮은 성능을 기록하여 현존 모델의 시간적 추론 및 편집 인식 능력에 큰 개선 여지가 있음을 확인하였다.

Limitations

본 연구는 고품질 평가용 테스트셋 구축에 중점을 두었으나 대규모 학습용 데이터셋 구축 및 특화된 모델 설계는 차후 연구 과제로 남겨두었다.

Conclusion

ViDiC-1K와 이중 체크리스트 평가체계는 비디오 간 정교한 차이 인식 및 서술 능력을 장악하는 새로운 표준 벤치마크로서, 멀티모달 인공지능의 비디오 이해 및 편집 인지 발전에 기여할 것이다.

2. Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

Alphaxiv

Introduction

  • Goal: 본 논문은 텍스트-비주얼 생성 과정에서 추론 시점(inference-time)의 스케일링을 위해 프롬프트를 동적으로 재설계하는 방법을 제안하는 것을 목표로 한다.
  • Motivation: 기존 연구들은 시각적 생성의 계산량만 확장하면서 고정된 프롬프트를 사용해 반복적 실패 패턴을 해결하지 못하고 성능이 조기 포화되는 문제점이 존재한다.
  • Contribution: 본 연구는 반복되는 비주얼 생성 실패 패턴을 진단하고 이를 반영하여 프롬프트를 수정하는 PRIS(프로프트 리디자인)를 도입함으로써 텍스트와 시각적 결과물 간 정합성을 크게 향상시켰다.

Method

추론 단계에서 생성된 여러 비주얼 샘플을 분석하여 공통 실패 요소를 Element-level Factual Correction(EFC)이라는 정밀 검증기를 통해 분해하고 평가한다.
이를 바탕으로 PRIS는 가장 빈번히 실패하는 프롬프트 요소를 강화하도록 텍스트를 재설계하여, 수정된 프롬프트와 우수한 노이즈 시드를 활용하여 다시 비주얼을 생성한다.
이 과정은 반복적이며, EFC의 세밀한 피드백을 통해 프롬프트와 시각적 샘플의 동시 확장이 가능하다.

Results

제안된 PRIS는 텍스트-이미지 및 텍스트-비디오 생성 벤치마크에서 각각 최대 7%, 15%의 프롬프트 정합성 개선을 달성했으며, 기존 Best-of-N 선정 방식을 능가하였다.

Limitations

본 방법은 프롬프트 재설계 과정에서 잘못된 보상 모델의 과적합이나 일부 영역(예: 열역학적 묘사)에서 성능 저하 현상을 보인다.

Conclusion

PRIS는 추론 시점에서 반복적 실패를 분석하고 이를 반영하여 프롬프트를 재설계함으로써 고정된 프롬프트 기반 확장의 한계를 극복하고 텍스트-비주얼 정합성을 효과적으로 향상시킨다.

3. Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

Alphaxiv

Introduction

  • 본 논문의 목표는 자연스러운 이미지 생성을 위한 Normalizing Flows(NFs)의 표현 학습과 생성 품질을 동시에 향상시키는 것이다.
  • 기존 NFs가 순방향 로그우도 최적화에 집중하여 의미론적 표현 학습이 부족하고, 이로 인해 생성 품질이 제한된다는 문제의식에서 출발하였다.
  • 본 연구는 NFs의 가역성을 활용하여 생성 경로(reverse pass)의 중간 특징을 강력한 비전 사전학습 모델의 표현과 정렬하는 역방향 표현 정렬(reverse representation alignment, R-REPA) 기법과 새로운 테스트-타임 최적화 분류 알고리즘을 제안하였다.

Method

  • 제안된 R-REPA는 NFs의 역방향 생성 경로에서 중간 특징과 사전학습된 시각 인코더의 표현을 정렬하여 의미론적 일관성을 강화한다.
  • 훈련 없이도 작동하는 테스트-타임 최적화 기반 분류법을 도입하여 NFs에 내재된 의미 표현을 정량적으로 평가한다.
  • 고해상도 이미지를 효과적으로 처리하기 위해 Variational Autoencoder(VAE) 잠재공간에서 TARFlow 아키텍처를 적용하였다.

Results

  • ImageNet 64×64 및 256×256에서 TARFlow 대비 FID 점수를 11.76에서 11.25, 13.05에서 12.79로 개선하고 분류 정확도는 각각 39.97%에서 57.02%, 40.22%에서 56.24%로 크게 향상시키며 훈련 속도 또한 3.3배 이상 가속하였다.

Limitations

  • 본 연구는 R-REPA 구현을 위한 고성능 하드웨어와 복잡한 계산 그래프 관리가 요구되어 교육 및 추론 환경에 제약이 존재한다.

Conclusion

  • 본 연구는 NFs의 가역구조를 활용한 역방향 표현 정렬이 생성 품질과 분류 성능을 동시에 크게 개선하며, 의미 표현과 생성 과정의 시너지를 통한 고효율 고화질 이미지 합성의 새로운 표준을 제시하였다.

4. AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

Alphaxiv

Introduction

  • Goal: 본 논문은 세밀한 이미지-텍스트 정렬 능력을 평가하기 위한 새로운 벤치마크 AlignBench를 제안하는 데 목적이 있다.
  • Motivation: 기존 벤치마크는 규칙 기반의 교란이나 짧은 캡션에 의존하여 미세한 정렬 능력을 측정하는 데 한계가 존재한다.
  • Contribution: 다양한 이미지-텍스트 생성 모델로부터 합성된 세밀한 이미지-캡션 쌍을 사용하여 정렬 정확도를 정성적으로 주석하고, 이를 통해 시각-언어 모델들의 정렬 성능을 체계적으로 평가하였다.

Method

AlignBench는 6종의 이미지→텍스트 모델과 2종의 텍스트→이미지 모델에서 생성한 이미지-캡션 쌍 약 9만여 개를 포함하며, 각 문장에 대해 정렬 여부를 세밀하게 주석하였다.
주석 과정은 다수 인원의 다중 평가 및 검토를 거쳐 고품질의 정렬 라벨(정확, 부정확, 알 수 없음)을 부여하였다.
이를 바탕으로 다양한 시각-언어 모델(VLM)에 대해 문장 단위 정렬 평가를 수행하여 모델의 Hallucination 탐지 및 정렬 능력을 분석하였다.

Results

GPT-5 및 Llama-4가 AlignBench에서 가장 우수한 성능을 보였으며, CLIP 기반 모델들은 세밀한 이미지-텍스트 정렬을 판단하는 데 매우 취약함이 밝혀졌다.

Limitations

자기 자신이 생성한 캡션에 대하여 모델이 과도하게 긍정적인 평가를 하는 자기 선호(self-preference) 현상으로 인해 검출 성능이 저하되는 한계가 존재한다.

Conclusion

AlignBench는 기존 벤치마크보다 더 복잡하고 다양한 문장 수준의 이미지-텍스트 정렬 능력을 평가할 수 있는 종합적인 지표로서, 향후 정렬 모델 개발에 중요한 평가 도구가 될 것이다.

5. UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 에지 환경에서 동작하는 다양한 대형 언어 모델을 위한 통합 양자화 및 저계수 압축 프레임워크 UniQL을 제안하는 것이다.
  • Motivation: 모바일 플랫폼의 제한된 메모리와 공유 연산 자원으로 인해 LLM의 현장 배포가 어려우며, 시스템 부하에 따라 가용 자원이 변동되어 모델 실행의 불확실성이 존재한다.
  • Contribution: UniQL은 Transformer, State Space Models, 하이브리드 모델을 대상으로 하는 양자화 및 구조화된 가지치기 기법을 일괄 처리하며, 클라우드에서 단일 과정으로 처리하되 에지에서 적응형 가지치기 설정을 지원하는 최초의 사후 학습 통합 프레임워크이다.

Method

UniQL은 대규모 MLP, Self-Attention, SSM 블록에 대해 피어노-역이 필요 없는 효율적 구조화 가중치 정렬과 양자화 인지 특이값 분해, 상태 인지 가중치 정렬 기법을 적용한다.
가중치 정렬 이후에는 마스킹된 LoRA 미세조정으로 다양한 가지치기율 모델을 한 번의 학습으로 준비하며, 이후 4비트 그룹 양자화를 통해 메모리 사용량을 대폭 축소한다.
디바이스의 현재 자원 부하에 기반한 적응형 가지치기가 가능하며, RoPE 임베딩 연산을 융합한 전용 커널을 통해 구조화 가지치기된 모델의 효율적 추론을 보장한다.

Results

UniQL은 15% 가지치기율에서 Transformer, SSM, 하이브리드 모델에 대해 원본 대비 최대 5% 이내 정확도 손실로 4~5.7배 메모리 절감과 2.7~3.4배 토큰 처리량 향상을 달성하였다.

Limitations

정보 부족.

Conclusion

UniQL은 다양한 LLM 아키텍처에 대해 수행 시간과 저장 공간을 크게 개선하면서 에지 환경에서 동적 자원 조건에 맞춘 원활한 배포와 실행을 가능하게 하는 통합 모델 압축 솔루션임이 입증되었다.

6. PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Alphaxiv

Introduction

  • Goal: 본 논문은 비디오 이해 및 생성 작업에서 효율적인 어텐션 메커니즘을 구현하기 위한 Pyramid Sparse Attention(PSA)를 제안하는 데 목적이 있다.
  • Motivation: 기존의 블록 단위 바이너리 마스크를 사용하는 희소 어텐션 기법은 높은 희소도에서 정보 손실이 심각해 성능 저하를 초래한다는 한계가 존재한다.
  • Contribution: PSA는 다중 레벨 풀링된 키-값(KV) 표현을 도입하여 바이너리 마스크를 대체하고, 중요도에 따라 다른 풀링 레벨을 동적으로 할당하여 계산 효율성을 유지하면서 정보 손실을 최소화하는 새로운 어텐션 구조를 제안하였다.

Method

PSA는 계층적 풀링을 통해 생성된 다중 레벨의 KV 블록 피라미드를 구성하고, 이를 기반으로 각 쿼리 블록에 대해 중요도에 따라 적절한 풀링 레벨을 선택하는 다중 레벨 마스크를 생성한다. 이를 통해 같은 계산 예산 내에서 기존 이진 마스크 방식보다 더 넓은 영역의 컨텍스트 정보를 활용할 수 있다. 또한, PSA는 서로 다른 레벨의 KV 블록 크기에 대응할 수 있도록 하드웨어 친화적이고 효율적인 디커플링된 블록-타일 커널 설계를 도입하여 GPU 효율성을 극대화하였다.

Results

PSA는 여러 대형 비디오 생성 및 이해 모델에서 기존 블록 희소 어텐션 기법 대비 동일 희소도 환경에서 더 높은 시각적 품질과 의미적 정확도를 달성하였으며, 학습 없는 설정 및 증류 통합 시에도 우수한 성능과 계산 효율성을 보였다.

Limitations

정보 부족

Conclusion

PSA는 다중 레벨 희소성 제어를 통해 블록 희소 어텐션의 한계를 극복하고, 다양한 비디오 태스크에 대한 뛰어난 효율성과 품질 균형을 입증한 범용 sparse attention 메커니즘이다.

7. Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

Alphaxiv

Introduction

  • Goal: 본 논문은 긴 영상 이해에서 쿼리 유형에 따른 최적의 프레임 선택 방식을 제안하는 것이다.
  • Motivation: 기존 쿼리 인식 기반의 복잡한 프레임 선택 방법이 모든 쿼리에 대해서 반드시 필요한 것은 아니라는 점을 규명하였다.
  • Contribution: 쿼리 유형(전역 및 지역 쿼리)을 구분하여 전역 쿼리에는 균등 샘플링을, 지역 쿼리에는 전문화된 프레임 선택 파이프라인을 적용하는 DIG 프레임워크를 제안하였다.

Method

DIG는 쿼리를 전역 또는 지역으로 분류하는 단계와, 전역 쿼리에는 균등 샘플링을 적용하고 지역 쿼리에는 콘텐츠 적응형 프레임 선택(CAFS), LMM 기반 보상 점수 할당, 보상 기반 비디오 정제를 거쳐 최종 샘플링하는 다단계 전략으로 구성된다.
CAFS는 DINO 특징 벡터 간 유사도를 이용해 의미적 대표 프레임을 추출하고, LMM이 쿼리 관련성을 평가하는 보상 점수로 대표 프레임을 정제한다.
정제된 대표 구간을 바탕으로 최종 입력 프레임을 균등 샘플링하여 긴 영상의 쿼리 대응 효율성과 성능을 극대화한다.

Results

벤치마크 MLVU, LongVideoBench, VideoMME에서 DIG는 입력 프레임 수 8부터 256까지 확장하는 조건에서 기존 균등 샘플링 및 최신 쿼리 인식 프레임 선택보다 일관되게 높은 정확도를 기록하였다.

Limitations

긴 영상 처리 시 지역 쿼리에 해당하는 복잡한 파이프라인이 포함되어 완전한 실시간 대응에는 계산 비용 부담이 존재한다.

Conclusion

쾌적한 계산 효율성과 높은 성능을 위한 쿼리 유형 기반 맞춤 프레임 선택은 긴 영상 이해에서 필수적이며, DIG는 이러한 필요를 효과적으로 충족하는 방안임을 실험적으로 입증하였다.

8. BlurDM: A Blur Diffusion Model for Image Deblurring

Alphaxiv

Introduction

  • 본 연구의 목적은 동적 장면에서 발생하는 모션 블러를 효과적으로 제거하기 위한 새로운 이미지 디블러링 모델인 Blur Diffusion Model(BlurDM)을 제안하는 것이다.
  • 기존 확산 모델들은 블러 형성 과정을 충분히 반영하지 못하여 성능에 한계가 있었으며, 모션 블러의 연속 노출이라는 본질적 특성을 모사하는 접근이 필요하다.
  • 본 논문에서는 블러 형성과정과 노이즈 확산을 결합한 이중 확산 과정과, 이를 반전하여 노이즈와 블러를 동시에 제거하는 이중 복원 과정을 포함하는 BlurDM을 제안한다.

Method

BlurDM은 선명한 이미지에 연속 노출에 따른 블러와 가우시안 노이즈를 단계적으로 추가하는 이중 확산 순방향 과정을 거친다. 역방향 과정에서는 입력된 블러 이미지 조건 하에 노이즈 및 블러 잔차를 각각 추정하여 이를 제거함으로써 선명도를 복원한다. 또한, BlurDM은 잠재 공간에서 동작하도록 설계되어 기존 디블러링 네트워크에 유연하고 효율적으로 통합된다.

Results

GoPro, HIDE, RealBlur-J, RealBlur-R의 네 가지 벤치마크 데이터셋에서 네 가지 주요 디블러링 모델의 성능을 BlurDM을 통해 일관되게 향상시키며 평균 PSNR 0.53 dB, SSIM 0.004 상승, LPIPS 0.0028 감소의 개선 효과를 보였다.

Limitations

BlurDM은 모션 블러 제거에 최적화되었으나, 광학적 수차에 의한 심도 의존적 디포커스 블러 처리에는 적합하지 않아 별도의 깊이 추정이나 광학 모델이 요구된다.

Conclusion

BlurDM은 모션 블러 형성 원리를 확산 모델에 내재화하여 노이즈와 블러를 동시에 처리함으로써 다양한 디블러링 네트워크의 품질을 효과적으로 향상시키는 혁신적인 확산 기반 이미지 디블러링 프레임워크이다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-12-15
  • Daily Papers — 2025-12-12
  • Daily Papers — 2025-12-11
  • Daily Papers — 2025-12-10
  • Daily Papers — 2025-12-09