Daily Papers — 2025-12-25

1. Streaming Video Instruction Tuning

Alphaxiv

Introduction

  • Goal: 본 논문은 스트리밍 동영상에서 실시간으로 다양한 과제를 수행할 수 있는 범용 인터랙티브 비디오 언어 모델(Streamo)을 제안하는 데 목적이 있다.
  • Motivation: 기존 비디오 언어 모델들은 사전 녹화된 영상 처리에 집중하여 실시간 스트리밍 상황에서 요구되는 지속적이고 지연 없는 반응 기능을 효과적으로 지원하지 못한다는 한계가 있다.
  • Contribution: 스트리밍 비디오 이해를 위한 대규모 다중과제 지시 추종 데이터셋(Streamo-Instruct-465K)과 프레임 단위 응답 상태 예측을 모델에 통합하는 엔드투엔드 학습 프레임워크를 개발하였다.

Method

Streamo는 , , 의 세 가지 응답 상태 토큰을 도입하여 연속적 비디오 입력을 실시간으로 모니터링하며 즉각적인 텍스트 출력을 생성한다. 학습 과정에서는 시간적 경계가 명확한 다중 과제 주석을 활용하여 다양한 과제에 대해 통합 학습을 수행하며, 클래스 불균형 문제를 완화하기 위해 포컬 손실과 빈도 기반 가중치를 적용한다. 흐름은 비디오를 1초 단위로 분할하여 다중 턴 대화 형식으로 변환하고, 각 턴별로 상태 토큰과 답변을 예측하여 스트리밍 상황을 시뮬레이션한다.

Results

Streamo-7B 모델은 스트리밍 비디오 벤치마크 OVO-Bench에서 기존 최고 성능 모델 대비 약 13.83% 포인트 상향된 성능을 기록하였으며, 제공하는 데이터셋과 학습법은 다중 과제 및 실시간 반응 능력을 효과적으로 향상시켰다.

Limitations

현재 방법은 스트리밍 동영상의 무한한 시간적 문맥 처리에 최적화된 메모리 및 지연 최적화가 부족하여 긴 시퀀스 처리 시 계산 비용과 지연이 증가하는 문제가 존재한다.

Conclusion

Streamo와 Streamo-Instruct-465K 데이터셋, 그리고 Streamo-Bench 벤치마크를 통해 오프라인 비디오 모델을 실시간 스트리밍 비디오 AI 어시스턴트로 전환하는 효과적인 통합 솔루션을 제시하였다.

2. PhononBench:A Large-Scale Phonon-Based Benchmark for Dynamical Stability in Crystal Generation

Alphaxiv

Introduction

  • Goal: 본 논문은 AI가 생성한 결정 구조의 동적 안정성을 대규모로 평가하기 위한 PhononBench 벤치마크를 제안하는 것이다.
  • Motivation: 기존 결정 생성 모델들의 안정성 평가는 주로 열역학적 기준에 의존하며, 실제 합성과 존재 가능성에 필수적인 동적 안정성을 충분히 반영하지 못한다.
  • Contribution: 약 11만 개의 생성된 결정 구조에 대해 높은 정확도의 머신러닝 원자간 퍼텐셜인 MatterSim을 활용한 포논 스펙트럼 계산을 수행하여 동적 안정성 평가를 체계적으로 제공하였다.

Method

본 연구에서는 6개의 주요 결정 생성 모델이 생성한 결정 구조를 수집하고 중복 제거 및 구조 이완 후 MatterSim 기반 고속 포논 계산 및 동적 안정성 판정을 수행하였다. MatterSim 모델은 DFT 수준의 정확도를 보이며 대규모 고속 계산에 적합하므로, 이를 이용해 약 10만여 개 결정에 대한 완전한 포논 스펙트럼 분석을 실시하였다. 이 평가에서 동적 안정성은 허수 모드의 유무로 판정되었으며, 생성 모델 간 성능을 공정하게 비교하기 위해 동적 안정 구조 비율을 통일된 지표로 활용하였다.

Results

전체 생성된 결정 구조 중 평균 25.83%만이 동적 안정성을 가지며, 최고 성능의 MatterGen 모델도 41.0% 안정성 비율을 기록하는 것에 그쳐 현재 결정 생성 모델의 동적 안정성 보장 능력이 크게 제한적임을 확인하였다.

Limitations

기존 모델들은 동적 안정성 검증이 부족하며, 특히 밴드갭 조건 생성이나 공간군 제어 생성에서도 동적 안정성 비율이 낮아 실험적 합성을 위한 신뢰도 확보에 한계가 존재한다.

Conclusion

PhononBench은 AI 결정 생성 모델들의 동적 안정성 한계를 체계적으로 규명하고, 물리적으로 실현 가능한 신소재 설계 연구를 위한 필수 평가 기준과 발전 방향을 제시하는 최초의 대규모 벤치마크이다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-12-26
  • Daily Papers — 2025-12-24
  • Daily Papers — 2025-12-23
  • Daily Papers — 2025-12-22
  • Daily Papers — 2025-12-19