Daily Papers — 2025-12-25
1. Streaming Video Instruction Tuning
Introduction
- Goal: 본 논문은 스트리밍 동영상에서 실시간으로 다양한 과제를 수행할 수 있는 범용 인터랙티브 비디오 언어 모델(Streamo)을 제안하는 데 목적이 있다.
- Motivation: 기존 비디오 언어 모델들은 사전 녹화된 영상 처리에 집중하여 실시간 스트리밍 상황에서 요구되는 지속적이고 지연 없는 반응 기능을 효과적으로 지원하지 못한다는 한계가 있다.
- Contribution: 스트리밍 비디오 이해를 위한 대규모 다중과제 지시 추종 데이터셋(Streamo-Instruct-465K)과 프레임 단위 응답 상태 예측을 모델에 통합하는 엔드투엔드 학습 프레임워크를 개발하였다.
Method
Streamo는
Results
Streamo-7B 모델은 스트리밍 비디오 벤치마크 OVO-Bench에서 기존 최고 성능 모델 대비 약 13.83% 포인트 상향된 성능을 기록하였으며, 제공하는 데이터셋과 학습법은 다중 과제 및 실시간 반응 능력을 효과적으로 향상시켰다.
Limitations
현재 방법은 스트리밍 동영상의 무한한 시간적 문맥 처리에 최적화된 메모리 및 지연 최적화가 부족하여 긴 시퀀스 처리 시 계산 비용과 지연이 증가하는 문제가 존재한다.
Conclusion
Streamo와 Streamo-Instruct-465K 데이터셋, 그리고 Streamo-Bench 벤치마크를 통해 오프라인 비디오 모델을 실시간 스트리밍 비디오 AI 어시스턴트로 전환하는 효과적인 통합 솔루션을 제시하였다.
2. PhononBench:A Large-Scale Phonon-Based Benchmark for Dynamical Stability in Crystal Generation
Introduction
- Goal: 본 논문은 AI가 생성한 결정 구조의 동적 안정성을 대규모로 평가하기 위한 PhononBench 벤치마크를 제안하는 것이다.
- Motivation: 기존 결정 생성 모델들의 안정성 평가는 주로 열역학적 기준에 의존하며, 실제 합성과 존재 가능성에 필수적인 동적 안정성을 충분히 반영하지 못한다.
- Contribution: 약 11만 개의 생성된 결정 구조에 대해 높은 정확도의 머신러닝 원자간 퍼텐셜인 MatterSim을 활용한 포논 스펙트럼 계산을 수행하여 동적 안정성 평가를 체계적으로 제공하였다.
Method
본 연구에서는 6개의 주요 결정 생성 모델이 생성한 결정 구조를 수집하고 중복 제거 및 구조 이완 후 MatterSim 기반 고속 포논 계산 및 동적 안정성 판정을 수행하였다. MatterSim 모델은 DFT 수준의 정확도를 보이며 대규모 고속 계산에 적합하므로, 이를 이용해 약 10만여 개 결정에 대한 완전한 포논 스펙트럼 분석을 실시하였다. 이 평가에서 동적 안정성은 허수 모드의 유무로 판정되었으며, 생성 모델 간 성능을 공정하게 비교하기 위해 동적 안정 구조 비율을 통일된 지표로 활용하였다.
Results
전체 생성된 결정 구조 중 평균 25.83%만이 동적 안정성을 가지며, 최고 성능의 MatterGen 모델도 41.0% 안정성 비율을 기록하는 것에 그쳐 현재 결정 생성 모델의 동적 안정성 보장 능력이 크게 제한적임을 확인하였다.
Limitations
기존 모델들은 동적 안정성 검증이 부족하며, 특히 밴드갭 조건 생성이나 공간군 제어 생성에서도 동적 안정성 비율이 낮아 실험적 합성을 위한 신뢰도 확보에 한계가 존재한다.
Conclusion
PhononBench은 AI 결정 생성 모델들의 동적 안정성 한계를 체계적으로 규명하고, 물리적으로 실현 가능한 신소재 설계 연구를 위한 필수 평가 기준과 발전 방향을 제시하는 최초의 대규모 벤치마크이다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: