Daily Papers — 2025-12-11
1. Composing Concepts from Images and Videos via Concept-prompt Binding
Introduction
- Goal: 본 논문의 목표는 이미지와 비디오로부터 복잡한 시각 개념을 정확히 추출하고 유연하게 조합하는 시각적 개념 합성 기법을 제안하는 것이다.
- Motivation: 기존 연구들은 복잡한 개념 추출과 이미지 및 비디오 간 다양한 속성의 융합에 한계가 있어, 보다 정밀하고 범용적인 개념 합성 방법에 대한 필요성이 대두되었다.
- Contribution: 이를 위해 본 연구에서는 개념-프롬프트 바인딩을 활용한 원샷 학습 기반의 BiCo 기법을 제안하며, 계층적 바인더 구조, 다양화 및 흡수 메커니즘, 그리고 시공간 분리 전략을 도입하였다.
Method
BiCo는 DiT 기반 텍스트-비디오 확산 모델의 크로스-어텐션 계층에 계층적 바인더를 부착하여 시각적 개념을 대응하는 텍스트 토큰에 인코딩한다. 다양화 및 흡수 메커니즘을 통해 개념과 텍스트 토큰 간의 결합 정확도를 향상시키며, 시공간 분리 전략으로 이미지와 비디오 개념 간 호환성을 강화하였다. 최종적으로 여러 소스에서 바인딩된 토큰을 결합해 목표 프롬프트를 구성함으로써 유연한 시각적 개념 합성을 구현한다.
Results
BiCo는 기존 방법들에 비해 개념 일관성, 프롬프트 충실도, 운동 품질 측면에서 우수한 성능을 보이며, 특히 종합적 인간 평가에서 54.67% 높은 전반적 품질 점수를 달성하였다.
Limitations
BiCo는 개념 합성 시 모든 토큰을 동일하게 취급하여 중요한 토큰과 기능어 간의 중요도 차이를 반영하지 못하는 한계가 존재한다.
Conclusion
본 연구는 복잡한 이미지와 비디오 시각 개념을 정확히 분해하고 유연하게 합성하는 BiCo 기법을 제안하여, 시각 콘텐츠 창작에서 새로운 가능성을 제공하는 도구로 기여하였다.
2. WonderZoom: Multi-Scale 3D World Generation
Introduction
- 본 연구는 단일 이미지로부터 다중 공간 규모의 3D 세계를 생성하는 WonderZoom 기법을 제안하는 데 목적이 있다.
- 기존 3D 세계 생성 모델은 단일 규모 생성에 한정되어, 다양한 공간 해상도에서 일관된 장면 내용을 생성하지 못하는 한계가 있다.
- 본 연구는 동적으로 세부를 추가 가능한 스케일 적응형 가우시안 서펠과 점진적 세부 합성기를 도입하여 다중 규모 3D 세계 생성 문제를 해결한다.
Method
- WonderZoom은 스케일 적응형 가우시안 서펠을 통해 재최적화 없이 점진적으로 세부를 확장하며 각 규모에 맞는 실시간 렌더링을 지원한다.
- 점진적 세부 합성기는 거친 구조와 사용자 지정 프롬프트를 조건으로 새로운 미세 3D 구조를 반복 생성하여 의미 있는 세부를 합성한다.
- 보조 뷰 생성을 포함한 다단계 파이프라인으로 지오메트리 일관성 유지와 완전한 3D 장면 생성을 가능하게 한다.
Results
- 실험 결과, WonderZoom은 최첨단 영상 및 3D 생성 기법 대비 광학적 품질과 프롬프트 정합도에서 우수한 성능을 보이며, 사용자 선택에서도 높은 선호도를 얻었다.
Limitations
- 순수 텍스처 영역에서 극단적인 줌인 시 의미 있는 세부 생성에 어려움이 있어, 이러한 경우에 대한 표현이 제한된다.
Conclusion
- WonderZoom은 단일 이미지 입력만으로 다중 규모에서 일관된 3D 세계를 대화형으로 생성할 수 있게 하여 다중 규모 콘텐츠 제작 및 가상 세계 탐험에 새로운 가능성을 제시한다.
3. TED-4DGS: Temporally Activated and Embedding-based Deformation for 4DGS Compression
Introduction
- Goal: 본 논문은 동적 3D Gaussian Splatting(4DGS)의 압축을 위해 시계열 활성화 및 임베딩 기반 변형 기법인 TED-4DGS를 제안하는 것을 목표로 한다.
- Motivation: 기존 방법들은 시간적 제어가 명확하지 않거나 단명하는 가우시안 원소를 과도하게 사용하여 비효율적인 압축 문제를 갖고 있어 개선이 필요하였다.
- Contribution: 시계열 활성화 파라미터와 임베딩 기반 변형 네트워크, 수치 신경 표현 기반 하이퍼프라이어 및 채널별 자기회귀 모델을 통합한 압축 프레임워크를 개발하였다.
Method
TED-4DGS는 Anchor 기반 3DGS 표현을 확장하여 각 앵커에 시간적 활성화 파라미터를 부여하고, 임베딩된 시간 특징으로 전역 변형 은행을 참조하여 앵커별 변형을 모델링한다. 또한, 수치 신경 표현(INR) 기반 하이퍼프라이어를 통해 앵커 속성의 확률 분포를 학습하며, 채널별 자기회귀 모델로 인접 속성 간 상관관계를 효율적으로 압축한다. 별도의 색상 보정 모듈로 다중 카메라간 색상 불일치를 완화하여 안정적인 학습과 렌더링을 지원한다.
Results
Neu3D 및 HyperNeRF 데이터셋에서 TED-4DGS는 기존 최첨단 방법 대비 최대 28% 파일 크기를 감소시키면서 동등 이상의 화질(PSNR, SSIM)과 렌더링 속도를 달성하였다.
Limitations
정보 부족.
Conclusion
본 연구는 시계열 활성화와 임베딩 기반 변형을 활용한 동적 3DGS 압축 체계를 제안하여 실세계 동적 장면에서 우수한 압축 효율과 품질을 입증하였다.
4. Pay Less Attention to Function Words for Free Robustness of Vision-Language Models
Introduction
- Goal: 본 논문은 기능어의 부정적 영향을 줄여 비전-언어 모델(VLM)의 적대적 공격에 대한 강인성을 향상시키는 방법을 제안하는 데 목적이 있다.
- Motivation: 기능어가 VLM의 교차 모달 적대적 공격에 취약성을 유발한다는 관찰에서 출발하였다.
- Contribution: 기능어 주의 억제(Function-word De-Attention, FDA)라는 새로운 메커니즘을 제안하여 기능어와 이미지 간의 교차 주의(attention)를 차감함으로써 모델의 정렬성과 강인성을 동시에 개선하였다.
Method
본 연구의 FDA는 기존 주의 계산 과정에 병렬 파이프라인을 추가해 기능어와 이미지 간의 교차 주의를 별도로 계산하고, 이를 원래 주의 행렬에서 차감하는 방식으로 동작한다. 이 과정에서 softmax 연산을 통해 가장 오도하는 시각 및 텍스트 토큰을 강조하고, 제어 게이트로 차감량을 조절한다. FDA는 다양한 층과 주의 헤드에 유연하게 적용 가능하며, 주로 초기 층에서 적용하여 컨텍스트 왜곡을 방지한다.
Results
FDA는 3개 모델, 2개 작업(텍스트-이미지 검색, 시각적 그라운딩), 3개 데이터셋 및 6개 적대적 공격 환경에서 실험한 결과, 기존 최첨단 방어 기법 대비 평균 13~53%의 공격 성공률 감소를 달성하면서 성능 저하를 0.2~0.6% 수준으로 최소화하였다.
Limitations
FDA는 fusion 인코더 기반의 백본에만 적용 가능하며, CLIP과 같은 구조에 직접 적용하지 못하는 한계가 존재한다.
Conclusion
기능어에 대한 주의를 차감함으로써 VLM의 시각-언어 정렬을 정제하고 강인성을 무성능 저하로 동시에 향상시키는 FDA를 제안하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: