Daily Papers — 2025-12-01
1. Vision Bridge Transformer at Scale
Introduction
- Goal: 본 연구는 Brownian Bridge 모델을 대규모로 확장하여 조건부 이미지 및 비디오 생성에 적용하는 Vision Bridge Transformer(ViBT)를 제안하는 데 목적이 있다.
- Motivation: 기존 확산 모델이 노이즈에서 데이터를 생성하는 반면, 다수 조건부 생성 과제에서 입력과 출력이 유사하여 기존 방식이 비효율적이고 학습 안정성 문제가 존재함으로 문제의식을 가졌다.
- Contribution: ViBT는 Transformer 아키텍처와 안정적인 분산-조정 속도 매칭 목표함수를 도입하여 최대 200억 파라미터 규모까지 확장하고, 이를 다양한 복잡한 비전 변환 작업에 성공적으로 적용하였다.
Method
ViBT는 사전 학습된 VAE 인코더를 활용하여 영상 및 이미지 데이터 쌍을 잠재공간으로 인코딩한 뒤, Brownian Bridge 정식에 기반한 확률 경로 모델링으로 직접 출발점과 목표점 간 변환 경로를 학습한다.
학습 시, 시간에 따른 속도(target velocity) 목표값의 수치적 불안정 및 손실 집중 문제를 해소하기 위해 정규화 인자 α를 도입한 안정화된 속도 매칭 손실을 제안하였다.
추론 단계에서는 Brownian Bridge의 분산 구조에 맞춰 분산 보정된 오일러-마루야마(variance-corrected Euler-Maruyama) 이산화를 수행하여 추론 품질을 개선하였다.
Results
ViBT는 instruction 기반 이미지 편집, 텍스트 지시 영상 스타일 변환, 깊이 정보 기반 비디오 합성 등 여러 조건부 생성 작업에서 기존 확산 모델 대비 동등하거나 우수한 성능을 보이며, 특히 효율성에서도 향상된 결과를 보였다.
Limitations
작업별 최적의 노이즈 스케일 조절이 성능에 크게 영향을 미치므로, 향후 자동 또는 적응적 노이즈 스케일 조정 방법 연구가 필요하다.
Conclusion
본 연구는 Brownian Bridge 모델을 Vision Bridge Transformer로 대규모화하고 안정화된 학습 목표를 도입하여, 복잡 다변화된 조건부 이미지 및 비디오 변환 분야에서 성능과 효율성을 모두 향상시킨 새로운 패러다임을 제시하였다.
2. DiP: Taming Diffusion Models in Pixel Space
Introduction
- Goal: 본 연구는 픽셀 공간에서 생성 품질과 계산 효율성 간의 근본적인 상충관계를 해소하는 확산모델 프레임워크 DiP를 제안하는 데 있다.
- Motivation: 기존의 잠재 공간 확산모델은 계산 효율성은 우수하나 정보 손실과 비엔드투엔드 학습 한계를 갖고, 픽셀 공간 모델은 고해상도 합성 시 계산량이 과도하게 증가하는 문제가 존재한다.
- Contribution: DiP는 대형 패치를 활용하는 글로벌 구조 구축과 경량화된 로컬 디테일 복원 모듈을 결합하여, VAE 없이 LDM 수준의 효율성과 뛰어난 이미지 생성 품질을 동시에 달성하였다.
Method
DiP는 대형 패치(예: 16×16)를 입력으로 하는 Diffusion Transformer(DiT) 백본을 통해 글로벌 이미지 구조를 효율적으로 학습하며, 이후 Patch Detailer Head라는 경량 컨볼루션 기반 모듈을 공동 학습하여 각 패치 내의 고주파 세부 정보를 복원한다. 이 구조는 글로벌 정보 모델링과 로컬 디테일 보완을 분리하여 계산 효율과 이미지 품질 향상을 동시에 추구한다. Patch Detailer Head는 포스트호크 정제 방식으로 DiT 최종 출력 뒤에 배치되며, 이를 통해 구현의 단순성 및 고성능을 달성한다.
Results
ImageNet 256×256 벤치마크에서 DiP는 VAE를 필요로 하지 않으면서도 1.79 FID 점수를 기록하여 기존 픽셀 기반 및 잠재 공간 확산모델 대비 우수한 품질과 10배 이상의 추론 속도 향상을 나타냈다.
Limitations
Patch Detailer Head의 설계 및 위치에 따른 최적화 가능성은 존재하나, 다중 위치 삽입 시 성능 저하 문제가 관찰되었다.
Conclusion
DiP는 픽셀 공간에서 글로벌과 로컬 모델링을 시너지 효과로 결합하여 고품질과 고효율을 동시에 달성하는 새로운 확산모델 프레임워크로서 향후 텍스트-이미지 및 텍스트-비디오 생성 분야로의 확장이 기대된다.
3. Adversarial Flow Models
Introduction
- Goal: 본 연구는 적대적 훈련과 흐름 기반 모델을 통합하는 적대적 흐름 모델(adversarial flow models)을 제안하는 것이다.
- Motivation: 기존 GAN은 불안정한 학습과 무작위적 이동계획 문제로 어려움을 겪으며, 흐름 매칭(flow matching) 모델은 다단계 학습에 따른 학습 효율 저하와 오류 누적 문제를 가진다.
- Contribution: 제안된 모델은 결정론적 이동(mapping) 학습으로 훈련 안정성을 향상시키고 중간 타임스텝 학습 없이도 단일 혹은 다단계 생성이 가능하며, 표준 트랜스포머 구조에서 효과적으로 학습된다.
Method
적대적 흐름 모델은 생성자에 최적 수송 손실(optimal transport loss)을 추가하여 결정론적 생성 경로를 학습하며, 적대적 손실과 결합하여 단일 및 다단계 샘플링이 가능하다.
생성자와 판별자는 각각 변형된 확산 트랜스포머 아키텍처를 사용하며, 그래디언트 정규화 기법으로 손실 균형을 맞춰 안정성을 높인다.
분류기 기반 유도(classifier guidance)는 확률 흐름상의 다중 타임스텝에 적용되어 조건부 생성 품질을 향상시킨다.
Results
ImageNet 256px에서 제안된 적대적 흐름 모델은 단일 단계 생성 조건부 설정에서 FID 2.38을 달성하여, 기존 일관성 기반 모델 및 GAN 대비 우수한 성능을 보였으며, 56층 및 112층의 깊은 단일 단계 모델 학습도 성공하였다.
Limitations
현재 적대적 훈련 과정의 높은 계산 비용과 판별자 메모리 요구량, 그리고 지침(classifier guidance) 방식의 제한점이 존재한다.
Conclusion
본 연구는 적대적 훈련과 흐름 모델을 통합하여 학습 안정성과 생성 품질을 동시에 향상시키는 새로운 생성 모델 프레임워크를 제시하였다.
4. Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
Introduction
- 본 연구의 목표는 텍스트-투-이미지 생성과 같은 복잡한 작업에서 분리된 확률 분포 매칭 증류(Distribution Matching Distillation, DMD) 기법의 핵심 메커니즘을 재정립하는 데 있다.
- 기존 DMD 방식에서 주요 성공 요인으로 여겨졌던 분포 매칭이 아니라, Classifier-Free Guidance(CFG) 증강이 실제로는 핵심 엔진 역할을 수행한다는 점에서 동기부여가 이루어졌다.
- 연구를 통해 DMD 손실 함수를 CFG 증강과 분포 매칭의 두 구성요소로 분해하고, 이로부터 학습 안정성을 위한 새로운 재노이징 스케줄 분리 기법을 제안하였다.
Method
- DMD의 경사식을 CFG 증강 항목과 분포 매칭 항목으로 엄밀히 분리하여 두 메커니즘의 역할을 구분하였다.
- CFG 증강이 복수 단계 모델을 소수 단계 생성기로 변환시키는 주된 동력임을 실험적으로 입증하였으며, 분포 매칭은 학습 안정화와 왜곡 발생 억제를 위한 정규화 역할임을 확인하였다.
- 두 구성요소에 개별적인 재노이징 스케줄을 적용하는 분리된 DMD(Decoupled DMD)를 도입하여 성능 향상을 도모하였다.
Results
- 제안된 분리 DMD 기법은 Lumina-Image-2.0 및 SDXL 벤치마크에서 기존 DMD 기법 대비 이미지 품질 및 평가 지표에서 일관된 우수성을 보였다.
Limitations
- CFG 증강이 소수 단계 변환에서 뛰어난 효과를 내는 근본적인 이유는 미해명 상태로, 이에 대한 엄밀한 이론적 설명은 향후 연구 과제로 남았다.
Conclusion
- 본 연구는 DMD 기법이 CFG 증강과 분포 매칭으로 기능적으로 분리되어 있으며, 이 분리가 효율적인 소수 단계 확산 모델 증류와 학습 안정화에 핵심임을 밝히고, 이를 활용한 새로운 재노이징 스케줄링 전략으로 성능 향상을 실증하였다.
5. RefineBench: Evaluating Refinement Capability of Language Models via Checklists
Introduction
- 본 연구의 목표는 언어 모델(Language Models, LMs)이 자신들의 답변을 스스로 개선하는 능력을 평가하는 것이다.
- 사용자와의 상호작용에서 다양한 정제 요청이 증가함에 따라 LMs의 정제 능력 분석이 중요해졌다.
- REFINEBENCH라는 11개 도메인, 1,000문제로 구성된 새로운 평가 벤치마크와 체크리스트 기반 평가 체계를 제안한다.
Method
REFINEBENCH는 두 가지 정제 모드인 자연어 피드백이 주어지는 가이드드 정제와 피드백 없이 스스로 개선하는 자가 정제를 평가한다.
문제에 대한 세부 항목으로 구성된 체크리스트를 이용하여 각 답변의 개선 정도를 다중 턴으로 평가한다.
본 평가에서 GPT-4.1을 평가자 모델로 사용하였고 최대 5턴까지 반복하여 정제 능력을 측정하였다.
Results
모든 LMs는 자가 정제 성능이 낮아 Gemini 2.5 Pro(31.3%)와 GPT-5(29.1%)도 큰 개선 없이 머무른 반면, 가이드드 정제에서는 대형 모델들이 5턴 내에 90% 이상의 높은 정제 정확도를 달성하였다.
Limitations
LM들은 자가 정제 시 오류 수정이 필요한 부분을 스스로 인지하지 못하는 한계가 뚜렷하며, 소형 모델들은 가이드드 정제에서도 충분한 개선을 보이지 못하였다.
Conclusion
REFINEBENCH를 통해 현존하는 최첨단 LMs가 어려운 문제에 대해 자가 정제 능력이 미흡함을 확인하였으며, 본 벤치마크는 미래 언어 모델의 정제 능력 향상에 중요한 평가 도구로 활용될 것으로 기대된다.
6. World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
Introduction
- Goal: 본 연구는 다문화 요소가 혼재된 시각 장면에서 대규모 비전-언어 모델(LVLM)의 문화 혼합 인식 능력을 체계적으로 평가하는 것이다.
- Motivation: 다문화가 섞이는 현실 세계에서 LVLM들이 여러 문화적 단서를 동시에 이해하고 구분하는 데 어려움을 겪는 점에 주목하였다.
- Contribution: 본 연구는 23,000장 규모의 합성 문화 혼합 이미지와 4개의 세부 과제로 구성된 CultureMix 벤치마크를 제안하고, 10개 LVLM 평가 및 강인성 개선 방법을 탐구하였다.
Method
연구진은 음식과 배경 요소를 결합한 4가지 유형(단일 음식, 복수 음식, 음식+배경, 복수 음식+배경)의 문답 형식 VQA 데이터셋을 구축하였다.
합성 이미지 생성에는 텍스트-투-이미지 확산 모델과 인간 검증 절차를 활용하였다.
문화적 방해 요소의 유형과 문화적 거리 수준에 따른 모델 반응 변화를 체계적으로 분석하였다.
Results
평가 결과, 모든 모델이 문화 혼합 상황에서 개별 문화 정체성 인식에 실패했고 정확도가 최대 14% 감소했으며, 특히 배경 요소가 음식보다 더 큰 영향을 미치는 것으로 나타났다.
Limitations
본 연구는 상대적으로 음식과 배경에 한정된 문화 요소를 다루었고, 저자원 지역 등 일부 문화권이 부족한 점이 존재한다.
Conclusion
CultureMix 벤치마크를 통해 LVLM들이 문화 혼합환경에서 여전히 제한적임을 밝히고, 미세조정 및 프롬프트 기반 강인성 개선 방향을 제안함으로써 다문화 맥락 인식 능력 향상의 기반을 마련하였다.
7. The Collapse of Patches
Introduction
- 본 연구의 목표는 이미지 내 패치들의 상호 의존성을 모델링하여 이미지 실현 과정에서 불확실성을 효과적으로 감소시키는 최적의 패치 순서, 즉 패치 붕괴 순서를 규명하는 것이다.
- 이미지의 일부 패치를 관찰함에 따라 나머지 패치들의 불확실성이 감소하는 현상에 주목하였으며, 이를 양자역학의 파동함수 붕괴에 비유하여 패치 붕괴라고 명명하였다.
- 본 연구는 패치 붕괴 문제를 형식화하고, 이를 학습하는 Collapse Masked Autoencoder(CoMAE)를 제안함과 동시에, 이를 기반으로 한 붕괴 순서가 마스킹 이미지 모델링에 유의미한 성능 향상을 가져온다는 점을 보였다.
Method
이미지를 패치 단위로 나누어 각각의 특성 분포가 다른 패치의 관찰에 의해 어떻게 영향을 받는지 CoMAE를 통해 학습하며, 이 과정에서 각 패치가 붕괴에 미치는 기여도를 연속적인 선택 가중치로 모델링하였다.
CoMAE의 선택 가중치들을 이용해 패치 간 의존성 그래프를 구성하고 PageRank 알고리즘을 적용하여 최적의 패치 붕괴 순서를 산출하였다.
이 붕괴 순서를 기존의 확률적 순서 기반 자회귀(autoregressive) 이미지 생성 모델과 Vision Transformer 기반 이미지 분류에 적용하여 성능을 개선하였다.
Results
본 연구에서 제안한 붕괴 순서를 활용한 확률적 자회귀 이미지 생성 모델(CMAR)은 기존 MAR 모델 대비 Fréchet Inception Distance(tFID) 기준 약 4% 향상된 성능을 보였으며, 붕괴 순서 기반 Vision Transformer(CViT)는 전체 이미지의 약 22% 패치만으로도 높은 분류 정확도를 유지하였다.
Limitations
본 연구는 동일 크기의 고정된 형태 패치 단위로 이미지 구조를 모델링함에 따라 객체의 의미적 중요도나 다양성을 반영하는 데 한계가 존재한다.
Conclusion
패치 붕괴 개념은 이미지 내 시각 정보 구조를 새롭게 이해하는 관점을 제공하며, 이를 활용한 붕괴 순서 기반 모델링은 자회귀 생성 및 분류 작업에서 효과적인 성능 향상을 가능케 한다.
8. Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
Introduction
- Goal: 본 연구의 목표는 실기기에서의 지연 시간을 최적화하는 하이브리드 소형 언어 모델(Small Language Models, SLM)을 설계하고 훈련 방법론을 제안하는 것이다.
- Motivation: 기존 SLM 연구는 주로 파라미터 효율성에 집중했으나, 이는 실제 장치에서의 지연 시간 단축으로 직접 연결되지 않아 효율적인 배포에 한계가 있었다.
- Contribution: 본 연구에서는 깊이-폭 비율과 연산자 선택이 지연 시간에 미치는 영향을 체계적으로 분석하고, 자동진화 탐색을 통해 하이브리드 연산자 조합을 찾아내며, 가중치 정규화와 메타 토큰 등을 도입한 Nemotron-Flash라는 새로운 SLM 패밀리를 제안하였다.
Method
모델 깊이와 폭의 비율을 변형하여 정확도와 지연 시간의 관계를 분석하고, 최적 비율을 결정하기 위한 확장된 스케일링 법칙을 도입하였다.
여러 효율적 주의(attention) 연산자들을 비교 평가하고, 이들의 조합을 탐색하는 자동 진화 알고리즘을 설계하여 하이브리드 SLM 아키텍처를 개발하였다.
훈련 안정성 향상을 위해 가중치 정규화를 적용하고, 학습 초기에 역할을 하는 메타 토큰을 도입하여 성능을 추가로 개선하였다.
Results
Nemotron-Flash-1B 모델은 Qwen3-0.6B 대비 5.5% 높은 정확도와 1.9배 낮은 지연 시간을 달성하며, Nemotron-Flash-3B 모델은 Qwen2.5-3B 대비 2.0%~5.5% 정확도 향상과 1.3~1.7배 지연 시간 감소, 최대 45.6배의 처리량 향상을 보였다.
Limitations
본 연구에서 제안한 방법은 복잡한 하이브리드 연산자 조합 탐색에 상당한 사전 학습 비용과 자원이 소요된다는 한계가 존재한다.
Conclusion
Nemotron-Flash는 아키텍처 설계와 훈련 기법의 통합적 발전을 통해 실기기 지연 시간 최적화와 정확도 향상을 동시에 이룬 새로운 하이브리드 소형 언어 모델로서 유용함이 입증되었다.
9. Test-time scaling of diffusions with flow maps
Introduction
- Goal: 본 논문은 흐름 맵(flow map)을 활용하여 확산 모델(diffusion models)의 테스트 시 표본 생성 과정에서 사용자 지정 보상 함수에 맞춘 효과적인 경로 적응 기법을 제안하는 데 목적이 있다.
- Motivation: 기존 확산 모델의 테스트 시 보상 함수의 기울기를 직접 동역학에 도입하는 방식은 보상 함수가 최종 데이터 분포에만 정의되어 있어 불안정하며, 이를 해결하기 위한 기존의 디노이저(denoiser) 기반 근사법도 초기 단계에서 신호가 약하다는 문제가 존재한다.
- Contribution: 본 연구에서는 흐름 맵을 이용한 Flow Map Trajectory Tilting(FMTT) 알고리즘을 도입하여 보상 함수의 정확한 예측과 효율적 탐색을 가능하게 하며, 기존 방법 대비 이론적 근거를 갖춘 향상된 샘플링 및 탐색 성능을 입증하였다.
Method
확산 모델의 시간-의존적 생성 경로를 흐름 맵을 통해 예측하고, 보상이 반영된 보상 함수 기울기를 동역학에 도입하여 보상을 정확하게 반영한다. 중요도 가중치(importance weights)와 Jarzynski 부등식 기반의 수식 단순화를 통해 편향 없는 표본 추출 및 탐색 알고리즘을 설계하였다. 추가적으로, 시간 가중치를 활용해 생성 단계 전반에서 보상 상승 효과를 극대화하였다.
Results
MNIST와 텍스트-투-이미지 생성 등 다양한 실험에서 FMTT가 기존의 디노이저 기반이나 무탐색(best-of-N) 방법 대비 낮은 총 불일치도 및 열역학적 길이(thermodynamic length)를 보여주었으며, 자연어 기반 보상 함수를 사용하는 비전-언어 모델과의 결합에서도 현저한 성능 향상을 나타냈다.
Limitations
본 방법은 보상 함수 극대화를 목표로 하는 탐색 알고리즘으로 인해 보상 해킹의 가능성이 존재하며, 이에 대한 보상 설계의 신중한 검토가 필요하다.
Conclusion
흐름 맵을 활용한 FMTT는 복잡한 보상 함수를 정밀하게 반영하며 확산 모델의 테스트 시 표본 생성과 검색을 효과적으로 개선하는 검증된 방법임을 제시하였다.
10. Layer-Aware Video Composition via Split-then-Merge
Introduction
- Goal: 본 논문은 동적 전경과 배경 비디오를 합성하여 현실적인 비디오 생성을 가능하게 하는 제너레이티브 영상 합성 프레임워크인 Split-then-Merge(StM)를 제안하였다.
- Motivation: 기존의 영상 합성법들은 주로 주석된 데이터 또는 수작업 규칙에 의존하였으며, 정적인 이미지 기반 접근법은 동적인 영상 합성에서 운동 정보 손실과 부자연스러운 합성을 야기하였다.
- Contribution: StM은 무라벨 비디오를 층별로 분리하고 이를 자기 구성(self-composition)함으로써 데이터 부족 문제를 극복하며, 변환 인지 훈련과 정체성 보존 손실(identity-preservation loss)을 도입하여 풍부한 운동과 장면 적합성을 학습하였다.
Method
StM은 비디오 분해기(Decomposer)를 사용해 전경과 배경 층으로 분할한 뒤, 이들을 재합성하는 생성 모델(Composer)을 훈련한다. 훈련 과정에서는 전경 영상에 변형을 가하는 변환 인지 증강법을 적용해 합성의 난이도를 높이고, 전경 아이덴티티 유지를 위한 손실 함수를 도입하여 전경 동작과 외형의 충실도를 확보한다. 복합적인 시각 및 텍스트 조건을 채널 단위로 융합하여 시공간적으로 정렬된 정보를 활용하는 구조를 갖는다.
Results
StM은 다양한 정량적 평가와 인간 및 Vision-Language Large Model 기반 정성평가에서 기존 최첨단 기법 대비 전경과 배경의 아이덴티티 및 동작 일관성, 장면 적합성에서 우수한 성능을 보였다.
Limitations
본 연구는 시각적 원본 충실도와 텍스트 조건 부합성 간의 트레이드오프 문제를 완전히 해결하지 못하였다.
Conclusion
StM은 무라벨 비디오 데이터를 활용해 확장 가능하며 현실적이고 의미론적 이해가 반영된 영상 합성을 구현할 수 있는 통합 프레임워크로서 기존 방법들의 한계를 극복하였다.
11. Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration
Introduction
- 본 연구의 목표는 3D 확산 모델의 추론 속도를 향상시키면서도 기하학적 정확성을 유지하는 훈련 불필요한 기하학 인지 캐싱 프레임워크 Fast3Dcache를 제안하는 것이다.
- 기존 2D 및 영상 생성에서 성공적으로 활용된 캐싱 기법을 3D 확산 모델에 직접 적용하면 기하학적 불일치와 구조적 결함이 발생한다는 문제점을 극복하고자 한다.
- 본 연구는 체계적인 위치 안정성 예측 및 동적 캐시 할당을 통한 기하학 인지 캐싱 전략을 도입하여 3D 모델링의 효율성과 품질을 동시에 개선한 점에 기여한다.
Method
Fast3Dcache는 예측 캐싱 스케줄러 제약(PCSC)을 통해 체적(voxel)의 안정화 패턴을 분석하여 동적 캐시 예산을 할당한다. 스페이시오템포럴 안정성 기준(SSC)은 속도와 가속도의 결합 평가를 통하여 안정적인 특징 토큰을 선택해 재사용한다. 이 두 모듈을 초기 전수 샘플링, 중간 동적 캐싱, 최종 정제 세 단계에 통합하여 효율적인 3D 구조 합성을 구현한다.
Results
TRELLIS 및 DSO 3D 프레임워크에서 Fast3Dcache는 최대 27.12%의 추론 속도 향상과 54.8%의 FLOPs 절감 효과를 달성하였으며, 챔퍼 거리 2.48%, F-스코어 1.95%의 미미한 품질 저하만을 보였다.
Limitations
캐싱 도중 누적되는 근사 오차를 최소화하기 위해 주기적인 전체 샘플링 갱신이 필수적이며, 이로 인해 완전한 계산 축소에 한계가 존재한다.
Conclusion
Fast3Dcache는 3D 확산 기반 생성에서 고유한 기하학 안정화 패턴을 효과적으로 활용하여 학습 없이도 신속하고 정밀한 3D 구조 합성을 가능하게 하는 실용적인 가속화 솔루션이다.
12. Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models
Introduction
- Goal: 본 연구는 비디오 수준의 약한 지도학습만을 활용하여 감시 영상에서 드문 비정상 이벤트를 자동으로 인식하는 것을 목표로 한다.
- Motivation: 정밀한 시점 주석 확보가 비용 및 모호성 문제로 어렵기에, 실세계 적용에 적합한 비디오 수준 라벨 기반 약한 지도학습 방식이 필요하다.
- Contribution: 본 논문에서는 I3D와 TimeSformer 두 가지 보완적 인코더를 결합한 이중 백본 다중 인스턴스 학습(MIL) 네트워크를 제안한다.
Method
입력 영상을 32개의 시간적 세그먼트로 균등 분할하고 각 세그먼트에서 16개 프레임을 샘플링하여 I3D(3D CNN) 및 TimeSformer(트랜스포머) 인코더로 특징 벡터를 추출한다. 두 특징을 정규화 및 연결하여 경량 완전연결층으로 이상 점수를 산출하며, 상위 k개 점수의 평균으로 영상 전체의 이상 확률을 결정한다. 모든 부품은 이진 교차 엔트로피 손실을 통해 공동 최적화된다.
Results
제안 모델은 UCF-Crime 벤치마크에서 최고 AUC 90.7% 성능을 기록하여 기존 최신 기법들을 능가하였다.
Limitations
제안 방식은 계산 자원 제한으로 인해 단순한 균등 프레임 샘플링에 의존하여 장시간 연속 영상의 복잡한 시간적 변화를 완벽히 반영하지 못한다.
Conclusion
본 연구는 I3D와 TimeSformer의 융합과 top-k 풀링을 활용한 약한 지도 MIL 기반 영상 이상 탐지 프레임워크를 제안하여 우수한 성능을 입증하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: