Daily Papers — 2025-11-14
1. One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models
Introduction
- Goal: 본 연구는 사전 학습된 생성기와 고정된 VAE 디코더 사이에 삽입 가능한 단일 패스 Latent Upscaler Adapter(LUA)를 제안하여 고해상도 영상 생성을 효율적으로 수행하는 것이다.
- Motivation: 기존 확산 모델은 훈련 해상도를 초과하는 고해상도 샘플링 시 연산 비용과 지연이 크며, 디코딩 후 적용되는 픽셀 공간 초해상도(SR)는 아티팩트 발생과 부가적인 시간 소모를 초래한다.
- Contribution: LUA는 추가 확산 과정 없이 잠재 공간에서 직접 업스케일링을 수행하며, 다중 배율(x2, x4)을 단일 백본과 스케일별 픽셀 셔플 헤드로 지원하고, 다양한 VAE 잠재 공간에 대해 재학습 없이 높은 일반화 성능을 보인다.
Method
LUA는 텍스트 조건과 노이즈를 입력받아 생성된 잠재 벡터를 입력받아 다중 배율로 확장하는 경량의 피드포워드 모듈이다.
잠재 공간 내 고주파 세부 정보를 유지하도록 다단계 잠재 및 픽셀 도메인 손실 함수 기반 커리큘럼으로 학습하며, SwinIR 스타일의 트랜스포머 백본과 픽셀 셔플 업스케일링 헤드를 활용한다.
또한 서로 다른 VAE 채널 수에 대응하되 백본과 헤드는 공유하여 효율적인 범용 모델을 구현한다.
Results
OpenImages 데이터셋에서 2048² 및 4096² 해상도에서, LUA는 SDXL, SD3, FLUX 모델을 대상으로 단일 디코딩 방식으로 최고 수준의 품질(FID 각각 180.80, 176.90)과 가장 낮은 지연 시간(각각 3.52초, 6.87초)을 기록하며 기존 다단계 재확산 및 픽셀 공간 SR보다 뛰어난 정확도-속도 균형을 달성했다.
Limitations
LUA는 생성기의 잠재 공간에 존재하는 원본 오류를 확대 재생성하기 때문에 기저 생성 결과에 포함된 아티팩트가 고해상도에서도 지속되는 한계가 존재한다.
Conclusion
본 연구는 추가 확산 단계 없이 잠재 공간 업스케일링을 통해 고해상도 이미지 합성을 실용적으로 구현하는 LUA를 제안하였으며, 이는 다양한 모델과 해상도에서 높은 품질과 효율성을 동시에 제공함을 실험적으로 입증하였다.
2. PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
Introduction
- Goal: 본 연구의 목표는 일반적이고 상호작용 가능하며 장기간의 세계 시뮬레이션을 수행할 수 있는 범용 세계 모델 PAN을 제안하는 것이다.
- Motivation: 기존 비디오 생성 모델은 인과적 제어나 상호작용성, 장기간 일관성 측면에서 한계가 있으며, 기존 세계 모델 역시 제한된 영역에서만 작동하여 범용성과 심도 있는 제어가 부족하였다.
- Contribution: 본 연구는 대규모 비디오-액션 쌍 데이터로 학습된 생성 잠재 예측(GLP) 아키텍처를 활용하여, 자연어로 지정된 행동에 조건화된 고품질 비디오 시뮬레이션을 통한 장기간의 일관된 세계 상태 예측을 수행하는 PAN 모델을 제안하였다.
Method
PAN은 비디오 관찰을 잠재 표현으로 인코딩하는 비전 인코더, 대규모 언어 모델(LLM)을 기반으로 하는 자기회귀 잠재 동역학 예측기, 그리고 인코딩된 잠재 상태를 세밀하고 시간적으로 일관된 비디오로 복원하는 영상 확산 디코더로 구성된다.
GLP 프레임워크는 잠재 공간의 인과적 동역학 예측과 이를 관찰 가능한 시각 신호로 재구성하는 생성적 감독을 결합하여 잠재 추론과 현실적 세계 역학을 통합한다.
영상 확산 디코더에는 장기간 시뮬레이션에서 지역적 불연속과 품질 저하 문제를 완화하기 위해 Causal Shift-Window Denoising Process Model(Causal Swin-DPM)이 도입되었다.
Results
PAN은 다양한 평가에서 기존 비디오 생성 및 세계 모델 대비 행동 조건 시뮬레이션, 장기 예측, 시뮬레이션 기반 추론 능력에서 우수한 성능을 보였다.
Limitations
정보 부족
Conclusion
PAN은 언어 조건부 상호작용과 장기간 일관성을 유지하는 범용 세계 모델 개발에 중요한 진전을 제시하였다.
3. Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training
Introduction
- 본 연구의 목표는 양자 중첩 원리를 활용하여 고전적 경사 하강법을 개선하는 새로운 최적화 방법인 Superpositional Gradient Descent (SGD)를 제안하는 것이다.
- 기존의 대형 언어 모델(LLM) 학습에 사용되는 고전적 최적화 기법의 한계와 양자 영감을 받은 방법의 잠재적 이점을 규명하는 데 동기가 있다.
- 본 논문은 양자 회로 기반의 섭동을 도입하여 경사 업데이트를 양자 중첩과 연결하는 SGD를 수학적 프레임워크와 함께 구현 및 실험적으로 검증하였다.
Method
SGD는 고전적 모멘텀 기반 최적화와 양자 영감의 사인파 기반 섭동을 결합하여 파라미터 공간의 여러 구성을 동시에 탐색할 수 있게 한다.
양자 주의 메커니즘을 포함한 변형된 트랜스포머 아키텍처와 PyTorch 및 Qiskit을 통한 하이브리드 양자-고전 회로 시뮬레이션이 구현되었다.
학습률, 양자 가중치, 큐비트 수 등의 하이퍼파라미터를 조절하여 최적화 성능을 실험적으로 최적화하였다.
Results
LLM 미세조정 및 합성 텍스트 분류 실험에서, SGD(λ=0.5)는 AdamW 대비 약 4.16% 낮은 최종 손실과 37.8% 빠른 학습 수렴 속도를 달성하였다.
Limitations
SGD는 양자 회로 시뮬레이션으로 인한 계산 비용 증가 및 하드웨어 확장성 제약으로 인해 실무 적용에 여전히 한계를 가진다.
Conclusion
양자 중첩을 모방하는 섭동이 고전적 경사 하강법의 탐색 효율과 최종 모델 성능을 유의미하게 향상시킬 수 있으며, 향후 대규모 모델 확장과 실제 양자 하드웨어 적용 연구가 필요하다.
4. Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation
Introduction
- 본 연구의 목표는 텍스트-투-이미지(Text-to-Image, T2I) 모델에서 생성 다양성을 정량적으로 평가하는 체계적인 프레임워크를 제안하는 것이다.
- 기존의 다양성 평가가 충실도와 혼재되어 있거나 표준화가 부족하여 명확한 다양성 비교가 어려운 한계를 극복할 필요성이 존재하였다.
- 다양성 평가를 위한 속성별 인간 평가 템플릿과 개념-속성 조합 프롬프트 집합을 개발하고, 인간 주석을 바탕으로 자동 평가 지표를 검증하는 방법론을 도입하였다.
Method
- 본 프레임워크는 개념별로 속성(예: 사과의 색상)을 명시하여 평가 기준의 불확실성을 제거하고, 대형 언어 모델을 활용해 다양성 평가에 적합한 개념-속성 쌍을 체계적으로 생성하였다.
- 인간 평가 템플릿은 평가자의 정확도를 높이기 위해 비교 과제를 하위 과제로 세분화하여, 개별 속성 변이의 다양성 인지를 용이하게 하였다.
- 자동화 평가를 위해 다양한 이미지 임베딩과 Vendi Score 지표를 활용하여 인간 평가와의 상관관계를 정량적으로 분석하였다.
Results
- 인간 평가 기반 모델 비교에서 Imagen 3과 Flux 1.1이 속성별 다양성 측면에서 우수한 성능을 보였으며, Vendi Score 기반 자동 평가 지표는 최대 약 80%의 인간 평가 정확도를 달성하였다.
Limitations
- 자동 평가 지표의 정확도는 임베딩 모델과 텍스트 조건화에 따라 차이가 있으며, 미세한 다양성 차이를 구분하는 데 제한이 존재하였다.
Conclusion
- 본 연구에서 제안한 속성 조건적 인간 평가 프레임워크와 프롬프트 집합은 T2I 모델의 다양성 평가에 대한 신뢰성 있는 기준을 제공하여 향후 평가 지표 개발과 모델 개선에 기여할 것으로 기대된다.
5. MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples
Introduction
- Goal: 본 논문은 라벨이 없는 다중모달 산업 불량 분류 및 분할 문제에서 제로-샷 학습 기반의 상호 채점 메커니즘을 제안하는 것을 목표로 한다.
- Motivation: 기존 방법들이 간과한 점은 정상 이미지 패치들이 2D 외관과 3D 형상에서 서로 유사한 패치를 다수 찾을 수 있으나, 이상 패치는 다양하고 고립된 모습을 보인다는 본질적 특성이다.
- Contribution: 본 연구는 이러한 정상 데이터 간 유사성과 이상 데이터의 다양성을 활용하는 다중모달 상호 채점 프레임워크 MuSc-V2를 최초로 제안하고, 이를 통해 학습이나 프롬프트 없이 2D, 3D 단일 혹은 다중 모달 불량 탐지가 가능함을 입증하였다.
Method
MuSc-V2는 3D 표현력을 향상시키는 Iterative Point Grouping(IPG)과 멀티스케일 근접 이웃 정보를 융합하는 Similarity Neighborhood Aggregation with Multiple Degrees(SNAMD)를 포함한다. 다중샘플 간 상호채점 메커니즘(Mutual Scoring Mechanism, MSM)으로 각 모달 내 샘플들이 서로 점수를 부여하며, Cross-modal Anomaly Enhancement(CAE)를 통해 2D와 3D 점수를 융합하여 단일 모달에서 놓친 이상을 복구한다. 마지막으로 Re-scoring with Constrained Neighborhood(RsCon)을 적용하여 지역 노이즈나 약한 이상으로 인한 오분류를 억제한다.
Results
MuSc-V2는 MVTec 3D-AD 데이터셋에서 AP가 +23.7%, Eyecandies 데이터셋에서 AP가 +19.3% 향상되었으며, 기존 제로-샷 최고 성능과 대부분의 Few-shot 방법들을 뛰어넘는 결과를 보였다.
Limitations
제안 기법의 한계점으로는 구체적 사례와 조건에 따른 성능 저하 가능성에 관한 추가 분석이 부족하다.
Conclusion
본 연구는 라벨 없는 다중모달 산업 불량 탐지 분야에서 최초로 학습이 필요 없는 제로-샷 상호 채점 기반의 고성능 다중모달 이상 검출 기법을 제안하여 산업 현장 적용 가능성을 크게 확장하였다.
6. SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control
Introduction
- Goal: 본 연구는 다중 지시문 프롬프트에서 각 편집 명령어의 강도를 연속적이고 정교하게 조절할 수 있는 이미지 편집 프레임워크를 제안하는 것을 목표로 한다.
- Motivation: 기존의 지시문 기반 이미지 편집 모델들은 각 편집 명령의 적용 강도가 고정되어 있어, 사용자가 세밀하고 연속적으로 편집 강도를 조절하는 데 한계가 존재한다.
- Contribution: 본 논문에서는 Partial Prompt Suppression 손실을 이용하여 다중 명령어에 대해 개별적으로 강도를 조절할 수 있는 경량 저랭크 어댑터를 학습하고, 이를 통해 연속적이고 해석 가능한 편집 강도 제어를 가능하게 하는 SliderEdit 프레임워크를 최초로 제안한다.
Method
SliderEdit은 멀티모달 확산 변환기(MMDiT) 구조 내부에서 각 지시문에 대응하는 토큰 임베딩을 선택적으로 변형하는 저랭크 어댑터(STLoRA)를 학습한다.
Partial Prompt Suppression 손실 함수는 대상 지시문을 제거한 출력과 어댑터 수정 모델의 출력을 일치시키도록 하여, 각 지시문의 시각적 효과를 독립적으로 억제하거나 증폭할 수 있게 한다.
훈련 후, 각 어댑터의 스케일링 파라미터를 조절하여 편집 강도를 연속적으로 변경할 수 있으며, 기존의 FLUX-Kontext 및 Qwen-Image-Edit 모델에 쉽게 통합 가능하다.
Results
단일 및 다중 지시문 편집 실험에서 SliderEdit은 기존의 명시적 및 암묵적 CFG 방법과 Concept-Slider 대비 뛰어난 연속성, 변별성 및 아이덴티티 보존 성능을 보이며, 실시간 사용자 제어가 가능한 세밀한 편집이 가능함을 정량·정성적으로 입증하였다.
Limitations
다중 지시문 편집 시 연속성, 확장성 및 해석 가능성 간의 트레이드오프가 존재하여 완전한 최적화를 달성하기에는 어려움이 남아 있다.
Conclusion
SliderEdit은 지시문 기반 이미지 편집에 연속적이고 독립적인 명령어 강도 제어를 가능하게 하는 최초의 통합 프레임워크로서, 차세대 상호작용형 지시문 기반 이미지 조작 기술 개발에 중요한 기반을 제공한다.
7. CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis
Introduction
- Goal: 본 연구의 목표는 기계 학습 분야 논문에서 인용 문맥을 대상으로 재현 가능성 지향 감성 분석을 수행하기 위한 CC30k 데이터셋을 구축하는 것이다.
- Motivation: 인용 문맥에서 나타나는 재현 가능성에 관한 감성은 해당 연구 결과의 실제 재현 가능성을 예측하는 유망한 신호임에도 불구하고, 이를 다루는 연구용 자원이 부족하기 때문이다.
- Contribution: 본 연구는 30,734개의 인용 문맥에 대해 긍정, 부정, 중립 세 가지 재현 가능성 지향 감성으로 라벨링된 대규모 데이터셋을 제안하고, 대형 언어 모델의 미세조정을 통해 재현 가능성 감성 분류 성능 향상을 입증하였다.
Method
CC30k 데이터셋 구축은 ML 분야 재현 연구 및 원본 논문으로부터 41,244 인용 문맥을 수집하고, 중복 및 모호한 인용문맥을 정제하여 25,829개를 아마존 Mechanical Turk를 통한 크라우드소싱으로 라벨링하였다.
재현 가능성 부정 라벨의 부족 문제를 해결하기 위해 인공지능 기반 분류기를 활용해 추가 부정 문맥을 증강하고 인간 검증을 거쳐 최종 30,734개 데이터를 완성하였다.
또한, 인용 문맥 내 인용 표기 형식을 분석 및 필터링하여 유일하게 특정 논문에 대응하는 문맥만을 포함하였다.
Results
기존 범용 감성 분석 모델들은 재현 가능성 지향 감성 분류에서 낮은 성능을 보였으나, CC30k로 미세조정한 대형 언어 모델들은 모든 실험 조건에서 유의미한 성능 향상을 달성하였다.
Limitations
라벨 분포의 극심한 불균형과 도메인 특화된 과제의 복잡성으로 인해 군집 간 의견 일치가 낮아 일부 라벨의 신뢰도가 제한적이었다.
Conclusion
CC30k 데이터셋은 기계 학습 논문의 재현 가능성 연구 및 이를 위한 자연어처리 모델 개발에 필수적인 자원으로 활용될 수 있다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: