Daily Papers — 2025-12-18
1. DEER: Draft with Diffusion, Verify with Autoregressive Models
Introduction
- Goal: 본 논문은 확산 기반 대형 언어 모델(dLLM)을 드래프터로 활용하고, 자기회귀(AR) 모델로 검증하는 효율적인 추측적 디코딩 프레임워크 DEER를 제안하는 것을 목표로 한다.
- Motivation: 기존 추측적 디코딩 방식은 순차적이며 자기회귀 드래프터에서 오는 불확실성 누적 문제가 병목 현상을 유발하여 속도 향상에 한계가 존재한다.
- Contribution: DEER는 dLLM의 병렬 토큰 생성과 새로운 두 단계 정렬 훈련 기법을 통해 드래프팅의 불확실성 누적 문제를 극복하며, 기존 방법 대비 최대 5.54배의 추론 속도를 달성하였다.
Method
DEER는 사전 학습된 dLLM을 대상으로 AR 모델의 분포와 일치하도록 두 단계의 훈련 절차(AR 스타일 연속 증류 및 접두사 조건 정확도 정제)를 수행하여 prefix-conditioned continuation을 가능하게 한다. 이 과정에서 dLLM 기반 드래프터는 전체 토큰 블록을 병렬로 생성하여 전통적인 AR 드래프터의 연속적 의존성을 제거하고, AR 검증기로 각 토큰의 적합성을 평가한다. 이러한 블록 단위 생성 및 검증 방식을 통해 기존 방식의 단계별 불확실성 누적 문제를 완화한다.
Results
코드 생성 벤치마크 HumanEval에서 DEER는 Qwen3-30B-A3B 모델 기준 EAGLE-3보다 2배 이상 큰 32토큰의 최대 수락 길이를 기록하며, 5.54배의 속도 향상을 보여 최첨단 추측적 디코딩 방법들을 전반적으로 능가하였다.
Limitations
본 논문은 수학적 추론 태스크에서 완전히 수렴하지 않은 dLLM 기반 드래프터임에도 효과를 입증하였으나, 완전한 의미론적 신뢰도 확보 및 다양한 작업에 대한 일반화 가능성 검증은 추가 연구가 필요하다.
Conclusion
DEER는 dLLM의 병렬성 및 확산 특성을 활용한 최초의 완전 dLLM 기반 추측적 디코딩 프레임워크로, 대형 언어 모델의 효율적인 디코딩 가속화에 대한 실용적이고 확장 가능한 솔루션임을 증명하였다.
2. Universal Reasoning Model
Introduction
- Goal: 본 논문의 목적은 Universal Transformer(UT) 모델의 성능 향상의 원인을 규명하고 이를 기반으로 복잡한 추론 문제 해결에 최적화된 Universal Reasoning Model(URM)을 제안하는 것이다.
- Motivation: 기존 연구들은 UT의 성능 향상을 주로 복잡한 아키텍처 설계 덕분으로 해석했으나, 실제로는 순환적 귀납적 편향과 비선형성 요소가 핵심임을 밝힘으로써 보다 효율적인 모델 설계 필요성을 느꼈다.
- Contribution: 본 연구에서는 URM을 개발하여 짧은 합성곱과 잘린 역전파 기법을 도입해 UT의 비선형 처리 능력을 강화하고, ARC-AGI 및 Sudoku 벤치마크에서 최첨단 성능을 달성하였다.
Method
Universal Reasoning Model(URM)은 기본 UT 구조를 따라가되, 포지셔널 인코딩과 단계별 반복연산에 기반하며, 짧은 깊이별 합성곱을 추가해 지역적 토큰 상호작용을 촉진한다.
또한 Truncated Backpropagation Through Loops(TBPTL) 기법으로 초기 반복단계의 역전파를 제한해 학습 안정성을 높이고, GPU 메모리 및 계산 비용을 절감한다.
활성화 함수로 SwiGLU를 활용해 다층비선형 변환의 표현력을 확대함으로써 복잡한 논리 및 추론 과제 수행에 적합하도록 모델을 개선하였다.
Results
URM은 ARC-AGI 1에서 pass@1 53.8%, ARC-AGI 2에서 16.0%, Sudoku에서 77.6% 정확도를 기록하며 기존 HRM과 TRM을 유의미하게 능가하는 성능을 나타냈다.
Limitations
URM은 반복 깊이가 증가할수록 학습 불안정과 계산 부하 문제가 발생하며, 최적 역전파 트렁케이션 범위 탐색이 필수적으로 요구된다.
Conclusion
순환 귀납적 편향과 강한 비선형성이 복잡한 추론 작업에서 UT 성능 향상의 주요 원인임을 규명하고, 이를 증진하는 URM을 통해 추론 모델링의 새로운 표준 방향을 제시하였다.
3. Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
Introduction
- Goal: 본 연구는 단일 RGB 이미지를 다수의 의미적으로 분리된 RGBA 레이어로 분해하여 본질적인 편집 가능성을 제공하는 확산 모델 Qwen-Image-Layered를 제안하는 것이다.
- Motivation: 기존의 래스터 이미지 편집은 모든 시각적 내용이 단일 캔버스에 뒤섞여 있어 편집 시 일관성을 유지하기 어렵다는 문제점을 근본적으로 해결하고자 하였다.
- Contribution: 본 연구는 RGBA-VAE, 가변 레이어 분해용 VLD-MMDiT 구조, 다단계 학습 전략을 도입하여 고품질 다층 이미지 분해 및 일관성 있는 레이어 기반 편집을 가능하게 하였다.
Method
Qwen-Image-Layered는 RGBA-VAE로 입력 RGB와 출력 RGBA 이미지의 잠재 표현을 통일하고, VLD-MMDiT 구조를 통해 가변 개수의 레이어 분해를 지원하며, 다단계 학습 방식을 통해 사전 학습된 이미지 생성 모델을 점진적으로 다층 분해기로 전환하였다. 또한, 고품질 다층 이미지 학습 데이터 부족 문제를 해결하기 위해 실제 Photoshop 문서(PSD)에서 다층 이미지를 추출·주석화하는 파이프라인을 구축하였다.
Results
실험 결과 Qwen-Image-Layered는 기존 방법 대비 분해 품질이 현저히 우수하였으며, Crello 데이터셋 기준 알파 채널 소프트 IoU가 크게 향상되어 일관성 유지가 뛰어난 레이어 기반 이미지 편집의 새로운 가능성을 제시하였다.
Limitations
정보 부족
Conclusion
Qwen-Image-Layered는 단일 RGB 이미지를 다수의 의미 분리된 RGBA 레이어로 완전 분해함으로써 레이어별 독립적 조작이 가능하고, 이를 통해 편집 일관성을 근본적으로 보장하는 새로운 이미지 편집 패러다임을 확립하였다.
4. Robust and Calibrated Detection of Authentic Multimedia Content
Introduction
- 본 연구의 목표는 진본 멀티미디어 콘텐츠의 강건하고 교정된 검출 방법을 제안하는 것이다.
- 최근 발전한 생성 모델들이 매우 실감나는 콘텐츠를 생성함에 따라, 기존의 딥페이크 검출 방법이 높은 오탐율과 낮은 견고성 문제로 신뢰성을 상실하고 있다는 점에 착안하였다.
- 이를 해결하기 위해 본 연구는 재합성 프레임워크와 진본성 지수(Authenticity Index)를 도입하여 고정밀 저재현율 환경에서 진본 콘텐츠의 신뢰성 검증과 공격 저항성을 달성하였다.
Method
- 본 연구는 확산 모델을 기반으로 한 재합성 및 역변환 기법을 통해 입력 이미지가 생성 모델로 얼마나 잘 복원되는지를 평가하는 진본성 지수를 개발하였다.
- 진본성 지수는 PSNR, SSIM, LPIPS, CLIP 유사도 등 상보적 특성 측정치를 선형 결합하여 계산하며, 일정 임계값 이상인 경우 진본으로 분류한다.
- 또한 현실적 위협 모델 하에서 역변환 파이프라인을 겨냥한 적대적 공격에도 견고한 인증 성능을 보장하도록 설계되었다.
Results
- 제안한 방법은 다양한 공개 생성 모델 및 대규모 소셜미디어 데이터셋에서 기존 딥페이크 검출기 대비 뛰어난 일반화 능력과 적대적 공격에 대한 견고성을 입증하였다.
Limitations
- 본 방법은 모델 접근권한이 필요하며, 무한한 자원을 가진 공격자에 의한 완전 회피 공격 가능성은 배제할 수 없다.
Conclusion
- 본 연구의 진본성 지수 기반 접근법은 기존의 이분법적 딥페이크 검출 한계를 극복하고, 진본성과 그럴듯한 부인 가능성을 정량적으로 평가하는 실용적이고 강건한 인증 체계를 제공한다.
5. VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs
Introduction
- Goal: 본 논문은 대규모 언어 모델(LLM)을 이용해 다양성이 높은 합성 데이터셋을 생성하는 훈련이 필요 없는 새로운 방법론 VOYAGER를 제안하는 것이다.
- Motivation: 기존 LLM 기반 데이터 생성 방법들은 다양성 부족 문제를 가지고 있으며, 기존의 다양성 증진 기법들은 전역적 다양성을 충분히 반영하지 못하거나 계산 비용이 높고 폐쇄형 모델에는 적용이 어려웠다.
- Contribution: VOYAGER는 결정론적 점 프로세스(Determinantal Point Processes)를 활용해 데이터셋 다양성을 직접 수학적으로 최적화하며, 훈련 불필요, 폐쇄형 모델 적용 가능, 확장성 보유라는 세 가지 장점을 가진다.
Method
VOYAGER는 데이터셋 내 샘플들의 유사도 행렬의 행렬식(det)을 다양성의 기하학적 척도로 사용하여 이를 최대화하는 방식을 기저로 한다. 고정 크기의 ‘앵커셋’을 유지하며 새 탐색자들이 생성한 샘플을 다양성 기준으로 선별하고, 일부는 ‘텍스트 기반 그래디언트’ 기법으로 프롬프트를 개선하여 탐색 공간을 확장한다. 알고리즘은 결정론적 점 프로세스를 통해 다양성을 극대화하는 앵커셋을 갱신하며, 효율적이고 확장 가능한 데이터 생성 절차를 구현한다.
Results
각종 창작 및 추론 생성 과제에서 VOYAGER는 기존 온도 샘플링, 히스토리 조건부, 계층적 프롬프트 등 강력한 기준 방법 대비 평균 1.5배에서 3배 이상의 Vendi Score 향상을 보이며 다양성 측면에서 우수한 성능을 나타냈다.
Limitations
VOYAGER는 다양성 확보를 위해 많은 LLM 호출이 필요하기 때문에 계산 비용이 상대적으로 증가할 수 있다.
Conclusion
VOYAGER는 훈련 없이도 폐쇄형 LLM을 활용해 글로벌한 다양성 지표를 수학적으로 최적화하여 합성 데이터셋 생성의 새로운 방향을 제시한다.
6. End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
Introduction
- 본 연구의 목표는 자기 재샘플링(Self-Resampling)을 활용하여 시계열적 자기회귀 방식의 비디오 확산 모델을 엔드-투-엔드 방식으로 효과적으로 학습하는 방법을 제안하는 것이다.
- 기존 자기회귀 비디오 생성은 학습과 추론 간 불일치로 인한 노출 편향(exposure bias) 문제로 인해 긴 영상 생성 시 오류가 누적되는 한계가 존재하였다.
- 제안하는 Resampling Forcing 기법은 교사 모델 없이 스스로 오류를 시뮬레이션하며 학습하고, 동적 히스토리 라우팅으로 긴 시계열에서도 효율적인 주의를 구현함으로써 오류 누적 문제를 완화한다.
Method
Resampling Forcing는 각 프레임의 과거 프레임들에 모델의 추론 오류를 유도하는 자기 재샘플링 메커니즘을 도입하여 학습 시 입력 히스토리의 열화 상태를 조건으로 하여 다음 프레임을 예측하게 한다. causal mask를 활용하여 시계열 인과관계를 엄격히 유지하면서도 병렬 학습을 가능하게 하며, history routing은 각 쿼리마다 가장 관련성 높은 상위 k개 과거 프레임을 선택해 어텐션 연산의 계산량을 상수 수준으로 유지한다. 자기 재샘플링 과정은 학습 내내 온라인 모델 가중치를 이용해 점진적으로 오류 분포를 적응시키며, 교사 강요 단계 워밍업 후 점진적으로 전환하여 안정적인 수렴을 도모한다.
Results
제안한 방법은 Self Forcing 및 LongLive 등 교사 모델 증류 기반 기법과 동등한 영상 품질을 달성하면서도, 긴 영상 생성에서 향상된 시간적 일관성과 인과성 엄수를 보이며, 75% 이상의 어텐션 희소성에도 품질 저하가 미미함이 실험을 통해 검증되었다.
Limitations
Diffusion 기반 모델 특성상 반복적인 디노이징 과정으로 실시간 추론이 어렵고, 두 개의 시퀀스(잡음 있는 샘플과 깨끗한 히스토리) 처리로 인해 아키텍처 최적화가 추가로 요구된다.
Conclusion
본 연구는 자기 재샘플링을 활용한 엔드-투-엔드 자기회귀 비디오 확산 모델 학습 프레임워크를 제안하여 오류 누적 문제를 효과적으로 완화하고, 긴 시계열 생성에 적합한 계산 효율성과 시간적 일관성을 동시에 달성하였다.
7. Hybrid Attribution Priors for Explainable and Robust Model Training
Introduction
- Goal: 본 논문은 설명 가능성과 견고성을 동시에 향상시키기 위해 소형 언어 모델의 분류 작업에서 사용할 수 있는 신뢰할 만한 하이브리드 속성(Attribution) 사전(prior)을 개발하는 데 목적이 있다.
- Motivation: 기존 속성 지도 학습 방법들은 의미가 유사한 클래스 간 공통 키워드에 집중하여 모델의 구별력을 제한하며, 이는 혼동되는 클래스에 대한 판별 신호가 부족한 문제를 야기하는 한계가 존재한다.
- Contribution: 본 연구는 클래스 인식 속성 사전(CAP)을 통해 세밀한 클래스 구분 정보를 포착하고, CAP와 기존 속성 기법을 융합한 CAPHybrid를 제안하여 해석력과 강인성을 동시에 향상시키는 새로운 학습 프레임워크를 제시하였다.
Method
클래스 정보를 포함한 태스크 지시문과 레이블 공간을 활용해 대형 언어 모델에서 클래스 인식 속성 사전을 추출하며, 이를 기존 LIME 및 Integrated Gradients(IG)와 융합해 다중 관점의 속성 신호를 생성한다.
생성된 하이브리드 속성 사전과 모델의 자체 속성 점수 간 정렬을 통해 설명 지도 학습을 수행하며, 이 과정에서 MSE 손실을 활용해 모델이 다양한 판별 특징을 학습하도록 유도한다.
최종 학습 목표는 표준 교차 엔트로피 손실과 속성 정렬 손실의 가중 조합으로 구성된다.
Results
3개 의도 분류 데이터셋의 풀 데이터, 5-샷, 그리고 적대적 공격 환경에서 CAPHybrid가 기존 방법군 대비 전반적인 정확도, 해석력(포괄성과 충분성 지표), 그리고 적대적 견고성 면에서 일관되게 우수한 성능을 기록하였다.
Limitations
본 접근법은 복잡한 계산 비용이 수반되는 단어 마스킹 기반의 선형 방정식 해법에 의존하므로 대규모 데이터나 실시간 응용에서는 효율성 측면의 제약이 존재한다.
Conclusion
클래스 인식 정보를 주입한 하이브리드 속성 사전은 의미적으로 중첩된 클래스 간 혼동 문제를 효과적으로 완화하며, 이를 통해 설명 가능하고 견고한 소형 언어 모델 훈련을 위한 유망한 방향성을 제시하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: