1. Fast-dLLM v2: Efficient Block-Diffusion LLM

Alphaxiv

Introduction

Goal: 본 연구는 사전학습된 자기회귀(AR) 언어 모델을 효율적인 블록 확산(block diffusion) 언어 모델로 변환하여 병렬 텍스트 생성을 실현하는 Fast-dLLM v2를 제안하는 데 목적이 있다.
Motivation: 기존 AR 모델은 순차적 디코딩 특성상 추론 효율성에 한계가 있으나, 확산 기반 LLM은 병렬화가 가능하나 지연 시간과 캐시 재사용 문제 등 실용적 제약이 존재한다.
Contribution: Fast-dLLM v2는 약 10억 토큰의 적은 미세조정 데이터로 AR 모델을 블록 확산 방식의 dLLM으로 손실 없이 전환하며, 블록 단위 양방향 문맥 모델링 및 계층적 캐싱을 통해 AR 대비 최대 2.5배 빠른 추론 속도를 달성하였다.

Method

Fast-dLLM v2는 블록 단위로 입력을 분할하고 각 블록 내에서 부분 마스킹과 상호보완 마스크를 적용해 모든 토큰에 대해 양방향 학습을 수행한다. 학습 중에는 블록 내 양방향 및 블록 간 인과 관계를 유지하기 위한 하이브리드 주의 마스크를 사용하여 AR 특성을 보존한다. 추론 시에는 블록-레벨 캐시와 서브-블록 캐시(DualCache)를 활용하여 블록 별 병렬 정제와 재계산을 최소화하며 효율적인 병렬 디코딩을 수행한다.

Results

Fast-dLLM v2는 1.5B 및 7B 모델 크기에서 기존 AR 모델들과 동등하거나 우수한 정확도를 유지하면서 다양한 벤치마크에서 최대 2.5배 이상의 추론 속도 향상을 보였다.

Limitations

정보 부족.

Conclusion

Fast-dLLM v2는 AR 언어 모델의 성능을 유지하며 확산 기반 병렬 디코딩의 효율성을 극대화하여 실용적인 고속 저지연 대규모 언어 모델 구현의 가능성을 제시하였다.

2. ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

Alphaxiv

Introduction

본 연구의 목표는 단안 비디오로부터 시간에 따라 변화하는 3D 형태를 고품질로 생성하는 비디오 조건 기반 4D 형상 생성 방법을 제안하는 것이다.
기존의 SCORE Distillation Sampling 기반 방법들은 계산 비용이 크고 불안정하며, 다중 시점 생성 후 재구성 방식은 누적된 오류로 품질과 효율성에 한계가 존재한다는 점에서 동기부여되었다.
본 논문에서는 대규모 사전학습된 3D 생성 모델을 활용하여 단일 동적 3D 표현을 직접 생성하는 최초의 비디오-투-4D 메쉬 시퀀스 생성 프레임워크를 제안한다.

Method

본 프레임워크는 시공간 어텐션을 통해 영상의 모든 프레임을 조건으로 삼아 시간 인덱스가 부여된 동적 표현을 학습한다.
시간 인지 점 샘플링 및 4D 잠재앙커 방식을 도입하여 기하구조와 텍스처의 시간적 일관성을 강화하며, 프레임 간 노이즈 공유를 통해 안정성을 높였다.
이러한 설계를 통해 비강직 운동과 체적 변화, 위상 변화까지 정확히 처리하며, 사전학습된 3D 모델의 일반화 능력을 효과적으로 활용했다.

Results

제안된 ShapeGen4D는 Objaverse 보유 테스트셋과 Consistent4D 동영상 데이터셋에서 최신 기법 대비 향상된 기하 정확도와 지각적 충실도를 보이며, 다수의 정량/정성 평가에서 우수한 성능을 달성하였다.

Limitations

입력 비디오의 관점 정보를 활용하지 못하여 전역 운동이나 뷰포인트 정합 문제에 취약하고, 완전한 애니메이션 자산을 위해서는 별도의 자세 등록 및 텍스처 전파 단계가 필요하며, 여전히 일부 결과에서 국소적 시간적 흔들림이 관찰된다.

Conclusion

본 연구는 사전학습된 3D 생성기의 강력한 사전지식을 활용하는 시공간 확장형 확산 트랜스포머를 기반으로 단일 비디오 입력만으로 고품질의 시간 일관적 4D 메쉬 시퀀스를 직접 생성하는 새로운 패러다임을 제시한다.

3. Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context

Alphaxiv

Introduction

Goal: 본 연구는 언어 모델이 문맥 내에서 결합된 개체를 어떻게 검색하는지 그 기제를 규명하는 데 목적이 있다.
Motivation: 기존 연구들은 짧은 목록의 개체 결합에서는 위치 기반 메커니즘이 효과적이라 밝혔으나, 복잡한 문맥 확장 시 이 메커니즘이 불안정해지는 문제를 인지하였다.
Contribution: 위치적 메커니즘의 한계를 밝히고, 언어 모델이 위치, 어휘, 반사적 메커니즘 세 가지를 혼합하여 결합된 개체를 인식함을 밝혀내며 이를 통합하는 인과 모델을 제안하였다.

Method

세 가지 메커니즘(위치, 어휘, 반사적 메커니즘)을 구분하기 위해 원본과 반사실 반례 쌍으로 구성된 데이터셋을 설계하였다.
다양한 크기와 유형의 9개 언어 모델 및 10개의 바인딩 과제에 대해 교환 개입(interchange intervention)을 적용하여 각 메커니즘이 작동하는 층과 위치를 분석하였다.
최종적으로 세 메커니즘의 혼합을 가중치와 분포로 조절하는 인과 모델을 학습하여 다음 토큰 분포를 95%의 유사도로 추정하였다.

Results

언어 모델들은 앞뒤 위치의 개체에 대해서는 위치 기반 메커니즘을, 중간 위치에서는 어휘 및 반사적 메커니즘을 보완적으로 활용하여 결합된 개체를 정확하게 검색했으며, 세 메커니즘을 결합한 인과 모델이 기존 단일 위치 메커니즘 대비 월등한 예측 정확도를 보였다.

Limitations

제안된 메커니즘 분석은 개체 그룹 내 최대 20개의 개체를 대상으로 하였으나, 매우 긴 문맥 또는 더욱 복잡한 자연어 환경에서의 일반화 가능성에는 한계가 존재한다.

Conclusion

본 연구는 언어 모델이 문맥 내 개체 결합과 검색에 있어 위치 기반 메커니즘에만 의존하지 않고, 어휘 및 반사적 메커니즘과 혼합하여 작동함을 밝혀내어 장문 문맥에서도 견고한 추론 기제를 새롭게 고찰하는 기반을 마련하였다.

Alphaxiv

Introduction

Goal: 본 논문은 텍스트와 이미지를 동시에, 그리고 다양한 길이와 형태로 혼합 생성할 수 있는 최초의 비자기회귀 다중모달 모델인 OneFlow를 제안하는 데 목적이 있다.
Motivation: 기존의 자기회귀 및 확산기반 다중모달 모델은 생성 순서나 길이에 제약이 있어 텍스트와 이미지의 교차적이고 동시적인 생성이 불가능하다.
Contribution: OneFlow는 편집 흐름(Edit Flow)을 통한 토큰 삽입과 흐름 매칭(Flow Matching)을 통한 이미지 잠재공간 생성 방식을 결합해 동시 다중모달 생성 및 상호작용을 실현했다.

Method

OneFlow는 이산 텍스트 토큰의 삽입 기반 생성과 연속 이미지 잠재공간의 흐름 매칭을 결합하여 변수 길이와 혼합 양식의 동시 생성을 가능하게 한다. 텍스트 삽입은 연속시간 마코프 과정을 통해 잃어버린 토큰을 예측하며, 이미지 생성은 노이즈에서 시작해 미분 방정식에 따라 점진 복원한다. 동시 생성 시 텍스트와 이미지는 상호작용하며 각각 독립 또는 교차 시간 계획에 따라 업데이트된다.

Results

OneFlow는 1B에서 8B까지의 모델 크기에서 자기회귀 기반 모델 대비 최대 50% 적은 학습 연산량으로 VQA, 이미지 생성 등 다양한 벤치마크에서 동등하거나 우수한 성능을 보였으며, 혼합 양식 동시 학습 시 이해도와 생성력이 각각 최대 4%, 1.5% 향상되었다.

Limitations

정보 부족

Conclusion

OneFlow는 자기회귀 및 확산 모델의 한계를 극복하며 동시 다중모달 인터리브 생성과 반복적 세부화, 자연스러운 추론 유사 생성 능력을 제공하는 비자기회귀 다중모달 생성 프레임워크로 자리매김했다.

5. Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

Alphaxiv

Introduction

Goal: 본 논문은 평형(equilibrium) 역학 관점에서 생성 모델링을 수행하는 Equilibrium Matching(EqM) 프레임워크를 제안하는 것을 목표로 한다.
Motivation: 기존 확산(diffusion) 및 흐름(flow) 기반 생성 모델은 비평형(non-equilibrium) 시계열 동역학에 의존하여 샘플링 과정에 제약이 존재하며, 평형 역학을 적용한 기존 시도들은 성능 저하나 학습 불안정 문제를 겪었다.
Contribution: EqM은 시간-조건부 비평형 동역학을 제거하고 명시적 또는 암묵적 에너지 함수의 평형 구배를 학습함으로써, 최적화 기반 샘플링과 다양한 적응적 추론 전략을 지원하며 기존 모델 대비 우수한 성능을 보임을 실험적으로 입증하였다.

Method

EqM은 노이즈 수준 조건화를 제거한 시간 불변의 암묵적 에너지 구배장을 학습하며, 이를 통해 데이터 매니폴드 상의 정적점을 형성하는 에너지 렌드스케이프를 구성한다. 학습 시 중간 오염 샘플에 대해 노이즈에서 데이터 방향을 가리키고, 데이터 근처에서 크기가 0으로 감소하는 목표 구배를 설정하여 모델이 평형 에너지 함수의 구배를 모방하도록 한다. 샘플링은 학습된 에너지 함수에 대해 그라디언트 디센트 기반 최적화로 수행하며, 적응적 스텝 크기와 최적화 기법을 자유롭게 적용할 수 있다.

Results

EqM은 ImageNet 256×256 생성에서 1.90의 FID를 달성하여 기존 확산 및 흐름 기반 모델을 모두 능가하였으며, 적응적 샘플링과 부분 노이즈 상태 입력 처리, OOD 감지, 합성 이미지 생성 등에서도 독특한 장점을 보였다.

Limitations

EqM의 explicit energy 학습 변형은 안정성 문제와 낮은 성능으로 인해 조심스러운 활용이 필요하며, 본 논문에서 제안된 기본 implicit 모델에 비해 덜 효과적이었다.

Conclusion

Equilibrium Matching은 에너지 기반 및 흐름 기반 모델의 장점을 결합해 평형 동역학을 효과적으로 학습하고 유연한 추론을 가능하게 하는 강력한 생성 모델링 대안임을 입증하였다.

6. Scalable In-context Ranking with Generative Models

Alphaxiv

Introduction

Goal: 본 논문은 대규모 언어모델(LLM)을 활용한 In-context Ranking(ICR) 분야에서 효율성과 성능의 균형을 이루는 확장 가능한 문서 랭킹 방법을 제안하는 것이다.
Motivation: 기존 ICR은 후보 문서 수가 증가할수록 주의(attention) 연산이 제곱 혹은 초선형으로 증가하여 계산 비용이 크다는 한계가 존재한다.
Contribution: 본 연구는 ICR용으로 파인튜닝된 LLM 주의 메커니즘 내에서 문서 간 희소성과 쿼리-문서 관련성을 분석하여, 이를 구조적으로 반영한 BlockRank 모델과 대조학습 기반의 주의 최적화 기법을 제안하였다.

Method

BlockRank는 문서별 주의 집중을 강화하며 문서 간 희소 구조를 아키텍쳐에 도입해 주의 복잡도를 제곱에서 선형으로 감소시킨다. 추가로 중간층의 쿼리 토큰이 관련 문서에 강하게 집중하도록 대조학습 목표를 활용하여 주의 신호를 명시적으로 최적화한다. 또한, 이 주의 점수로 직접 관련 문서를 예측하는 효율적인 추론 방식을 구현하였다.

Results

BEIR, MSMarco, NQ 등 다양한 벤치마크에서 BlockRank는 기존 최첨단 모델 대비 동등하거나 우수한 검색 성능을 보이며, 100개 문서 처리 시 최대 4.7배 빠른 추론 속도와 약 500개 문서까지의 장문 컨텍스트 확장성을 달성하였다.

Limitations

초기 쿼리-문서 집합을 제한하는 1차 검색기 의존성 및 대규모 문서 집합 전체에 대한 직접 적용의 제약이 존재한다.

Conclusion

BlockRank는 ICR 태스크에 특화된 구조적 희소 주의와 대조학습 기반 주의 최적화를 결합하여 높은 정확도와 뛰어난 효율성을 동시에 달성하는 확장 가능한 ICR 솔루션임을 입증하였다.

7. Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

Alphaxiv

Introduction

본 논문은 자연어 설명에 따라 영상 내 특정 객체를 연속적으로 분할하는 Referring Video Object Segmentation (RVOS)을 다룬다.
기존 ‘위치 탐지 후 분할’ 방식은 언어 의미를 단순화하여 정보 병목 현상을 초래하고 시공간 일관성을 유지하는 데 한계가 있었다.
이를 극복하기 위해 영상과 자연어 조건을 통합하여 연속적인 변형 흐름으로 마스크를 생성하는 FlowRVS 프레임워크를 제안하였다.

Method

RVOS 문제를 자연어 조건에 따른 영상 표현에서 목표 마스크로의 연속적 변형(Flow Matching) 문제로 재정의하였다.
강력한 사전학습된 텍스트-투-비디오(T2V) 생성 모델을 활용해 영상의 고차원 표현을 텍스트와 결합하여 시간적 일관성을 유지하며 변화시키는 방식을 채택하였다.
경계편향 샘플링, 시작점 변형 및 영상 직접 주입 기법을 도입하여 학습의 안정성과 정확도를 극대화하였다.

Results

제안한 FlowRVS는 MeViS에서 J&F 51.1%, Ref-DAVIS17 제로샷 평가에서 73.3%를 기록하며 기존 최첨단 방법 대비 유의미한 성능 향상을 달성하였다.

Limitations

정보 부족

Conclusion

FlowRVS는 텍스트 조건 기반 연속적 변형 흐름으로 RVOS의 성능과 일반화를 획기적으로 개선하는 새로운 접근법임을 입증하였다.

8. On Code-Induced Reasoning in LLMs

Alphaxiv

Introduction

본 연구의 목표는 코드 데이터가 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어 어떤 속성이 가장 중요한지 체계적으로 규명하는 것이다.
동기는 코드 학습이 추론 성능 향상에 효과적이라는 기존 연구에도 불구하고, 코드의 구체적인 구조적, 의미적 속성 중 어느 부분이 핵심적인 역할을 하는지는 명확하지 않았기 때문이다.
주요 기여는 10개 프로그래밍 언어에 걸친 병렬 지시어 데이터셋 구성과 제어된 코드 변형을 통한 3,331회의 대규모 실험으로 코드 속성별 추론 성능 영향을 분석하는 체계적 데이터 중심 프레임워크를 제안한 것이다.

Method

자연어 및 10개 프로그래밍 언어로 된 병렬 지시어-응답 데이터셋을 구축하였고, 구조 또는 의미적 특성을 파괴하는 규칙 기반과 생성 모델 기반 코드 변형을 설계하였다.
다섯 개 모델 군과 여덟 개 규모의 LLM들을 각 데이터셋 변형판으로 미세조정한 후 자연어, 수학, 코드 관련 다중 태스크 성능을 평가하였다.
이를 통해 다양한 코드 표현과 변형이 추론에 미치는 영향을 정량적으로 분석하였다.

Results

코드의 구조적 변형이 의미적 변형보다 성능 저하에 더 큰 영향을 미치며, 특히 수학 및 코드 태스크에서 두드러졌고, 적절한 추상화인 의사코드와 흐름도는 원본 코드와 유사하거나 더 나은 성능을 보였으며, 심지어 형태가 훼손된 코드도 표면적 규칙성이 유지되면 경쟁력 있는 결과를 나타냈다.

Limitations

본 연구는 주로 0.6B~8B 규모의 소형~중형 모델에 집중하였으며, 코드 복잡성 및 데이터 다양성과 같은 추가 요인은 제외되어 향후 연구에서 보완될 필요가 있다.

Conclusion

코드의 구조적 특성이 LLM의 추론 성능에 결정적으로 작용하며, 추상화된 코드 표현과 다중 언어 데이터가 학습에 유리한 신호를 제공함을 밝히고, 이를 바탕으로 향후 효과적인 학습 데이터 설계 방향을 제시한다.

1. Fast-dLLM v2: Efficient Block-Diffusion LLM

Introduction

Method

Results

Limitations

Conclusion

2. ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

Introduction

Method

Results

Limitations

Conclusion

3. Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context

Introduction

Method

Results

Limitations

Conclusion

4. OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows

Introduction

Method

Results

Limitations

Conclusion

5. Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

Introduction

Method

Results

Limitations

Conclusion

6. Scalable In-context Ranking with Generative Models

Introduction

Method

Results

Limitations

Conclusion

7. Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

Introduction

Method

Results

Limitations

Conclusion

8. On Code-Induced Reasoning in LLMs

Introduction

Method

Results

Limitations

Conclusion

Enjoy Reading This Article?