Daily Papers — 2025-10-06

1. Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

Alphaxiv

Introduction

  • Goal: 본 논문은 토큰 압축 시 발생하는 학습 난이도를 완화하여 멀티모달 대형 언어 모델(MLLM)의 효율성을 향상시키는 것을 목표로 한다.
  • Motivation: 시각 토큰의 대량 존재는 MLLM에서 높은 계산 비용과 최적화 난제를 초래하며, 기존 압축 기법은 이러한 학습 난이도 증가를 충분히 고려하지 못하였다.
  • Contribution: 본 연구는 점진적 일관성 증류(EPIC) 프레임워크를 제안하여 토큰 및 레이어 단위의 일관성 증류를 통해 학습 난이도를 경감하고 모델의 효과성 및 일반화 성능을 향상시켰다.

Method

EPIC은 하나의 MLLM이 교사 모델과 학생 모델 역할을 공유하는 점진적 학습 방식으로, 토큰 일관성 증류(TCD)는 압축 비율을 점진적으로 높여 토큰 단위의 학습 난이도를 완화한다.
레이어 일관성 증류(LCD)는 초기에는 깊은 층에서 압축을 수행하다가 점차 얕은 층으로 압축 위치를 이동시켜 층별 특성에 맞는 점진적 학습 경로를 설계하였다.
두 가지 기법 모두 교사-학생 간 압축 비율 간격을 유지하며 KL 발산 기반의 증류 손실을 통합하여 안정적인 최적화를 지원한다.

Results

본 방법은 10개 대표 벤치마크에서 기존 MLLM 대비 적은 시각 토큰 수(128개)로도 유사하거나 우수한 성능을 보였으며, 특히 MME, MMBench, VQA V2에서 현저한 성능 향상을 달성하였다.

Limitations

극단적인 토큰 압축 시에는 계산량 및 지연시간 감소가 둔화되며 성능 저하가 발생하여, 지나친 압축은 실용적 효율성에 부정적 영향을 미친다.

Conclusion

EPIC은 모델 구조 변경 없이 다양한 토큰 압축 기법과 호환 가능하며, 점진적 일관성 증류를 통해 MLLM의 학습 및 추론 효율과 성능 간 균형을 효과적으로 달성한다.

2. OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 신경망에서 학습된 특징들 간의 직교성을 부여하여 희소 오토인코더(Sparse Autoencoders, SAE)의 특징 흡수 및 합성 문제를 완화하는 새로운 학습 방법인 Orthogonal Sparse Autoencoders (OrtSAE)를 제안하는 것이다.
  • Motivation: 기존 SAE는 특징 흡수(feature absorption)와 특징 합성(feature composition) 문제로 인해 해석 가능성이 떨어지고 중복된 표현이 발생하는 한계가 존재하였다.
  • Contribution: 본 논문은 기존 SAE 구조의 큰 변경 없이도 계산 복잡도를 선형으로 유지하면서 특징 간 유사도를 벌점화하는 직교성 페널티를 도입하여 OrtSAE가 더 많은 고유한 원자적 특징을 발견하고 흡수와 합성률을 현저히 줄임을 보여준다.

Method

OrtSAE는 디코더 행렬의 특징 벡터들 간 페어와이즈 코사인 유사도가 높을 때 이를 벌점화하는 직교성 페널티를 도입한다. 페널티 계산은 전체 잠재 공간을 여러 청크로 나누어 각 청크 내에서만 유사도를 평가함으로써 계산 비용을 O(m²)에서 O(m)으로 줄인다. 최종 손실 함수는 재구성 손실, 희소성 페널티, 부가 손실과 함께 직교성 페널티를 가중합한 형태로 학습된다.

Results

OrtSAE는 전통적인 SAE 대비 9% 더 많은 고유 특징을 발견하고, 특징 흡수율을 65%, 특징 합성률을 15% 감소시키며, 가짜 상관관계 제거 성능에서 6% 향상을 달성하였다.

Limitations

정보 부족

Conclusion

OrtSAE는 직교성 제약을 활용해 희소 오토인코더의 원자적 특징 발견 능력을 향상시키며, 모델 해석 가능성과 다운스트림 작업 성능을 유지하는 효과적인 방법임을 입증하였다.

3. Triangle Splatting+: Differentiable Rendering with Opaque Triangles

Alphaxiv

Introduction

  • Goal: 본 논문은 3D 장면 재구성 및 메시 기반 미분 가능 렌더링을 위해 불투명한 삼각형을 직접 최적화하는 Triangle Splatting+ 기법을 제안한다.
  • Motivation: 기존 3D Gaussian Splatting은 실시간 렌더링과 빠른 최적화를 가능하게 하나, 메시 기반의 기존 그래픽스 파이프라인과 호환이 어려워 후처리 복잡성 및 시각 품질 저하 문제를 내포한다.
  • Contribution: Triangle Splatting+는 삼각형의 정점 공유를 통한 연결성 구현과 불투명 삼각형을 강제하는 훈련 전략을 도입하여, 게임 엔진에 즉시 호환 가능한 고품질 메시를 효율적으로 생성한다.

Method

Triangle Splatting+는 삼각형을 공유하는 정점 집합으로 파라메터화하여 인접 삼각형 간 연결성을 확보한다.
훈련 시 삼각형의 부드러움과 투명도를 점진적으로 조절하며 불투명성을 강화하고, 불필요한 삼각형은 프루닝하여 시각 품질을 극대화한다.
추가적으로, 점진적 중간 분할 기법을 통해 메시를 치밀하게 구성하고, GPU 기반 차분 가능한 래스터화를 통해 효율적인 학습과 렌더링을 달성한다.

Results

Mip-NeRF360 및 Tanks & Temples 벤치마크에서 Triangle Splatting+는 동종 방법 대비 최고 수준의 PSNR, SSIM 및 LPIPS 성능을 기록하며, 최소한의 정점수로 고효율 학습과 즉각적인 게임 엔진 호환성을 입증하였다.

Limitations

배경 영역의 드문 점 개체밀도와 제한된 시점에서의 시각 품질 저하, 투명 객체 표현의 어려움이 존재한다.

Conclusion

Triangle Splatting+는 불투명 삼각형을 효과적으로 최적화하여 고품질 메시를 생성하고, 전통적인 렌더링 파이프라인과 딥러닝 기반 신기술의 통합을 촉진하며 다양한 상호작용적 응용을 지원한다.

4. Less LLM, More Documents: Searching for Improved RAG

Alphaxiv

Introduction

  • Goal: 본 논문은 Retrieval-Augmented Generation(RAG)에서 생성기 모델 크기 확대 대신 검색 코퍼스 규모 확장을 통해 성능을 개선하는 가능성을 탐구하는 것이다.
  • Motivation: 대형 언어 모델(LLM)의 규모 확대는 정확도를 향상시키나 비용 상승과 배포의 어려움을 초래하므로, 검색기(retriever)의 코퍼스 규모 확장이라는 대안 축을 연구할 필요가 있다.
  • Contribution: 본 연구는 다양한 LLM 크기와 검색 코퍼스 규모를 체계적으로 조합하여 RAG 성능 간의 균형과 상쇄관계를 규명하였다.

Method

  • 클루웹22(ClueWeb22) 코퍼스를 12개 샤드로 나누어 검색 코퍼스 규모를 조절하고, 동일한 Qwen3 모델군을 활용하여 LLM 크기에 따른 변화만을 통제하였다.
  • 각 코퍼스 규모와 LLM 크기 조합에 대해 3개의 공개 QA 벤치마크(NQ, TriviaQA, WebQ)에서 F1과 Exact Match(EM) 성능을 평가하였다.
  • 모형-코퍼스 크기 교차 실험 설계 하에서, 작은 규모 LLM이 더 큰 LLM과 동일한 성능을 낼 수 있는 최소 코퍼스 규모를 산출하는 평가 지표를 도입하였다.

Results

  • 실험 결과, 중간 규모 LLM에 대해 코퍼스 규모를 2배 확장하는 것만으로 더 큰 LLM 성능을 넘어서는 경우가 빈번하게 관측되었으며, 이는 검색 문서 수 증대가 LLM 크기 확대를 대체할 수 있음을 입증하였다.

Limitations

  • 매우 작은 LLM에서는 코퍼스 확장의 효율성이 떨어지고, 코퍼스 확장에 따른 성능 향상은 약 5~6배 규모 이후에는 점진적으로 포화하는 한계가 존재하였다.

Conclusion

  • RAG 시스템에서 LLM 크기 확대 대신 검색 코퍼스 규모 확장에 투자하는 것은 비용 효율적이고 실용적인 성능 개선 전략임이 확인되었다.

5. Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling

Alphaxiv

Introduction

  • Goal: 본 연구는 카테고리형 생성 모델링을 위한 연속 증강 이산 확산 모델(Continuously Augmented Discrete Diffusion, CADD)을 제안하는 데 목적이 있다.
  • Motivation: 기존 이산 확산 모델들은 마스크 토큰으로 모든 관측되지 않은 상태를 동일하게 처리하여 중요한 의미 정보가 소실되는 문제점을 갖고 있다.
  • Contribution: CADD는 이산 상태 공간에 연속 잠재 공간을 결합하여 마스크된 토큰 위치에 의미 정보를 보존하고, 더 나은 예측 및 다양한 샘플 생성을 가능하게 하는 새로운 확산 프레임워크를 제안한다.

Method

CADD는 마스크된 이산 토큰에 대해 Gaussian 노이즈가 추가된 연속 잠재 벡터를 페어링하여 정보 손실 없는 점진적 손상을 수행한다.
역확산 단계에서 연속 잠재 공간이 의미적 힌트를 제공하여 이산 토큰 복원 과정을 유도하며, 이는 기존 이산 확산 학습 방식과 호환된다.
샘플링 시 연속 잠재 벡터의 추정 방법 선택으로 다양성과 정밀성 간의 균형을 조절할 수 있다.

Results

텍스트, 이미지, 코드 생성 과제에서 CADD는 기존 마스크 기반 이산 확산 모델 대비 정성·정량적 평가 모두에서 일관된 성능 향상을 보였다.

Limitations

정보 손실 문제 개선을 위해 연속 잠재 공간을 도입하였으나, 구체적인 계산 복잡성 증대 및 최적 샘플링 전략에 대한 제약이 일부 존재한다.

Conclusion

연속 잠재 공간으로 이산 확산 과정의 정보를 부드럽고 점진적으로 보존함으로써 CADD는 다양한 도메인에서 생성 품질과 다양성을 동시에 향상시키는 효과적인 확산 모델임이 입증되었다.

6. Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

Alphaxiv

Introduction

  • Goal: 본 논문은 consistency model(CM)의 학습 동역학을 분석하고 데이터 매니폴드 방향으로 정렬된 접선 벡터를 활용하여 CM의 훈련 효율과 샘플 품질을 개선하는 방법을 제안하고자 한다.
  • Motivation: 기존 CM은 높은 샘플 품질 달성에 긴 훈련시간과 큰 배치 크기가 필요하며, 출력 업데이트 방향(접선)이 데이터 매니폴드에 평행하게 진동하는 현상이 수렴을 지연시키는 문제가 있다.
  • Contribution: 데이터 매니폴드의 기하구조에 기반한 자체 지도 손실 함수인 manifold feature distance(MFD)를 도입하여 CM의 접선을 매니폴드에 정렬시키고, 이를 통해 수렴 속도를 크게 향상시키며 LPIPS 대비 우수한 성능을 달성하였다.

Method

데이터 매니폴드 주변의 변환을 학습하여 각 좌표별 레벨 집합이 매니폴드를 나타내도록 하는 manifold feature map을 신경망으로 학습한다. 이 특징 맵의 야코비안 행렬을 이용해 CM의 업데이트 접선이 데이터 매니폴드 방향으로 정렬되도록 manifold feature distance를 손실 함수로 사용한다. 이를 “Align Your Tangent(AYT)”이라 명명하고, CM의 진동 접선을 억제하여 안정적이고 빠른 학습을 가능하게 한다.

Results

AYT는 CIFAR10과 ImageNet 64×64 데이터셋에서 pseudo-Huber 손실 대비 수렴 속도를 수십 배 단축하고, LPIPS 기반 손실보다 더 나은 FID 점수를 기록하며, 배치 크기를 16까지 낮춰도 경쟁력 있는 성능을 유지하였다.

Limitations

본 연구는 상대적으로 저해상도 데이터셋에서만 실험되었으며, 고해상도 및 대규모 환경 적용에 따른 비용 증가와 추가 네트워크 학습 필요성이라는 제한점이 존재한다.

Conclusion

데이터 매니폴드 구조에 최적화된 tangent 방향 정렬을 통해 consistency model 학습의 안정성과 효율성을 획기적으로 개선하는 실용적이고 강력한 방법을 제시하였다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-10-03
  • Daily Papers — 2025-10-02
  • Daily Papers — 2025-10-01
  • Daily Papers — 2025-09-30
  • Daily Papers — 2025-09-29