Daily Papers — 2025-10-02

1. SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights

Alphaxiv

Introduction

  • Goal: 본 논문은 대형 언어 모델(LLM)의 후처리 양자화(Post-training quantization, PTQ)를 위한 캘리브레이션이 필요 없는 새로운 저비트 정밀도 가중치 양자화 기법인 SINQ를 제안한다.
  • Motivation: 기존의 4비트 이하 양자화 기법들은 이상치(outliers) 처리 문제로 인해 성능 저하가 나타나며, 특히 캘리브레이션이 없는 균일 양자화 방식에서는 이 문제가 심각하다.
  • Contribution: 본 연구는 행과 열 두 축에 모두 스케일링 인자를 적용하고 Sinkhorn-Knopp 방식의 빠른 알고리즘으로 행과 열의 분산을 정규화하여, 행렬 불균형(matrix imbalance)을 최소화하는 SINQ 방식을 제안한다.

Method

행렬 가중치 타일에 대해 단일 스케일 대신 행과 열 각각에 스케일 벡터를 부여하는 듀얼 스케일링 매개변수를 도입하였다.
행렬 불균형을 최소화하기 위해 행과 열의 표준편차를 교차 정규화하는 Sinkhorn 변형 알고리즘을 사용하여 최적의 스케일을 탐색한다.
또한 캘리브레이션과 비균일 양자화와의 호환성도 확인하여 확장 가능성을 보장하였다.

Results

Qwen3 및 DeepSeek 계열 대형 모델을 대상으로 한 3~4비트 무보정 균일 양자화 실험에서, SINQ는 기존 최첨단 기법 대비 위키텍스트2 및 C4 데이터셋에서 어지럼(perplexity) 지표를 크게 개선하였다.

Limitations

현재 제안 기법은 이상치 완전 제거에는 한계가 있으며, 추가적인 캘리브레이션이나 비균일 양자화와 결합 시 성능 향상이 가능하다.

Conclusion

SINQ는 캘리브레이션이 필요 없는 균일 저비트 양자화에서 기존 방법을 능가하며, 빠르고 아키텍처 독립적인 가중치 변환 기법으로 대형 언어 모델 압축에 효과적임이 입증되었다.

2. GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 GUI 에이전트에서 KV 캐시 압축을 통해 효율적인 추론을 가능하게 하는 방법을 제안하는 것이다.
  • Motivation: GUI 에이전트는 고해상도 스크린샷과 장기적인 작업 처리를 위해 많은 메모리를 소비하며, 기존 캐시 압축 방법은 GUI의 시공간적 중복성을 고려하지 않아 비효율적이다.
  • Contribution: 본 논문은 GUI 에이전트의 주의 집중 패턴을 분석하여 균일한 캐시 예산 할당 전략을 제안하고, 시공간적 인지 기반의 GUI-KV 캐시 압축 방법을 개발하여 복잡한 재학습 없이도 기존 기법 대비 성능 향상과 자원 절감을 달성하였다.

Method

GUI-KV는 시각 토큰의 의미적 중요도를 반영하는 공간적 주목도 지침과 이전 프레임의 중복 정보를 효과적으로 제거하는 시간적 중복도 평가를 결합한 KV 캐시 압축기법이다.
해당 방법은 각 Transformer 계층에 균등한 캐시 예산을 할당하며, L2 노름을 활용한 잔여 스트림 기반 주목도와 QR 분해를 이용한 시공간중복 점수를 조합하여 중요하고 새로운 정보를 유지한다.
GUI-KV는 추가 학습 과정 없이 기존 GUI 에이전트에 플러그인 형태로 적용 가능하다.

Results

6개 벤치마크에서 UI-TARS-1.5-7B와 OpenCUA-7B 모델을 대상으로 평가한 결과, GUI-KV는 10~20%의 캐시 예산만으로도 풀 캐시 성능에 근접하거나 능가하며, 5스크린샷 환경에서 최대 38.9%의 디코딩 연산량 감소와 4.1%의 정확도 향상을 동시에 달성하였다.

Limitations

GUI-KV는 GUI 스크린샷의 시공간적 특성에 최적화되어 있으나, 다른 유형의 비주얼-언어 모델 태스크에 대한 범용성 및 확장성은 추가 연구가 필요하다.

Conclusion

GUI-KV는 GUI 에이전트의 시공간 중복성을 효과적으로 활용하여 KV 캐시를 압축함으로써 메모리 사용량과 계산 비용을 줄이고, 실시간 처리 효율성을 크게 향상시키는 실용적이며 강력한 방법임이 입증되었다.

3. ReSWD: ReSTIR’d, not shaken. Combining Reservoir Sampling and Sliced Wasserstein Distance for Variance Reduction

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 고차원 분포 간의 분산을 줄이면서 효율적인 분포 매칭을 달성하는 새로운 Sliced Wasserstein Distance(SWD) 추정 방법을 제안하는 것이다.
  • Motivation: 기존의 SWD는 몬테카를로 추정 방식을 사용하여 높은 분산으로 인해 노이즈가 많은 그래디언트와 느린 최적화 수렴 문제를 겪는다.
  • Contribution: Weighted Reservoir Sampling 기법을 SWD에 통합한 Reservoir SWD(ReSWD)를 제안하여, 최적화 과정에서 유용한 투영 방향을 지속적으로 유지 및 재가중함으로써 분산 감소와 안정적인 그래디언트를 동시에 달성하였다.

Method

ReSWD는 매 최적화 단계에서 기여도가 높은 1차원 투영 방향을 Weighted Reservoir Sampling을 통해 선택 및 갱신하며, 시간에 따른 중요도 감소(타임 디케이)를 도입하여 최적화 변화에 적응한다. 이렇게 선별한 투영 방향에 대해 중요도 보정 가중치와 함께 SWD를 계산하여 편향 없는 추정치를 유지하고, 필요 시 효과적인 샘플 크기 기반으로 저장소를 초기화한다. 본 방법은 다수의 실험에서 기존 SWD 및 다른 분산 감소 기법 대비 우수한 효율성과 정확도를 보였다.

Results

일반 분포 정합, 색상 보정, 확산 모델 가이드 등 다양한 합성 및 실제 응용에서 ReSWD는 기존 SWD와 최신 분산 감소 기법을 능가하며 빠른 수렴과 높은 품질을 확보하였다.

Limitations

현재 기법은 단순 행렬 기반 투영에 한정되며, 학습 가능한 합성곱 커널 등 보다 복잡한 투영 방식으로 확장 시 성능 저하 문제가 존재한다.

Conclusion

ReSWD는 실시간 렌더링 분야에서 영감을 받은 분산 감소 기법을 효과적으로 적용하여 SWD 최적화에서 효율성과 성능을 동시에 향상시키는 unbiased 기법임이 입증되었다.

4. Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 대형 언어 모델(LLM)의 내부 잠재 표현에서 의미 있는 정보를 추출하기 위한 새로운 해석 기법을 제안하는 것이다.
  • Motivation: 기존 해석 방법들은 출력 어휘에 제한되거나 특징 명명에 어려움이 있어 LLM의 벡터 공간 표현에 대한 이해가 제한적이다.
  • Contribution: 본 연구는 신경망 프로빙과 벡터 기호 아키텍처(VSA)를 결합한 하이퍼디멘셔널 프로브라는 새로운 패러다임을 개발하여 LLM 벡터 공간 내 인간 해석 가능 개념을 효과적으로 디코딩한다.

Method

하이퍼디멘셔널 프로브는 LLM의 잔차 스트림 임베딩을 VSA 하이퍼벡터 공간으로 변환하는 얕은 신경망 인코더를 학습한다. 인코더는 입력 텍스트의 키-값 관계를 하이퍼벡터 결합과 번들링으로 인코딩한 통제된 벡터 공간에 임베딩을 투사한다. 이후 VSA의 해제(binding 해제) 연산을 통해 잠재 벡터에서 개념을 추출하여 해석 가능 정보를 복원한다.

Results

제안된 방법은 다양한 LLM과 임베딩 크기에서 평균 검사 세트 코사인 유사도 0.89, 이진 정확도 0.94를 기록하며, 통제된 유사-유추 문제 및 질의응답 데이터셋(SQuAD)에서 83% 이상의 개념 추출 정확도를 달성하였다.

Limitations

수학 및 추상적 유추 문제에서는 잠재 개념 표현이 낮아 해석 성능이 상대적으로 저하되는 한계가 존재한다.

Conclusion

본 연구는 VSA 기반 하이퍼디멘셔널 프로브를 통해 LLM 벡터 표현의 심층적이고 해석 가능한 정보 추출을 가능케 하여 LLM 내부 이해와 오류 진단에 기여한다.

5. Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 사전 학습된 시각적 인코더를 정렬하여 이미지 생성용 잠재 확산 모델의 토크나이저로 활용하는 것이다.
  • Motivation: 기존의 변분 오토인코더(VAE)는 저수준 디테일에 치중하여 의미론적 구조의 학습이 제한적이므로, 의미론적 구조가 풍부한 기초 인코더를 이용해 확산 친화적 잠재 공간을 설계하고자 한다.
  • Contribution: 3단계 정렬 전략을 제안하여, 고정된 인코더와 어댑터 및 디코더의 학습, 이후 모든 구성요소의 공동 최적화 with 의미 보존 손실, 마지막으로 디코더 세밀 조정을 통해 의미론적으로 풍부하고 재구성 능력이 우수한 토크나이저를 완성하였다.

Method

사전 학습된 시각적 인코더를 고정하여 어댑터와 디코더를 학습함으로써 의미론적 잠재 공간을 구축하는 1단계, 이후 의미 보존 손실을 추가해 인코더, 어댑터, 디코더를 공동 최적화하여 미세한 시각적 세부를 포착하는 2단계, 마지막으로 디코더만을 미세 조정하여 재구성 품질을 향상하는 3단계로 구성된다. 이 과정은 의미론적으로 구조화된 확산 친화적 잠재 공간을 점진적으로 형성한다.

Results

ImageNet 256×256 데이터셋에서 제안된 토크나이저는 확산 모델 학습의 수렴 속도를 5배 이상 가속화하며, FLUX VAE 대비 대규모 LAION 텍스트-이미지 모델 훈련에서 뛰어난 성능을 보였다.

Limitations

제안 방식은 생성을 위한 의미론적 잠재 공간 설계에 성공하였으나, FLUX VAE 대비 재구성 능력은 여전히 부족하며 이는 더 큰 디코더, 채널 수 확장, 추가 학습 등으로 개선 가능하다.

Conclusion

본 연구는 사전 학습된 시각 인코더를 정렬하는 간단하고 확장 가능한 방법을 통해 의미론적으로 풍부하며 확산 친화적인 이미지 토크나이저 설계 패러다임을 제시하였다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-10-03
  • Daily Papers — 2025-10-01
  • Daily Papers — 2025-09-30
  • Daily Papers — 2025-09-29
  • Daily Papers — 2025-09-26