Daily Papers — 2025-11-13

1. TiDAR: Think in Diffusion, Talk in Autoregression

Alphaxiv

Introduction

  • Goal: TiDAR는 확산(diffusion)과 자기회귀(autoregression)를 결합하여 높은 처리량과 품질을 동시에 달성하는 시퀀스 수준 하이브리드 언어 모델 아키텍처를 제안하는 것이다.
  • Motivation: 기존 확산 언어 모델은 병렬 생성이 가능하나 품질 저하 문제가 존재하고, 자기회귀 모델은 품질이 우수하나 병렬화에 한계가 있어 두 가지를 균형 있게 결합하고자 하였다.
  • Contribution: 단일 모델과 단일 순전파 내에서 확산으로 토큰을 초안(drafting)하고 자기회귀로 최종 출력을 샘플링하는 병렬 처리 기법과 이를 위한 특수한 구조화된 어텐션 마스크를 설계하였다.

Method

TiDAR는 입력 시퀀스를 프리픽스, 이전 단계에서 초안된 토큰, 다음 단계 초안 토큰 3영역으로 나누고, 특수 어텐션 마스크로 각 영역에 인과적 및 양방향 어텐션을 적용한다.
이 구조는 확산 모드(병렬 초안)와 자기회귀 모드(품질 보장 샘플링)를 하나의 순전파에서 동시에 수행하도록 지원한다.
또한, 손실 함수는 인과 방향과 양방향에서 각각 예측 손실을 결합하며, 확산 영역의 모든 토큰을 마스킹하여 학습과 추론의 효율성을 높였다.

Results

TiDAR 1.5B 모델은 자기회귀 모델과 품질 차이가 없으면서 4.71배의 토큰 처리량 향상을 달성하였고, 8B 모델은 5.91배 속도 향상과 함께 최소한의 품질 저하만을 보였다.

Limitations

초기 적응 단계에서 더 많은 훈련 데이터가 요구될 수 있으며, 제안된 방식을 완전히 이해하고 적용하기까지 복잡한 설계가 필요하다.

Conclusion

TiDAR는 확산과 자기회귀 장점을 단일 모델 내에서 효과적으로 융합하여 고품질·고효율 생성 능력을 확보하는 새로운 언어 모델 아키텍처임이 입증되었다.

2. Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

Alphaxiv

Introduction

  • 본 연구의 목표는 확산 모델의 샘플링 과정에서 신뢰성을 높이기 위한 새로운 주의(attention) 가이드 기법을 제안하는 것이다.
  • 기존 가이드 방법들이 수동적 왜곡에 의존하여 이론적 근거가 부족한 문제점을 해결하고자 하였다.
  • 새로운 방법인 Adversarial Sinkhorn Attention Guidance(ASAG)를 개발하여 최적 수송 이론을 활용해 주의 점수의 의미를 재해석하고, 주의 메커니즘을 의도적으로 교란시키는 가이드 방식을 제안하였다.

Method

본 방법은 확산 모델 내 자기 주의(self-attention)를 최적 수송 문제로 보고, Sinkhorn 알고리즘을 통해 주의 점수를 적대적으로 교란한다.
기존의 유사도 극대화와 달리 쿼리와 키 간의 픽셀 수준 유사도를 최소화하는 비용 행렬을 사용하여 의미론적 정렬을 의도적으로 약화시킨다.
이로 인해 구조적 의미 왜곡 없이 샘플의 품질과 제어력을 동시에 높이는 효율적인 가이드를 구현하였다.

Results

MS-COCO 데이터셋을 활용한 무조건 및 조건부 이미지 생성 평가에서 ASAG는 기존 기법 대비 프리셰 차원 거리(FID), KID, CLIP 점수 등 모든 주요 지표에서 가장 우수한 성능을 보였다.

Limitations

Sinkhorn 알고리즘의 반복 연산으로 인한 계산 비용 증가가 존재하나 최소 2회 반복으로 시간 부담을 크게 완화하였다.

Conclusion

ASAG는 최적 수송 이론에 기반한 이론적 토대와 실용성을 갖춘 새로운 확산 모델 가이드 기법으로, 추가 학습 없이 다양한 조건부 생성 모델과 하위 모듈에 효과적으로 적용 가능함을 입증하였다.

3. Stemming Hallucination in Language Models Using a Licensing Oracle

Alphaxiv

Introduction

  • Goal: 본 연구는 대형 언어 모델에서 발생하는 허위정보 생성(환각)을 구조화된 지식 그래프를 활용한 형식적 검증을 통해 억제하는 방법을 제안하는 데 목적이 있다.
  • Motivation: 기존 통계적 학습 방법들은 환각 문제를 완전히 해소하지 못하며, 트랜스포머 구조의 근본적 한계로 인해 사실 검증이 어려워 신뢰성 확보가 요구된다.
  • Contribution: 본 논문은 SHACL 제약을 적용하여 생성 과정에서 사실성을 검증하는 ‘라이선싱 오라클’ 아키텍처를 도입해, 환각을 결정론적으로 차단하는 구조적 해결책을 제시하였다.

Method

‘라이선싱 오라클’은 지식 그래프 내에서 생성된 주장들을 추출해 SHACL 규칙에 따라 실시간으로 검증하고 부적합한 주장은 생성하지 않도록 하는 검증 계층을 언어 모델 생성 과정에 통합하였다.
기존의 통계적 미세 조정 및 RAG(검색 증강 생성) 방식과 달리, 형식적 제약 조건을 엄격히 적용하여 사실에 부합하는 주장만을 생산할 수 있도록 설계되었다.
질의응답 실험에서 U.S. 강 데이터셋을 사용하였으며, 미세 조정, RAG, 그리고 제안한 라이선싱 오라클 기반의 그래프 RAG 방식을 비교 평가하였다.

Results

라이선싱 오라클은 100% 적절한 절제(abstention precision=1.0)와 0% 오류 발생률(false answer rate=0.0)을 달성하며, 89.1%의 사실응답 정확도를 기록하여 기존 통계적 접근법보다 확실한 환각 억제 효과를 보였다.

Limitations

NER 기반 주장 추출 과정의 오류로 인한 검증 실패 또는 잘못된 승인 가능성 등 추출 정확성 문제는 본 연구에서 충분히 다루어지지 않았다.

Conclusion

라이선싱 오라클은 구조화된 지식과 형식적 제약을 이용해 언어 모델의 생성물을 결정론적으로 검증함으로써 향후 AI 시스템에서 신뢰성 있고 근거 기반의 텍스트 생성을 위한 새로운 방향을 제시한다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-11-12
  • Daily Papers — 2025-11-10
  • Daily Papers — 2025-11-07
  • Daily Papers — 2025-11-06
  • Daily Papers — 2025-11-05