Daily Papers — 2025-10-17
1. When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
Introduction
- Goal: 본 연구는 다국어 및 스팬 단위로 환각(hallucination) 검출을 수행하기 위한 대규모 자동 생성 데이터셋 PsiloQA를 제안하는 데 목적이 있다.
- Motivation: 기존 환각 검출 벤치마크는 주로 영어의 시퀀스 단위에 국한되며, 미세하고 다국어에 걸친 환각 감지가 어려운 문제를 안고 있기 때문이다.
- Contribution: GPT-4o 기반의 자동화 파이프라인으로 14개 언어에 대한 실제 LLM 환각을 포함하는 질문-응답 쌍과 스팬 단위 환각 주석을 대규모로 생성하였으며, 다양한 방법론 비교 및 다국어와 지식 전이 가능성을 보였다.
Method
PsiloQA 데이터셋 생성은 위키피디아 문서에서 GPT-4o를 이용해 다국어 QA 쌍을 생성하고, 여러 LLM이 외부 문맥 없이 답변하여 환각을 유도한 후, GPT-4o가 정답과 비교해 환각 스팬을 자동 주석하는 4단계 파이프라인으로 진행된다. 이 과정에서 불완전하거나 주관적 질문, 대답 거부 케이스를 필터링하였으며, 다국어 및 다양한 모델 답변을 포함해 확장성을 확보하였다. 환각 검출 성능 평가에는 불확실성 정량화, 인코더 기반 모델, LLM 태깅 방법 등을 활용하였다.
Results
Fine-tuned 다국어 인코더 모델(mmBERT, ModernBERT)이 불확실성 정량화 및 LLM 기반 방법을 능가하였고, PsiloQA는 다른 인간 주석 데이터셋보다 약 17배 저렴하면서도 우수한 교차언어 및 지식 전이 성능을 보였다.
Limitations
PsiloQA는 GPT-4o 단일 모델에 의존한 자동 주석으로 인해 주석 편향 가능성과 질문응답(task) 위주의 제한, 환각 유형 다양성 및 언어 자원 불균형 문제를 갖는 한계가 존재한다.
Conclusion
자동화된 다국어 스팬 단위 환각 주석 파이프라인을 통해 경쟁력 있는 대규모 데이터셋을 구축하고 인코더 기반 모델이 우수한 환각 감지 성능을 발휘함을 보여주어 다국어 환각 검출 연구 발전에 기여하였다.
2. WithAnyone: Towards Controllable and ID Consistent Image Generation
Introduction
- 본 연구의 목표는 여러 인물의 신원(ID)을 일관되게 유지하면서 조절 가능한 고품질 이미지를 생성하는 것이다.
- 기존 연구들은 동일 인물의 다양한 표정, 각도, 조명 변화를 반영하지 못하고, 참조 이미지를 단순 복제하는 copy-paste 현상이 문제로 작용하였다.
- 본 논문은 다인 인물 이미지 생성에 적합한 대규모 페어드 데이터셋을 구축하고, 새로운 평가 벤치마크와 대조 신원 손실 기반의 훈련 전략을 제안하였다.
Method
- MultiID-2M 데이터셋은 약 50만 장의 그룹 사진과 수천 명의 인물별 다양한 참조 이미지로 구성되며, 이미지와 신원 간 페어링을 엄격히 수행하였다.
- WithAnyone 모델은 확산 기반 구조를 활용하며, 텍스트 조건 및 ID 정보를 동시에 활용하여 실제 변형 범위 내에서 신원 일관성을 유지한다.
- 훈련은 고정 프롬프트 사전학습, 캡션 포함 사전학습, 페어드 데이터 튜닝, 품질 미세 조정의 4단계로 이루어지며, GT 정렬 ID 손실과 대규모 음성 예제 사용 대조 손실을 통합하였다.
Results
- WithAnyone는 MultiID-Bench 벤치마크 및 비교 모델들과의 평가에서 신원 일치도의 극대화와 copy-paste 현상의 현저한 감소를 동시에 달성하였다.
Limitations
- 모델은 특정 데이터셋에 의존하므로 사회적 다양성이나 드문 인물군 생성 성능에 관한 제한점이 존재한다.
Conclusion
- 본 연구는 신원 복제 문제를 완화하며, 신원 일관성과 조절성을 크게 개선해 다인 이미지 생성 분야의 실용적 발전 방향을 제시하였다.
3. Attention Is All You Need for KV Cache in Diffusion LLMs
Introduction
- Goal: 이 연구의 목표는 확산 기반 대형 언어 모델의 키-값(KV) 캐시 재계산 시점을 적응적으로 결정하여 예측 정확도를 극대화하며 디코딩 지연 시간을 최소화하는 것이다.
- Motivation: 기존 방법은 모든 토큰과 모든 층에 대해 매 디노이징 단계마다 QKV를 재계산하여 불필요한 중복 계산이 발생하는 문제를 가지며, KV 상태 변동이 적은 얕은 층에서는 특히 비효율적이었다.
- Contribution: 본 논문은 주의(attention) 기반 변화량 검사를 통해 캐시 갱신 시기와 층별 갱신 위치를 결정하는 Elastic-Cache라는 비학습적, 구조 독립적 적응형 KV 캐시 갱신 전략을 제안하였다.
Method
Elastic-Cache는 멀리 떨어진 MASK 토큰은 블록 단위로 캐싱하여 불필요한 업데이트를 방지하고, KV 변화량이 큰 깊은 층부터 선택적으로 갱신한다.
가장 많이 주목받는 토큰의 KV 변화량을 낮은 경계로 삼아 캐시 갱신을 판단하고, 슬라이딩 윈도우 기반의 디코딩을 사용하여 인접한 MASK 토큰 간의 상호작용을 효율적으로 처리한다.
이 방법은 고정 주기 갱신과 달리 입력과 단계, 층별 특성을 반영하여 불필요한 재계산을 줄이고 빠른 디코딩을 가능하게 한다.
Results
Elastic-Cache는 LLaDA 계열 모델에서 수학 문제와 코드 생성 과제 등 다양한 벤치마크에서 최대 45.1배의 속도 향상을 보이며, 기존 방법 대비 높은 정확도와 토큰 처리량을 동시에 달성하였다.
Limitations
Elastic-Cache는 모델의 주의 분포와 예측 정확도에 민감하여, 예측 성능이 낮은 경우 최적의 성능이 제한될 수 있다.
Conclusion
Elastic-Cache는 Diffusion LLM의 KV 캐시 활용에서 불필요한 재계산을 제거하여 인퍼런스 효율성을 크게 개선함으로써, 실용적 확산 디코더 배포의 핵심 병목 문제를 해결하였다.
4. PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
Introduction
- Goal: 본 논문은 다양한 언어의 문서 파싱을 위한 고성능이면서 자원 효율적인 비전-언어 모델인 PaddleOCR-VL을 제안하는 데 목적이 있다.
- Motivation: 현대 문서가 복잡한 구조와 다중 요소를 포함하며 다수 언어를 지원해야 하는 점에서 기존 파이프라인 및 종단간 모델들의 한계와 계산 비용 문제를 극복할 필요가 있다.
- Contribution: 본 연구는 NaViT 기반의 동적 고해상도 시각 인코더와 ERNIE-4.5-0.3B 언어 모델을 결합한 0.9B 크기의 초경량 VLM 아키텍처와 고품질 학습 데이터 구축 방법론을 제시하였다.
Method
PaddleOCR-VL은 문서 레이아웃 분석을 위한 경량 모델 PP-DocLayoutV2와 요소 인식을 위한 PaddleOCR-VL-0.9B 두 단계로 구성된다. PP-DocLayoutV2는 RT-DETR 기반의 객체 탐지와 포인터 네트워크를 활용해 레이아웃 요소 위치 및 읽기 순서를 예측하며, PaddleOCR-VL-0.9B는 NaViT 스타일의 동적 해상도 시각 인코더와 경량 ERNIE 언어 모델을 결합해 다중 요소 인식을 수행한다. 고품질 데이터를 위해 대규모 공개 데이터와 합성 데이터, 자동 주석화 및 어려운 케이스 임베딩 과정을 체계적으로 운영하였다.
Results
PaddleOCR-VL은 OmniDocBench v1.0, v1.5 및 olmOCR-Bench에서 기존 파이프라인 도구, 일반 및 특수 VLM 대비 모든 요소 인식 및 문서 파싱 지표에서 최첨단 성능을 기록하였다.
Limitations
현재 논문 및 실험에서는 특정 길거나 극도로 복잡한 문서에서의 성능 한계에 대한 구체적 분석이 부족하다.
Conclusion
PaddleOCR-VL은 다국어와 복잡한 문서 환경에서 자원 효율적이며 정확한 문서 파싱을 구현함으로써, 실무적 배치에 적합한 최첨단 문서 이해 솔루션임을 입증하였다.
5. Large Language Models Do NOT Really Know What They Don’t Know
Introduction
- Goal: 본 연구의 목적은 대형 언어 모델(LLM)이 내부 상태를 통해 자신의 무지(모르는 내용)를 정확히 인식하는지 기계적 분석을 수행하는 것이다.
- Motivation: 최근 연구들은 LLM이 내부 표현에 사실성 신호를 내포한다고 제시하지만, 같은 학습 목표가 오류 생성도 유발하여 내부 계산이 사실과 허구를 구분할 수 있는지 의문점이 제기되었다.
- Contribution: 본 논문은 주체 정보에 기반한 허구 출력 유형을 구분하여 LLM 내부에서 사실적 응답과의 처리 차이를 분석하고, 사실성 검출 기법들의 한계와 거절 튜닝의 효용 한계를 규명하였다.
Method
- LLaMA-3 및 Mistral 모델을 대상으로 인과 분석법을 활용하여 주체 토큰과 최종 출력 토큰의 숨겨진 상태에서 사실적 지식 회상에 중요한 부분을 추출하고, 관련 허구 및 비관련 허구 출력의 내부 계산 패턴을 비교하였다.
- 주체 표현의 노름, 주체-최종 토큰 간 어텐션 기여도, 최종 토큰의 표현 분포 특성을 계층별로 분석하여 허구 유형별 동작 메커니즘을 규명하였다.
- 내부 상태 활용 및 확률 기반 검출기, 거절 튜닝 기법의 성능을 세 가지 유형의 지식(사실, 연관 허구, 비연관 허구) 검증 데이터셋으로 평가하였다.
Results
내부 상태 및 확률 정보 모두 연관 허구(주체 지식 의존 오류)를 사실적 응답과 구분하지 못하는 반면, 비연관 허구(주체 지식 무관 오류)는 효과적으로 식별 가능한 것으로 나타났다.
Limitations
본 연구는 사실 완성 문제에 한정되어 있으며, 장문 생성이나 개방형 생성 과제에 대한 일반화 가능성은 추가 연구가 필요하다.
Conclusion
LLM의 내부 상태는 진실성 자체를 인코딩하지 않고 지식 회상 패턴만 반영하므로, LLM은 자신이 모르는 것을 실제로 인지하지 못하며, 허구 검출과 거절 대응에 근본적 한계가 존재한다.
6. LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
Introduction
- Goal: 본 연구는 다단계 추론 과정에서 작은 언어 모델의 효율성을 높이기 위한 지연시간 인지형 계층 건너뛰기(Latency-aware Layer Skipping) 기법인 LiteStage를 제안하는 데 목적이 있다.
- Motivation: 기존 적응형 가속화 기법들은 다단계 추론 시 단계별 건너뛰기 민감도의 차이와 불필요한 토큰 생성으로 인해 효율성과 정확도 간 균형을 맞추기 어려웠다.
- Contribution: LiteStage는 단계별 오프라인 최적 계층 예산 할당과 온라인 신뢰도 기반의 조기 종료 기법을 결합하여 다단계 추론에서 지연시간을 줄이면서 정확도 손실을 최소화하는 새로운 계층 건너뛰기 프레임워크이다.
Method
LiteStage는 (1) 코사인 유사도를 활용한 서브레이어 단위 중요도 추정으로 계층 건너뛰기 우선순위를 정하고, (2) 가장 느린 추론 단계부터 빠른 단계 순으로 정확도 기준 내에서 지연시간을 최소화하는 최적 계층 예산을 탐색하는 오프라인 설정과, (3) 토큰 신뢰도가 일정 임계값 이하로 떨어질 경우 조기 종료하여 불필요한 생성 연장을 방지하는 온라인 조정 단계로 구성된다.
Results
OBQA, CSQA, StrategyQA 세 가지 벤치마크에서 LiteStage는 이전 훈련 필요 없는 계층 건너뛰기 기법들을 능가하며 최대 1.70배의 추론 가속도와 4.0% 이하의 정확도 손실을 달성하였다.
Limitations
계층 예산 탐색 단계가 기존 방법 대비 추가 계산 비용을 요구하며, 본 연구는 주로 라마(Llama) 계열 모델에 국한되어 있어 다른 소형 언어 모델 아키텍처에 대한 확장 연구가 필요하다.
Conclusion
LiteStage는 단계별 민감도와 생성 신뢰도를 고려한 지연시간 인지 계층 건너뛰기 및 조기 종료를 통해 다단계 추론에서 효율성과 정확도의 균형을 극대화하는 효과적인 기법임이 입증되었다.
7. The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
Introduction
- Goal: 본 연구는 독일어 대형 언어 모델 훈련을 위한 명확하게 개방 허가된 1540억 토큰 분량의 최대 독일어 텍스트 코퍼스인 German Commons를 구축하는 것을 목표로 한다.
- Motivation: 다수의 대형 언어 모델 훈련 데이터는 라이선스 명확성이 부족하여 완전 개방형 모델 개발을 제한하며, 특히 비영어권 언어는 개방 허가된 텍스트가 극히 부족하다.
- Contribution: 다양한 출처의 법률, 과학, 문화, 정치, 뉴스, 경제, 웹 텍스트 7개 분야에서 엄격한 품질 관리와 라이선스 검증을 거쳐 일관된 고품질 데이터를 제공하는 최초이자 최대 규모의 독일어 개방 라이선스 코퍼스와 데이터 처리 코드를 공개한다.
Method
데이터 소싱은 국립 도서관, 정부 기관, 학술 기관, 위키미디어 등 검증된 공급자로부터 명확한 개방 라이선스가 적용된 문서를 확보하였다.
ETI 마크업 제거, OCR 오류 보정, 텍스트 정규화, 독일어 자동 분류와 길이·품질·중복 필터링을 순차 적용하여 텍스트 품질을 일관되게 유지하였다.
또한, 개인정보 식별 정보(PII)를 검출 및 대체하고, 문서별 라이선스 정보를 표준화하여 재사용과 재배포가 법적으로 문제가 없도록 하였다.
Results
총 3578만 문서, 1545억 토큰 규모로 구성된 German Commons는 공공 도메인, 저작자 표시, 공유동일조건 라이선스에 기반하여 독일어 텍스트 최대 집합을 제공하며, 다양한 도메인과 서술 스타일을 포함하여 개방 독일어 모델 훈련에 적합함을 확인하였다.
Limitations
코퍼스는 18~20세기 중심의 역사적 텍스트에 편중되어 현대어 표현과 최신 용어에 대한 대표성에 한계가 존재한다.
Conclusion
German Commons는 라이선스가 명확한 대규모 독일어 텍스트 자료를 제공함으로써 개방형 독일어 대형 언어 모델 개발의 법적·윤리적 장벽을 크게 완화하고, 학술 및 산업계의 개방 모델 연구를 촉진한다.
8. Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
Introduction
- Goal: 본 연구는 근접한 인간-인간 상호작용 자세를 기반으로 다양하고 현실적인 상호작용 애니메이션 생성을 목표로 한다.
- Motivation: 근접 상호작용 자세는 상호작용의 시간적, 공간적 맥락을 풍부하게 담고 있어 행동의 과거와 미래 동적 변화를 직관적으로 추론할 수 있기 때문이다.
- Contribution: 본 논문은 모션 캡쳐 데이터에서 학습한 상호작용 자세 사전지식을 활용하는 Ponimator 프레임워크를 제안하여, 텍스트, 단일 자세, 또는 두 사람 이미지 입력으로부터 상호작용 자세 및 동작 애니메이션을 효과적으로 생성할 수 있음을 보였다.
Method
Ponimator는 두 가지 조건부 확산 모델로 구성된다: (1) 상호작용 자세를 중심으로 과거와 미래 동작을 생성하는 자세 애니메이터, (2) 단일 자세와 텍스트 입력을 받아 상호작용 상대 자세를 생성하는 자세 제너레이터이다. 이들은 고품질의 3D 모션 캡쳐 데이터에서 추출한 근접 두 사람 상호작용 자세와 그 주변 동작 시퀀스를 학습에 사용하였다. 자세 애니메이터는 Transformer 기반 구조를 활용하여 공간 및 시간적 정보를 효과적으로 모델링하였다.
Results
Ponimator는 Inter-X 및 Dual-Human 데이터셋에서 기존 방법 대비 동작 질과 접촉 비율에서 현저히 우수한 성능을 보였으며, 단일 인물 이미지나 텍스트 기반 입력을 통해 다채로운 상호작용 애니메이션을 생성하고 다양한 외부 데이터셋에도 일반화 가능함을 실험적으로 입증하였다.
Limitations
제안 방법은 주로 짧은 시간 제한의 근접 상호작용에 집중하며, 배경 장면 정보는 고려하지 않고 자세 추정 오류에 의한 접촉 불일치나 관절 침투 문제가 발생할 수 있다.
Conclusion
Ponimator는 상호작용 자세를 중심으로 텍스트와 이미지 입력으로부터 실제감 높은 인간-인간 상호작용 애니메이션을 생성하는 강력하고 범용적인 프레임워크임을 제시하였다.
9. Predicting Task Performance with Context-aware Scaling Laws
Introduction
- Goal: 본 논문은 훈련 컴퓨트와 제공된 문맥 길이를 고려하여 대형 언어모델(LLM)의 다운스트림 작업 성능을 예측하는 해석 가능한 프레임워크를 제안하는 것을 목표로 한다.
- Motivation: 기존의 스케일링 법칙은 상류 지표를 기반으로 하나 문맥에 따른 실제 작업 성능 변화를 반영하지 못한다는 한계가 존재한다.
- Contribution: 본 연구는 문맥 길이와 문맥 한계를 포함하여 확장된 스케일링 법칙을 개발하고, 이를 Llama-2 모델을 활용한 세 가지 작업에서 실험적으로 검증하였다.
Method
다운스트림 성능은 훈련 컴퓨트와 입력 문맥 길이에 따른 포화하는 멱법칙(power-law) 함수의 곱으로 모델링되며, 문맥 한계를 넘을 경우 성능 하락을 반영하는 시그모이드 패널티 항이 추가된다.
Llama-2-7B 및 13B 모델을 대상으로 YaRN 방식을 통해 문맥 한계를 확장하고, 산술 추론, 상식 추론, 기계 번역 세 가지 작업에서 65,500개 데이터 인스턴스에 대해 모델을 적합하였다.
Results
제안한 프레임워크는 세 작업 모두에서 평균 절대 예측 오차가 0.01 내외로 매우 낮으며, 컴퓨트, 문맥 길이, 문맥 확장 기법에 걸쳐 강력한 일반화 성능을 보였다.
Limitations
본 프레임워크는 극단적 스케일링이나 적대적 공격 상황 등 일부 변칙적 조건에서의 적용 한계와 사전 훈련 데이터 구성, 미세 조정, 아키텍처 설계 요인의 영향 미반영 등 제한점이 존재한다.
Conclusion
해당 연구는 훈련 컴퓨트와 문맥 길이를 통합한 직관적 스케일링 법칙을 통해 실제 다운스트림 작업 성능을 효과적으로 예측함으로써 장기 문맥 LLM 설계에 실용적 지침을 제공한다.
10. Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning
Introduction
- Goal: 본 연구는 Transformer 네트워크에서 훈련 분포를 벗어난(out-of-distribution, OOD) 일반화 능력을 강화하는 구조적 메커니즘을 탐구하는 것이다.
- Motivation: 기존 Chain-of-Thought(이하 CoT) 기반 Transformer 모델은 알고리즘적 길이 일반화에 한계가 있어 복잡도가 높은 문제에 대한 견고한 OOD 성능 확보가 어려웠다.
- Contribution: 입력 적응 재귀, 알고리즘 감독, 이산화된 잠재 공간 고정, 오류 수정 메커니즘의 네 가지 구조적 방법을 제안하여 Transformer의 재귀적 잠재 공간 추론을 통한 견고한 OOD 일반화를 가능하게 하였다.
Method
본 방법은 재귀 Transformer 블록을 활용하여 문제의 계산 그래프를 층별로 점진적으로 해결하며, 각 반복 단계에서 잠재 상태에 알고리즘적 감독을 수행한다. 잠재 공간 표현은 네 가지 상징적 요인별로 이산화하여 반복 간 표현 변화를 최소화하고, 학습 과정에서는 고의적 오류를 주입하여 모델이 스스로 오류를 인지하고 수정할 수 있도록 함으로써 안정성을 향상한다.
Results
제안된 아키텍처는 GSM8K와 유사한 모듈러 산술 계산 그래프 문제에서 훈련 크기 대비 최대 4배 규모의 입력에서도 완벽한 OOD 일반화를 달성하였다.
Limitations
초기 CoT 기법과 비교 시 개선되었으나, 본 연구는 복잡한 자연어 문제나 실제 대규모 언어 모델 적용에 대한 검증은 미흡하다.
Conclusion
재귀 구조와 이산화 기반 잠재 공간 감독, 오류 교정 메커니즘의 결합은 Transformer 모델의 알고리즘적 OOD 일반화를 효과적으로 지원함으로써 재귀적 잠재 공간 추론을 가능케 한다.
11. RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
Introduction
- Goal: 본 논문은 기반 정보에 따라 선택적 거부(selective refusal)를 평가하는 생성적 평가 방법론을 제안하는 것을 목표로 한다.
- Motivation: 현존하는 최첨단 언어 모델들이 다중 문서 상황에서 선택적 거부 정확도가 50% 이하로 떨어지는 등 안전성 측면에서 심각한 실패를 보이며, 정적 벤치마크는 해당 능력을 신뢰성 있게 평가하지 못하기 때문이다.
- Contribution: 176개의 언어학적 변형 전략과 6가지 정보 불확실성 범주를 포함한 RefusalBench라는 생성적 평가 프레임워크 및 관련 벤치마크 두 가지를 공개하였다.
Method
선택적 거부를 정보 불확실성(모호성, 모순, 정보 누락 등) 여섯 범주로 체계화하여 각 범주별 3단계 강도의 총 176개 변형 전략으로 기존 질의-응답 데이터를 변형하였다.
여러 대형 언어 모델을 활용한 생성-검증 파이프라인을 통해 변형의 품질을 엄격히 평가하고 합의된 사례만 최종 평가 데이터로 채택하였다.
정적 벤치마크의 한계를 극복하기 위해 평가 시마다 새롭게 생성된 변형 샘플들로 동적·오염 저항적 평가를 구현하였다.
Results
30여 개 이상의 언어 모델 평가 결과, 최첨단 모델군도 다중 문서 과제에서 정확한 거부 기준을 적용하는 데 어려움을 겪으며, 선택적 거부는 탐지와 분류라는 별개 능력으로 구성되고 규모 확장이나 추론 능력 강화만으로는 성능 향상이 이루어지지 않는 것으로 나타났다.
Limitations
생성된 벤치마크는 프로그램 기반 합성 변형에 의존하며 실제 세상에서 발생하는 복잡하고 미묘한 불확실성을 완전하게 반영하지 못하고, 영어 텍스트에만 국한되어 있으며, RAG 시스템의 전체 파이프라인과 통합된 평가를 수행하지 않았다.
Conclusion
선택적 거부는 모델의 중요한 결함이며, 훈련과 정렬에 민감하게 반응하는 능력으로서 독립적으로 확장 가능하므로, 본 연구에서 제시한 생성적 평가 패러다임은 안전 관련 복잡 능력의 지속 가능한 측정과 개선을 위한 중요한 발판이다.
12. Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
Introduction
- Goal: 본 연구의 목표는 대규모 언어 모델(LLM)의 추론 속도를 높이기 위해 Mirror Speculative Decoding (Mirror-SD)이라는 새로운 추측 디코딩 방식을 제안하는 것이다.
- Motivation: 기존 추측 디코딩 방식은 초안(draft) 생성과 검증(target) 단계의 직렬적 의존성으로 인해 속도 향상의 한계에 직면하며, 이 문제는 서로 다른 가속기에서의 병렬 처리를 충분히 활용하지 못한 데 기인한다.
- Contribution: Mirror-SD는 이종 가속기(GPU와 NPU)를 활용해 초안과 타겟 연산을 병렬로 수행하고 토큰 단위의 경량 채널을 통해 상호 검증하며, 이를 통해 지연 시간과 수용률(trade-off)을 극복하는 시스템-알고리즘 공동 설계를 제안하였다.
Method
Mirror-SD는 타겟 모델의 중간 레이어에서 조기 종료 신호를 기반으로 다중 후보 토큰 트리(branch-complete rollout)를 생성하여 초안에서 병렬로 확장하고, 타겟 모델은 후처리 검증과 보정 경로 생성을 수행하는 양방향 추측 과정을 구현한다. 또한 초안 모델은 Speculative Streaming(SS)을 활용해 한 단계당 다중 토큰을 생성함으로써 초안 생성 지연을 줄이고 수용률을 유지한다. 이 방법은 Megatron 방식의 GPU 타겟과 SPD 아키텍처 기반의 NPU 초안을 이종 가속기 환경에 효율적으로 분배하여 실행한다.
Results
SpecBench 벤치마크에서 14B에서 66B 파라미터 모델을 대상으로 Mirror-SD는 기존 최고 성능 기법 대비 30% 향상된 2.8배에서 5.8배까지 실제 엔드투엔드 시간 가속을 보였다.
Limitations
정보 부족
Conclusion
Mirror Speculative Decoding은 이종 가속기를 활용한 병렬 초안 및 타겟 처리와 경량 토큰 채널 교환을 통해 대규모 LLM 추론의 직렬 병목을 효과적으로 극복하며, 저지연 고속 추론을 실현할 수 있음을 입증하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: