Daily Papers — 2025-09-03"
1. The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
Introduction
- Goal: 본 논문은 대규모 언어 모델(LLM)을 자율적 의사결정 에이전트로 전환하는 에이전트 강화학습(Agentic RL)의 개념적 전환과 연구 동향을 체계적으로 조사하는 데 목적이 있다.
- Motivation: 기존 LLM 강화학습은 단일 단계의 정적인 출력 생성에 집중하여 실제 동적 환경에서의 연속적 의사결정과 적응 능력을 반영하지 못하는 한계가 존재한다.
- Contribution: Agentic RL의 POMDP 기반 형식화, 핵심 능력 중심 분류 체계, 다양한 응용 분야 및 공개 환경과 벤치마크를 통합하는 실용적 제공, 향후 연구 방향 제시를 통해 분야 발전을 촉진한다.
Method
Agentic RL은 전통적 LLM-RL의 단일 단계 Markov 결정 과정(MDP)과 달리 부분 관찰 가능한 장기 의사결정 문제(POMDP)로 모델링된다.
이 패러다임은 계획, 도구 사용, 기억, 추론, 자기개선, 지각 등의 핵심 능력을 강화학습으로 공동 최적화하는 능력 중심 분류 체계를 기반으로 한다.
또한 PPO, DPO, GRPO 등 다양한 RL 알고리즘을 통한 정책 최적화와 최근 개발된 다중 변형기법들의 효과적 활용을 제안한다.
Results
500개 이상의 최신 연구를 종합하여 Agentic RL이 동적 환경에서 LLM 에이전트의 자율적 행동과 장기 인지 능력을 향상시킨다는 점을 입증하였다.
Limitations
본 조사에서는 인간 가치 조정이나 전통적인 MARL 등 LLM 이외 RL 연구는 범위에서 제외되어 있어 해당 분야와의 통합적 고찰은 제한적이다.
Conclusion
Agentic RL은 LLM을 고도화된 적응적 의사결정 에이전트로 진화시키는 핵심 기술로 부상하며, 확장 가능한 일반 목적 에이전트 개발에 중요한 연구 방향을 제시한다.
2. UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
Introduction
- Goal: 본 논문은 그래픽 사용자 인터페이스(GUI) 에이전트의 성능 향상을 위해 다중 턴 강화학습 기반의 UI-TARS-2 모델을 제안하는 것을 목표로 한다.
- Motivation: 기존 GUI 에이전트는 데이터 확장성, 다중 턴 강화학습 불안정성, GUI만으로는 한계가 있는 작업 수행 환경, 대규모 환경 안정성 문제 등 여러 한계에 직면하였다.
- Contribution: UI-TARS-2는 데이터 플라이휠, 안정적 다중 턴 강화학습 프레임워크, GUI와 외부 리소스를 통합한 하이브리드 환경, 통합 샌드박스 플랫폼을 통해 이 문제들을 체계적으로 해결하였다.
Method
UI-TARS-2는 사고-행동-관찰(ReAct) 패러다임을 따르는 에이전트 정책으로, 단기 작업 메모리와 장기 에피소드 메모리를 활용하여 장기 추론을 수행한다.
대규모 데이터 생성을 위한 데이터 플라이휠 파이프라인과 인간-모델 협업 기반의 온라인 인터랙티브 주석 시스템을 개발하였다.
또한, GUI 조작뿐만 아니라 파일 시스템과 터미널 연동을 지원하는 하이브리드 샌드박스 환경과 다중 턴 강화학습을 위한 비동기 서버 롤아웃 기반 훈련 인프라를 구축하였다.
Results
UI-TARS-2는 GUI 벤치마크에서 Online-Mind2Web 88.2, OSWorld 47.5, WindowsAgentArena 50.6, AndroidWorld 73.3을 달성하였으며, 게임 도메인에서는 인간 성능의 약 60% 수준인 평균 59.8점으로 강력한 기존 모델들을 능가하였다.
Limitations
다중 턴 강화학습 환경에서 보상 신호 희소성과 긴 시퀀스 최적화의 불안정성은 여전히 해결해야 할 과제로 남아있다.
Conclusion
UI-TARS-2는 GUI 에이전트 연구에 실질적인 발전을 제공하며, 다양한 실세계 인터랙티브 시나리오에 효과적으로 일반화될 수 있음을 입증하였다.
3. SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
Introduction
- Goal: 본 연구의 목적은 강화학습을 통해 다중 회차 Tool-Integrated Reasoning(TIR)에서 대규모 언어모델의 학습 안정성과 성능을 향상하는 것이다.
- Motivation: 기존 다중 회차 TIR 강화학습은 외부 도구 피드백으로 인한 확률 분포 편향과 낮은 확률 토큰 발생으로 인해 학습 불안정과 기울기 폭주 현상이 빈번하게 발생하는 문제를 안고 있었다.
- Contribution: 본 논문에서는 이러한 문제를 해결하기 위해 ‘void turn’이라 정의한 불완전한 응답을 포함하는 경로를 필터링하는 SimpleTIR 알고리즘을 제안하여 학습 안정성을 확보하고 수학 문제 해결 성능을 크게 향상시켰다.
Method
본 연구는 다중 회차 TIR를 계층적 MDP로 모델링하고, 정책 업데이트 시 void turn이 포함된 전체 경로를 완전히 배제하는 경로 필터링 기법을 적용한다. 이를 통해 낮은 확률 토큰으로 인한 기울기 폭주 및 비정상 신호가 정책 업데이트에 미치는 영향을 차단하였다. 또한, 도구 출력에 간단한 접두사를 추가하고 코드 블록 내에 종료 함수 삽입 등을 통해 학습 효율성과 안정성을 보장하였다.
Results
SimpleTIR은 Qwen2.5-7B 기반 모델에서 AIME24 점수를 텍스트 전용 22.1에서 50.5로 대폭 향상시키며, 강화학습 기반 다중 회차 TIR에서 최첨단 성능을 달성하였다.
Limitations
void turn 기준 필터링이 다중 회차 TIR 외의 다른 작업에 그대로 적용되기 어려우며, 최대 회차 수 제한과 코드 실행 샌드박스 의존성 등 추가 개선 필요성이 존재한다.
Conclusion
SimpleTIR은 다중 회차 TIR 강화학습에서 경로 필터링을 통해 안정적인 학습과 우수한 문제 해결 능력을 동시에 달성하며, 냉시작 기반의 감독학습 없이 다양한 추론 패턴의 자율 발견을 가능하게 하는 효과적인 강화학습 프레임워크임이 확인되었다.
4. LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
Introduction
- Goal: 본 연구의 목표는 기존의 평가자(critic) 모델을 강화학습을 통해 응답 생성 능력을 갖춘 강력한 정책(policy) 모델로 전환하는 것이다.
- Motivation: 전통적으로 평가자 모델은 응답 평가에만 사용되며 생성 모델과 분리되어 있었으나, 이 두 기능을 통합하여 성능 향상 가능성을 탐구하고자 한다.
- Contribution: RL(Reinforcement Learning) 기반 새 학습 패러다임을 제시하여, LLaVA-Critic-R1이 우수한 평가자 역할뿐 아니라 다양한 시각-언어 문제에서 최첨단 수준의 정책 모델 성능을 동시에 달성함을 보였다.
Method
- 40,000개의 쌍별 선호 데이터에서 GPT가 제공한 평가 및 추론 근거를 제거하고, 응답을 비교하여 우수한 답변을 정량적 보상으로 삼아 강화학습을 수행하였다.
- GRPO(Group Relative Policy Optimization) 방식을 적용해 기저 생성 모델(Qwen-2.5-VL-7B)을 직접 미세조정하여 LLaVA-Critic-R1을 도출하였다.
- 추가로 강력한 추론 모델(ThinkLite-VL)에 같은 절차를 적용해 LLaVA-Critic-R1+를 개발하여 정책과 평가자 성능을 동시에 향상시켰다.
Results
- LLaVA-Critic-R1은 26개 시각 추론 및 이해 벤치마크에서 기저 모델 대비 평균 +5.7% 성능 향상뿐만 아니라, 기존 전문 정책 모델과 동등하거나 우수한 결과를 보였으며, 테스트 시 자기 평가(self-critique)를 통한 성능 향상도 확인되었다.
Limitations
- 현 단계에서 평가자 능력이 최적화되지 않아, 테스트 타임 자기 비평에서도 정확 답변 식별에 여전히 제한이 존재한다.
Conclusion
- 강화학습을 통한 평가자 데이터 기반 훈련은 정책 및 평가자 기능을 통합해 스케일 가능하고 자기 개선 가능한 다중모달 모델 개발의 효과적 경로임을 입증하였다.
5. ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
Introduction
- Goal: 본 연구는 장시간 영상 이해 과정에서 발생하는 의미 집계 환각(Semantic Aggregation Hallucination, SAH)을 체계적으로 평가하기 위한 벤치마크 ELV-Halluc을 제안하는 데 목표가 있다.
- Motivation: 기존 영상 환각 평가들은 주로 단편 영상에 초점을 맞추었으며, 프레임 단위 의미는 정확하지만 이벤트 간 의미 집계 과정에서 발생하는 환각 문제를 간과하였다.
- Contribution: 장시간 영상 내 다중 이벤트의 복잡한 의미적 상호작용으로 인한 SAH 현상을 최초로 정의하고, 이를 정량화할 수 있는 사건 기반 QA 쌍과 평가 지표를 포함하는 ELV-Halluc 벤치마크를 개발하였다.
Method
ELV-Halluc은 2~10개의 분리된 이벤트로 구성된 348편의 장시간 영상을 대상으로 하며, Gemini 2.5 Flash를 활용한 반자동 자막 생성 및 인간 검수를 거쳐 고품질의 정답 및 환각 자막을 확보하였다.
환각 자막은 같은 영상 내 다른 이벤트에서 의미를 대체한 ‘인-비디오 환각’과 영상 외부에서 조작한 ‘아웃-오브-비디오 환각’으로 구분되며, 이 두 유형 간 정확도 차이를 통해 SAH 비율을 산출한다.
또한, 모델 성능 향상을 위해 위치 인코딩 강화와 직접 선호 최적화(Direct Preference Optimization, DPO) 기법을 도입하여 SAH 완화 방안을 제안하였다.
Results
14개의 공개 및 2개의 비공개 멀티모달 대형언어모델(MLLM)을 대상으로 한 실험 결과, SAH는 의미 복잡성 및 급변하는 시맨틱 속성에서 증가하며, 위치 인코딩과 DPO 적용 시 최대 27.7%의 SAH 비율 감소와 더불어 전반적인 성능 향상이 관찰되었다.
Limitations
본 연구는 Gemini 기반 반자동 자막 생성에 따른 편향 가능성과 실제 장시간 영상 데이터와 차이가 있는 이벤트 기반 구성, 그리고 높은 주석 비용으로 인한 데이터 규모 제한이라는 한계를 가진다.
Conclusion
ELV-Halluc 벤치마크와 함께 SAH 현상의 실태를 규명하고 효과적인 완화 전략을 제시함으로써, 신뢰성 있는 장시간 영상 이해 연구를 위한 핵심 기반을 마련하였다.
6. VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
Introduction
- Goal: 본 논문은 에이전트 강화학습(Agentic Reinforcement Learning)에 다양한 도구(tool) 사용을 통합하여 다중 턴 상호작용을 효과적으로 지원하는 통합 프레임워크 VERLTOOL을 제안하는 것이다.
- Motivation: 기존 강화학습 시스템은 단일 턴 상호작용과 도구 미통합에 한계가 있으며, 기존 에이전틱 강화학습 도구 사용(ARLT) 연구들은 도메인별 코드베이스 편중, 동기식 실행에 따른 병목 현상, 확장성 제한 문제를 겪어왔다.
- Contribution: VERLTOOL은 VERL과의 상위 호환성을 확보하고, 다양한 도구를 표준화된 API로 관리하며, 비동기식 롤아웃 실행으로 약 2배의 속도 향상과 6개 ARLT 도메인에서 경쟁력 있는 성능을 달성하는 구조적이고 모듈화된 체계를 제공한다.
Method
VERLTOOL은 다중 턴의 다중 모달 관찰(텍스트, 이미지, 비디오)을 처리하는 ARLT를 RLVR의 단일 턴 구조에서 확장하였다.
도구 호출을 정규화된 API 기반 플러그인 형태로 구현하고, RL 훈련과 도구 서버를 분리하여 독립적 관리 및 비동기 실행을 가능하게 하였다.
롤아웃 단계에서 툴 호출을 각각 독립적으로 처리하여 GPU 및 CPU 사용률을 극대화하고 시스템 지연을 감소시키는 비동기 처리 방식을 도입하였다.
Results
VERLTOOL 기반 모델은 수학 추론, 지식 질의응답, SQL 생성, 시각 추론, 웹 검색, 소프트웨어 공학의 6개 주요 ARLT 과제에서 전문 시스템과 동등하거나 더 우수한 성능을 보였다.
Limitations
정보 부족
Conclusion
VERLTOOL은 도구 사용이 가능한 다중 모달 에이전틱 강화학습의 확장성과 효율성을 보장하는 기반 프레임워크를 제공하여, 관련 연구 및 응용 개발의 가속화를 기대하게 한다.
7. POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
Introduction
- 본 논문의 목표는 외부 모델로부터 지식을 증류하지 않고도 대규모 고품질 문서 변환 데이터셋과 모델을 자동으로 구축하는 프레임워크를 제안하는 것이다.
- 복잡한 문서 형식(표, 수식, 다단 구성 등)에 대해 수작업 라벨링이 비용과 시간이 많이 들고, 기존 자동 라벨링 방법들이 정확성에 한계가 있어 증류 기반 학습이 현장 성능을 제한하는 문제를 해결하고자 한다.
- 본 연구는 통일된 출력 형식의 대규모 합성 데이터 생성과 실제 문서에 대한 자기 개선(Self-improvement) 반복 학습 단계를 결합한 증류 없는 완전 자동화 문서 변환 모델 학습 파이프라인을 제안한다.
Method
첫째, 다양한 문서 요소(일반 텍스트, 표, 수식)를 통일된 형식(Markdown, HTML, LaTeX)으로 표현하여 대규모 합성 데이터셋을 생성하고 이를 통해 Vision-Language 모델(POINTS-1.5)을 초기 학습시켰다.
둘째, 초기 모델로 실제 문서에 의사 라벨을 생성하고, 텍스트, 표, 수식의 품질 검증용 필터링 전략을 적용하여 고품질 데이터를 선별 후 반복 재학습하는 자기 개선 단계를 수행하였다.
이 과정을 여러 차례 반복하여 모델의 문서 변환 능력과 데이터 품질을 점진적으로 향상시켰다.
Results
POINTS-Reader 모델은 여러 벤치마크에서 Qwen2.5-VL-72B 등 크기가 크거나 동등한 공개 및 독점 모델보다 우수한 성능을 보였으며, 특히 표 인식 정확도와 전반적인 문서 변환 품질에서 뛰어난 결과를 나타냈다.
Limitations
현재 모델은 영어만 지원하며, 인쇄체 데이터 위주 학습으로 필기체 인식 성능이 미흡하고, 텍스트, 수식, 표만 추출 가능하며 이미지 위치 인식 등은 미지원한다.
Conclusion
본 연구는 모델 증류 없이 합성 및 실문서 기반 자기 개선 데이터셋 구축 방식을 통해 효율적이고 확장성 있는 고성능 문서 변환 모델을 개발하여 최신 벤치마크에서 최첨단 성능을 달성하였다.
8. Baichuan-M2: Scaling Medical Capability with Large Verifier System
Introduction
- 본 논문의 목표는 동적 검증 시스템을 활용하여 의료 분야에 특화된 대형 언어 모델의 임상 적용 능력을 확장하는 것이다.
- 기존 의료 LLM 평가 방식은 정적인 벤치마크 중심으로 실제 임상에서 요구되는 다중 턴 상호작용과 복합 의사결정을 반영하지 못하는 한계가 존재한다.
- 본 연구는 고충실도 환자 시뮬레이터와 다차원 임상 평가 문항 생성기를 포함하는 동적 강화학습 검증 프레임워크를 제안하여 의료용 Baichuan-M2 모델의 성능을 크게 향상시켰다.
Method
- 본 시스템은 환자 시뮬레이터를 통해 다양하고 현실적인 임상 대화 환경을 조성하고, 임상 평가 문항 생성기는 진단 정확도 및 상담 논리 등 복수 차원의 지표를 동적으로 산출한다.
- Baichuan-M2는 32B 파라미터 규모의 모델로, 다단계 강화학습 전략과 개선된 그룹 상대 정책 최적화(GRPO) 알고리즘을 적용하여 훈련되었다.
- 평가과정에서 환자 시뮬레이터와 임상 평가 문항 생성기가 밀접하게 연동되어 모델 의사결정 과정을 다층적으로 정량평가한다.
Results
- Baichuan-M2는 HealthBench 기준에서 오픈소스 모델과 대부분의 폐쇄형 모델을 능가하며, 특히 난이도 높은 HealthBench Hard 벤치마크에서 GPT-5에 이어 전 세계 두 번째로 32점 이상을 달성하였다.
Limitations
- 정보 부족
Conclusion
- 동적 상호작용 기반 검증 시스템은 의료용 대형 언어 모델의 실제 임상 응용을 효과적으로 지원하며, 성능과 파라미터 간 새로운 효율성 경계를 설정하였다.
9. Kwai Keye-VL 1.5 Technical Report
Introduction
- Goal: 본 논문은 효율적이고 정교한 영상 이해를 위해 혁신적인 아키텍처와 점진적 사전학습 및 후처리 기법을 결합한 8억 매개변수 멀티모달 기초모델 Keye-VL-1.5를 제안하는 것이다.
- Motivation: 기존 영상 이해 모델들은 공간 해상도와 시간적 범위 간 균형 문제로 인해 동영상 처리에서 어려움을 겪고 있다.
- Contribution: 논문은 Slow-Fast 영상 인코딩, 8K에서 128K 토큰 길이까지 확장하는 네 단계의 점진적 사전학습, 강화학습 기반의 추론 능력 및 인간 선호 정렬 후처리 방법론을 제안하였다.
Method
Keye-VL-1.5는 SigLIP 비전 인코더와 Qwen3 언어 디코더를 결합해 원본 해상도를 유지하는 네이티브 해상도 처리와 2D RoPE 위치 임베딩을 적용하였다.
영상 인코딩은 시각 변화가 큰 프레임은 고해상도 Slow 경로로, 상대적으로 정적 프레임은 저해상도 Fast 경로로 처리하는 Slow-Fast 전략을 도입해 공간-시간 균형을 최적화한다.
사전학습은 이미지-텍스트 정렬, 멀티태스크 학습, 대용량 맥락 확장을 네 단계로 점진 수행하며, 후처리는 체인오브생각 데이터 구축과 GSPO 강화학습, 정렬 RL을 포함하여 추론 능력과 선호도 적합성을 극대화한다.
Results
Keye-VL-1.5는 공개 벤치마크 및 내부 평가에서 기존 모델 대비 영상 이해 능력에서 크게 향상된 성능을 보였다.
Limitations
본 논문에서는 주로 동영상 이해 성능 개선에 집중하였으며, 복잡한 장기 맥락 및 실제 응용 상황에서의 한계점에 대한 추가 연구가 필요하다.
Conclusion
Keye-VL-1.5는 혁신적 인코딩 기술과 통합적 학습 전략을 통해 차세대 멀티모달 모델의 영상 이해 및 추론 발전 방향을 제시하였다.
10. Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic
Introduction
- 본 연구의 목표는 강화학습을 통해 습득한 복잡한 추론 능력을 파라미터 벡터 형태로 추출하여 다른 모델에 전이하는 방법을 제안하는 것이다.
- 대규모 언어 모델은 복잡한 다단계 추론을 위해 비용이 큰 최적화 과정을 필요로 하므로, 이를 보다 효율적으로 개선할 수 있는 방법이 요구된다.
- 본 연구는 동일 초기화와 데이터로 훈련된 두 모델 간의 파라미터 차이를 추론 벡터로 정의하고, 이를 통해 추론 능력을 전이하는 새로운 접근법을 제안하였다.
Method
두 모델(감독학습 기반 SFT, 강화학습 기반 GRPO) 파라미터의 차이인 reasoning vector를 산출하여, 호환 가능한 대상 모델에 덧셈 연산으로 적용한다.
이때 Linear Mode Connectivity 이론에 기반하여 두 모델이 동일한 저손실 영역 내에 있음을 가정하며, reasoning vector 추가가 안정적인 성능 향상을 유도한다.
벡터 적용은 단순한 텐서 연산으로 구현되며, 스케일 파라미터와 마스크 확장도 가능하다.
Results
QWEN2.5 모델군에서 reasoning vector를 적용한 결과, 수학문제(GSM8K) 최대 +4.9%, 코드 생성(HumanEval) +4.3%, 고난도 논리(BigBenchHard) +12.3% 성능 향상을 일관되게 달성하였다.
Limitations
본 방법은 동일 아키텍처, 토크나이저, 초기화 기반을 공유하는 호환 가능한 모델에만 적용 가능하며, 서로 다른 모델 계열간 전이는 제한적이다.
Conclusion
추론 능력은 파라미터 공간 내에서 모듈화된 전이 벡터로 존재하며, 이를 활용하면 고비용 강화학습 없이도 손쉽게 추론 성능을 향상시킬 수 있다.
11. Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
Introduction
- 본 연구의 목표는 강화학습 with 검증 가능한 보상(RLVR) 환경에서 희소 보상과 불안정한 정책 업데이트 문제를 극복하기 위해 감독학습 기반의 암묵적 액터-크리틱 결합 프레임워크인 PACS를 제안하는 것이다.
- RLVR은 대형 언어모델이 수학 및 프로그래밍 등의 고난도 추론 문제를 해결할 수 있게 하지만, 기존 RL기반 방법은 희소 보상 신호와 불안정한 정책 그래디언트 문제에 직면한다.
- 본 연구는 보상 신호를 예측 가능한 라벨로 처리하여 RLVR 문제를 감독학습 과제로 재구성하고, 이를 통해 액터와 크리틱 역할을 암묵적이고 안정적으로 결합하는 혁신적인 학습 방식을 제안했다.
Method
PACS는 출력의 전체 보상 R(q,o)를 이진 라벨로 간주하고 정책 모델을 통해 점수 함수를 예측하는 교차엔트로피 손실 기반의 감독학습 문제로 전환한다.
구체적으로, 정책 그래디언트 업데이트와 보상 예측 역할을 하나의 손실 함수로 통합하여 파라미터를 공유하는 단일 모델에서 암묵적인 액터-크리틱 결합을 달성한다.
RLOO 기반 우위 함수를 도입하여 그룹 내 상대적 보상 차이를 효과적으로 추정하며, 이 방법은 기존 가치모델 기반 기법 대비 학습 안정성과 효율성을 크게 향상시킨다.
Results
Qwen2.5-3B 및 Qwen2.5-7B 모델을 대상으로 한 4개 수학 추론 벤치마크(MATH 500, AMC23, AIME 2024, AIME 2025)에서 PACS는 PPO 및 GRPO 대비 최대 15.31%까지 우수한 pass@k 성능을 달성하며, 특히 AIME 2024와 2025에서 현저한 성능 향상을 보였다.
Limitations
복잡한 수학 추론 문제에 대해 β 하이퍼파라미터 설정에 민감하게 반응하는 등 일부 하이퍼파라미터 조정이 학습 성능에 큰 영향을 미치는 한계가 존재한다.
Conclusion
PACS는 RLVR 환경에서 보상 희소성과 학습 불안정 문제를 극복하는 감독학습 기반의 암묵적 액터-크리틱 결합 방법으로서 기존 RL 기법 대비 우수한 성능과 학습 효율성을 입증하였다.
12. Jointly Reinforcing Diversity and Quality in Language Model Generations
Introduction
- Goal: 본 논문은 언어 모델 생성물에서 다양성과 품질을 동시에 향상시키기 위한 온라인 강화학습 프레임워크인 Darling을 제안하는 데 목적이 있다.
- Motivation: 기존 대형 언어 모델의 사후 학습은 응답 품질은 개선하나 다양성을 감소시켜 창의적이거나 탐색적인 작업에서의 활용도를 제한하는 문제를 가진다.
- Contribution: Darling은 의미 기반 분류기를 통해 다양성을 측정하고, 품질 보상과 결합하여 다양성과 품질을 동시에 최적화하는 새로운 강화학습 방식을 제안한다.
Method
Darling은 의미적 유사성을 분류하는 학습된 분류기를 사용하여 출력물을 의미적 클러스터로 나눈다.
이후 다양성과 품질 보상을 곱하는 방식으로 강화학습의 보상을 조정하여, 다양하고 높은 품질의 답변 생성을 촉진한다.
이 방법은 기존 GRPO 방식을 개선한 것으로, 토큰 수준의 손실 평균화와 표준편차 정규화 제거를 포함한다.
Results
다양한 모델 및 크기에서 비검증(Instruction-following, 창의적 글쓰기) 및 검증 가능한(수학 문제) 작업에 대해 Darling은 품질과 다양성을 모두 크게 향상시키며, 특히 더 어려운 수학 데이터셋에서 성능 향상을 뚜렷하게 보였다.
Limitations
본 연구는 다양성과 품질 통합 보상 방식을 제안하였으나, 단어 수준의 다양성 지표는 수학 문제와 같은 특정 분야에서 성능 저하를 겪는 한계가 있다.
Conclusion
Darling은 의미 기반 다양성 보상을 활용하여 사후 학습 중 다양성 붕괴 문제를 해결하고, 여러 과제에서 품질과 다양성을 동시에 강화하는 효과적인 온라인 강화학습 방법임을 입증하였다.
13. Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling
Introduction
- Goal: 본 논문의 목표는 선형 시간 복잡도(O(N))를 가지며 완전 병렬 처리가 가능한 새로운 시퀀스 모델링 아키텍처인 Gated Associative Memory(GAM)를 제안하는 것이다.
- Motivation: 기존 Transformer의 자기주변(self-attention) 메커니즘은 시퀀스 길이에 대해 제곱 시간 복잡도(O(N²))를 가지며, 이는 긴 문맥 처리 시 큰 병목 현상을 초래한다.
- Contribution: GAM은 인과적 합성곱과 병렬 연관 메모리 병렬 경로를 게이트 메커니즘으로 결합하여 선형 시간 복잡도와 뛰어난 병렬성을 달성하고, Transformer 및 최신 선형 시간 모델과 비교해 우수한 성능과 속도를 보였다.
Method
GAM은 인과적 합성곱을 통해 국소적 위치 정보와 구문적 관계를 효과적으로 포착하고, 병렬 연관 메모리 메커니즘으로 전역적 내용 기반 패턴을 모델링한다. 각 경로는 학습 가능한 게이트로 동적으로 결합되어 토큰별로 국소 및 전역 정보를 적절히 조합한다. 이러한 완전 병렬 처리 구조는 재귀를 전혀 사용하지 않아 최신 하드웨어에서 효율적인 학습이 가능하다.
Results
WikiText-2와 TinyStories 데이터셋 실험에서 GAM은 Transformer 및 Mamba 대비 7~11% 빠른 학습 속도를 기록하였고, 모든 데이터셋에서 더 낮은 혹은 경쟁력 있는 유효성 검증 혼란도를 달성하였다.
Limitations
제안된 GAM 모델은 본 연구에서 상대적으로 짧은 시퀀스 길이(최대 256)에서 평가되었으며, 더욱 긴 시퀀스에 대한 성능 검증이 필요하다.
Conclusion
GAM은 기존 Transformer의 제곱 시간 복잡도 문제를 극복하고, 효율성과 성능 모두에서 경쟁력 있는 선형 시간 시퀀스 모델링 아키텍처임이 입증되었다.
14. DynaGuard: A Dynamic Guardrail Model With User-Defined Policies
Introduction
- Goal: 본 논문은 사용자 정의 정책을 적용할 수 있는 동적 수호자 모델인 DynaGuard를 제안하는 데 목적이 있다.
- Motivation: 기존의 정적 범주 기반 수호자 모델은 특정 도메인에 제한되며, 실제 적용 환경의 다양한 기준을 반영하지 못한다는 한계가 있다.
- Contribution: DynaGuard는 사용자 지정 정책을 기반으로 동적으로 규칙 위반을 탐지하고, 설명 가능성을 제공하여 대화형 시스템이 정책 위반을 스스로 수정하도록 지원한다.
Method
DynaGuard는 40,000개의 다양한 정책과 시뮬레이션 대화로 구성된 대규모 데이터셋 DynaBench로 학습되었으며, 복합 정책을 개별 규칙별로 분리해 평가할 수 있다.
모델은 사전 학습된 지시 기반 언어 모델(Qwen3 계열)을 활용해 감독 학습 및 보상 기반 최적화(GRPO)로 미세 조정되었다.
체인 오브 사고(chain-of-thought) 추론과 빠른 추론 모드를 모두 지원하며, 정책 위반 시 자연어로 된 상세 설명을 출력한다.
Results
DynaGuard는 DynaBench 및 기존 안전성 벤치마크에서 최첨단 성능을 달성했으며, 체인 오브 사고 없이도 빠른 추론 모드에서 높은 정확도를 보였다.
Limitations
정책 위반 설명이 실제 복구 전략에 효과적으로 통합되는 방법과 인간 신뢰에 미치는 영향에 대한 추가 연구가 필요하다.
Conclusion
DynaGuard는 유연하고 해석 가능한 정책 준수 감지를 통해 다양한 도메인에 적용 가능한 차세대 수호자 모델로서 우수한 성능을 입증하였다.
15. GenCompositor: Generative Video Compositing with Diffusion Transformer
Introduction
- 본 연구의 목표는 동적 전경 영상을 배경 영상에 사용자 지정 경로와 크기로 생성적으로 합성하는 영상 편집 기법인 생성 영상 합성(Generative Video Compositing)을 제안하는 데 있다.
- 기존 영상 합성 과정은 고도의 인력과 긴 제작 시간을 필요로 하므로 이를 자동화하여 효율성을 높이는 동기에서 출발하였다.
- 본 논문은 확산 변환기(Diffusion Transformer) 기반의 새로운 파이프라인과 전용 데이터셋을 개발하여 사용자 제어에 따른 고품질 합성 결과를 달성한 점에 기여한다.
Method
- 제안하는 GenCompositor는 배경 보존 경로(Background Preservation Branch)로 편집 전후 배경 일관성을 유지하고, DiT fusion block을 통한 완전 자기 주의 메커니즘으로 전경 영상을 효과적으로 융합한다.
- 사용자 지정 경로와 크기 변경에 대응하는 독자적인 확장 회전 위치 임베딩(ERoPE)을 도입하여 픽셀 정렬이 되지 않은 입력 영상 간 간섭을 방지한다.
- 또한, 마스크 팽창(Mask Inflation)과 밝기 증강(Luminance Augmentation) 기법으로 모델의 일반화 능력과 견고성을 향상시켰다.
Results
- 제안기법은 기존 영상 조화(Video Harmonization) 및 궤적 제어 영상 생성(Trajectory-Controlled Generation) 방법 대비 시각적 품질과 일관성에서 전 영역에 걸쳐 우수한 성능을 보였다.
Limitations
- 현재 기법은 극한 조명 환경에 대한 견고성 부족과 복잡한 환경적 폐색(Occlusion) 변화에 대한 대응 미흡 등의 한계가 존재한다.
Conclusion
- 본 연구는 사용자 지정 조건을 충족하는 자동화된 생성 영상 합성 기술을 최초로 선보이며, 향후 심화된 조명 처리 및 3D 정보 활용을 통해 한계를 극복할 수 있음을 시사한다.
16. DCPO: Dynamic Clipping Policy Optimization
Introduction
- Goal: 본 연구는 대형 언어 모델의 추론 능력을 향상시키기 위한 강화학습 기반 정책 최적화 기법을 제안하는 데 목적이 있다.
- Motivation: 기존의 GRPO 및 DAPO 방법들은 고정된 토큰별 클리핑 경계와 동일 보상 표준화로 인해 무효한 그래디언트와 낮은 샘플 효율로 고통받았다.
- Contribution: 본 논문은 토큰별 이전 확률에 따라 적응적으로 클리핑 경계를 조절하는 동적 클리핑과 누적 훈련 단계를 반영한 부드러운 보상 표준화 기법을 도입한 DCPO를 제안한다.
Method
DCPO는 보상 분포를 누적하여 표준화하는 부드러운 어드밴티지 표준화(SAS)를 통해 동일 보상으로 인한 무기력한 업데이트 문제를 완화한다.
또한, 토큰별 이전 확률에 기반한 동적-적응형 클리핑 경계(DAC)를 적용하여 낮은 확률 토큰에 대한 탐색 공간을 확장한다.
마지막으로, 손실 계산 시 응답 내 토큰 평균(OTM)을 적용하여 배치 수준의 평균 손실이 상대적 어드밴티지 구조를 희석하지 않도록 한다.
Results
DCPO는 네 가지 수학 추론 벤치마크에서 GRPO 및 DAPO 대비 최대 10% 이상 성능 향상과 함께 샘플 효율 2배, 토큰 클리핑 비율 10배 감소를 달성하였다.
Limitations
다른 도메인, 예를 들어 코드 생성 및 의미론적 추론 영역으로의 확장 가능성에 대해서는 후속 연구가 필요하다.
Conclusion
DCPO는 동적 클리핑과 누적 보상 표준화를 통해 대형 언어 모델 RL 학습의 데이터 활용도와 다양성 탐색을 유의미하게 개선하는 효과적인 정책 최적화 기법임이 입증되었다.
17. OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
Introduction
- Goal: 본 논문은 멀티모달 학습을 위한 생성 기반 사전학습 시각 인코더인 OpenVision의 구조와 학습 방식을 단순화하여 학습 효율성을 극대화하는 것을 목표로 한다.
- Motivation: 기존 OpenVision은 텍스트 인코더 및 대조 손실을 포함하여 계산량과 메모리 부담이 크며, 이를 줄이면서 성능을 유지하는 효율적인 모델 설계가 필요하다.
- Contribution: 텍스트 인코더와 대조적 학습 신호를 제거하고 캡션 손실만 활용하는 완전 생성적 학습 패러다임인 OpenVision 2를 제안하며, 이는 원본 모델과 비슷한 성능을 유지하면서 학습 시간과 메모리를 현저히 절감한다.
Method
OpenVision 2는 이미지 인코더와 텍스트 디코더 두 모듈만으로 구성되어, 이미지-텍스트 대조 손실 없이 합성 캡션 생성을 통한 생성 손실만으로 학습한다. 학습 중 입력 비주얼 토큰의 약 2/3를 무작위 마스킹하여 디코더의 연산 부담을 줄이고 학습 효율을 높인다. 대조학습 기반 CapPa 및 AIMv2 대비 고품질 합성 캡션, 간소화된 융합 방식, 대규모 백본 확장, 순차적 예측 방식을 적용하였다.
Results
OpenVision 2는 LLaVA-1.5 및 Open-LLaVA-Next 프레임워크 하 다양한 멀티모달 벤치마크에서 OpenVision 및 여러 CLIP 변종과 경쟁력 있는 성능을 보이며, 학습 속도는 최대 1.5~2배 개선되고 메모리 사용량은 약 1.8배 감소하였다.
Limitations
텍스트 인코더와 대조 손실 제거로 인한 표현 학습 다양성 및 일부 특수 태스크에 대한 잠재적 영향에 대해서는 추가 분석이 필요하다.
Conclusion
본 연구는 멀티모달 기반 시각 인코더에서 대조학습 없이 캡션 생성이라는 단일 생성적 목표만으로도 고성능과 높은 학습 효율성을 달성할 수 있음을 실증하며, OpenVision 2 및 데이터셋을 공개하여 관련 연구 확장을 촉진한다.
18. Benchmarking Optimizers for Large Language Model Pretraining
Introduction
- 본 연구의 목표는 대규모 언어 모델(LLM) 사전학습을 위한 다양한 최적화 알고리즘의 성능을 표준화된 실험 환경에서 체계적으로 평가하는 것이다.
- 최근 발표된 여러 최적화 기법들의 다양하고 일관성 없는 실험 프로토콜로 인해 직접적인 성능 비교가 어려운 상황에서 이를 해결하고자 하였다.
- 11종의 최적화 기법을 크기, 배치 크기, 학습 기간을 달리하는 LLM 사전학습 시나리오에 맞추어 광범위하게 비교 평가하고, 최적 하이퍼파라미터 설정 및 활용 가능한 도구를 공개하였다.
Method
- Llama 기반 트랜스포머 4가지 모델 크기(124M, 210M, 583M, 720M) 및 520M MoE 모델을 대상으로 하였으며, FineWeb 데이터셋 1000억 개 토큰을 사용하였다.
- 각 최적화 기법별로 하이퍼파라미터(학습률, 가중치 감쇠, 모멘텀 등)를 엄격히 탐색하였으며, 배치 크기와 학습 토큰 수를 조합하여 총 2900회의 학습 실험을 수행하였다.
- 대표적인 최적화기(AdamW, ADOPT, AdEMAMix, Signum, Lion, MARS 등)를 포함해 다양한 설계 철학과 원리를 반영한 최신 기법들을 비교하였다.
Results
- AdEMAMix가 전반적으로 최상의 성능을 보였으며, 배치 크기 증가 시 Signum, Lion, MARS 등이 AdamW를 능가하는 결과를 나타냈고, 가중치 감쇠가 성능 향상에 중요한 역할을 함을 확인하였다.
Limitations
- 추정 및 외부 지식을 배제하고 본문에 근거한 평가만 수행하여 일부 최첨단 기법이나 변화하는 LLM 환경에 대한 포괄적 반영이 제한적일 수 있다.
Conclusion
- 본 연구는 LLM 사전학습 최적화기 선택에 대한 실증적 지침을 제공하고, 재현 가능한 대규모 벤치마크와 하이퍼파라미터 최적화 전략을 공개하여 연구와 실무에서의 최적화기 개발 및 평가 기반을 마련하였다.
19. Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation
Introduction
- Goal: 본 연구는 대규모 언어모델(LLM)과 유전 알고리즘을 결합하여 조건부 합성 데이터 생성을 개선하는 Genetic Prompt 프레임워크를 제안하는 것이다.
- Motivation: 합성 데이터의 품질과 다양성을 확보하는 데 어려움이 존재하며, 기존의 고정된 조건에 의존하는 방법들은 모델의 추론과 일반화 능력, 데이터 다양성을 제한한다는 문제의식이 존재한다.
- Contribution: 텍스트 속성들을 유전자처럼 취급하여 LLM이 교차 및 돌연변이 과정을 시뮬레이션하도록 하며, 액티브 러닝을 통한 부모 선택 최적화로 데이터 생성의 품질과 다양성을 크게 향상시킨다.
Method
Genetic Prompt는 1) 텍스트 속성(유전자) 자동 식별, 2) 액티브 러닝 기반 부모 샘플 선택, 3) LLM을 활용한 속성 단위 교차 및 돌연변이 연산으로 합성 데이터를 생성하는 세 단계로 구성된다.
이 과정에서 높은 수준의 의미론적 속성들을 유전자로 간주하여 문장이나 단어 수준이 아닌 속성 수준에서 진화 연산을 수행함으로써 데이터 다양성과 품질을 동시에 확보한다.
생성된 합성 데이터는 다운스트림 NLP 과제의 학습에 활용되어 모델 성능 향상에 기여한다.
Results
제안한 Genetic Prompt는 여덟 개 공개 데이터셋의 세 가지 NLP 과제에서 최첨단 기법 대비 합성 데이터의 품질과 다양성 측면에서 우수성을 보였으며, 실제 데이터와 혼합 시 특히 불균형 데이터 상황에서 성능을 크게 개선하였다.
Limitations
본 연구는 영어 텍스트에 한정되어 실험되었고, 다국어 또는 비텍스트형 데이터에 대한 적용 가능성은 추가 연구가 필요하다.
Conclusion
Genetic Prompt는 LLM과 유전 알고리즘을 융합하여 합성 데이터 생성의 새로운 패러다임을 제공하며, 다양한 NLP 작업에서 데이터 품질과 모델 성능 향상에 효과적인 방법임이 입증되었다.
20. FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
Introduction
- Goal: 본 연구의 목적은 GUI 에이전트가 다양한 어드벤처 게임에서 전체 스토리 아크를 해결하는 능력을 평가할 수 있는 벤치마크인 FlashAdventure를 제안하는 것이다.
- Motivation: 기존 게임 벤치마크들은 게임과 과제의 다양성이 부족하고 전체 스토리 아크 완료 능력을 평가하지 못하는 한계가 존재하였다.
- Contribution: 본 연구에서는 34개의 Flash 기반 클래식 어드벤처 게임으로 구성된 벤치마크와 자동 평가 에이전트인 CUA-as-a-Judge, 그리고 장기적인 단서 기억을 활용하는 COAST 에이전트 프레임워크를 제안하였다.
Method
FlashAdventure는 복잡한 관찰-행동 간 시차 문제를 포함한 전체 스토리 아크 완료를 목표로 하며, 에이전트의 행동은 부분 관찰 마코프 결정 과정으로 모델링된다. CUA-as-a-Judge는 게임 내 중요 이정표 달성을 자동으로 평가하며, COAST는 탐색-매핑-해결 순환 구조를 통해 환경에서 단서를 수집하고, 이를 분석해 하위 과제를 생성 및 해결하는 방식으로 에이전트 계획 능력을 향상시킨다.
Results
실험 결과, 기존의 최첨단 GUI 에이전트들은 전체 스토리 아크 완료에 어려움을 겪었으나, COAST는 단서 기억과 계획 기능을 통합하여 관찰-행동 간 시차 문제를 완화시키고 성공률과 이정표 달성률에서 최고 성과를 달성하였다.
Limitations
본 연구는 수동으로 정의한 게임 이정표에 의존하며, 이는 현장 작업의 노동집약적 특성을 완전히 해소하지 못한다.
Conclusion
FlashAdventure와 COAST 프레임워크는 GUI 에이전트의 전체 스토리 아크 해결 능력을 평가하고 향상시키는 효과적인 도구이나, 인간과 에이전트 간 성능 격차 해소를 위한 추가 연구가 필요하다.
21. M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
Introduction
- Goal: 본 연구의 목표는 다양한 의료 영상 모달리티를 통합하여 별도의 모달리티 설계 없이 제로샷 의료 영상 검색을 가능하게 하는 통합 시각 인코더 M3Ret를 제안하는 것이다.
- Motivation: 기존 의료 영상 검색 방법들은 2D, 3D, 비디오 데이터마다 분리된 아키텍처와 학습 전략에 의존하여 확장성과 통합 표현 학습을 저해한다는 문제점이 존재한다.
- Contribution: 본 연구는 대규모 혼합 모달리티 의료 영상 데이터셋을 구축하고, MAE와 SimDINO 기반 순수 영상 자기지도학습을 활용하여 모든 모달리티에 대해 확장 가능하고 범용적인 표현 학습 프레임워크를 제시하였다.
Method
M3Ret는 2D 엑스레이, 초음파, RGB 내시경 비디오, 3D CT 스캔을 포함하는 867,653개 임상 영상 샘플을 사용하여 모달리티별 맞춤형 설계 없이 단일 비전 트랜스포머 기반 인코더를 학습한다.
입력 영상을 4차원 텐서로 패치화하여 처리하며, MAE(마스크드 오토인코더)와 SimDINO(대조학습 기반 자기지도학습) 두 가지 학습 패러다임을 통해 시각적 표현을 학습한다.
학습 과정에서는 모달리티 간 크로스 모달 정렬을 위한 쌍(pair) 데이터 없이도 공통 잠재 공간에서 의미적으로 일관된 표현이 생성된다.
Results
M3Ret는 SimDINO 사전학습 기준으로 네 가지 의료 영상 데이터셋에서 기존 최첨단 언어지도 및 자기지도학습 모델들을 제압하며, 미리 본 적 없는 MRI 영상을 포함한 교차 모달 영상 검색에서도 우수한 일반화 성능을 보였다.
Limitations
본 연구에서는 MRI 데이터가 사전학습에 포함되지 않아 일부 미지의 모달리티에 대해 일반화 성능 확인에 한계가 있으나, 완전한 무지도 학습 기반 접근임을 감안할 때 추가 모달리티 확장 연구가 필요하다.
Conclusion
본 연구는 모달리티별 특수 설계 없이 대규모 혼합 의료 영상 데이터와 순수 영상 자기지도학습을 통해 통합 표현 학습이 가능함을 입증하며, 다중 모달 의료 영상 이해를 위한 범용 파운데이션 모델 개발의 초석을 마련하였다.
22. The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang
Introduction
- Goal: 본 연구는 대형 언어 모델(LLMs)이 명시적 문법 규칙과 어휘만으로 전혀 새로운 언어를 학습하고 이를 활용할 수 있는지를 평가하는 것이다.
- Motivation: 기존 벤치마크는 주로 익숙한 자연어를 기반으로 하여 모델의 기억 및 패턴 매칭 능력과 진정한 언어 추론 능력을 구분하기 어렵기 때문이다.
- Contribution: 본 논문에서는 Camlang이라는 인지적으로 타당한 자연주의적 조어 언어를 설계하고, 이를 기반으로 LLM의 메타언어적 추론 능력을 진단하는 새로운 평가 체계를 제안하였다.
Method
Camlang은 명시적 문법서와 영어-캠랭 어휘집으로 구성되며, 이 자원을 통해 인간 학습자들이 실제로 습득 가능함을 확인하였다.
CommonsenseQA 문제를 Camlang으로 번역한 Camlang-CSQA-v0 데이터셋을 구축하여 모델 평가에 활용하였다.
여러 최신 LLM과 인간을 대상으로 문법 규칙과 어휘 매핑 적용 능력을 비교 분석하였다.
Results
GPT-5는 영어 CommonsenseQA에서 98% 정확도를 보였으나 Camlang에서는 47%에 그쳐 인간의 87%에 미치지 못하는 성과를 나타냈으며, 다른 LLM은 더 낮은 성능을 기록하였다.
Limitations
본 연구는 아직 진행 중이며 현 시점의 실험 결과는 예비적이며, Camlang과 관련 작업은 향후 확장 및 개선될 계획이다.
Conclusion
Camlang은 LLM의 메타언어적 문법 내재화 능력과 인간과의 근본적 차이를 드러내는 인지 기반 평가 도구로 자리매김하였다.
23. Fantastic Pretraining Optimizers and Where to Find Them
Introduction
- Goal: 본 연구의 목표는 대규모 언어 모델 사전학습에 사용되는 다양한 최적화 기법들을 엄격한 하이퍼파라미터 튜닝과 다양한 데이터-모델 비율 조건에서 공정하게 비교하는 것이다.
- Motivation: 기존 연구들이 최적화기 비교 시 불평등한 하이퍼파라미터 조정과 제한적 평가 조건으로 인해 실제 적용 가능성과 속도 향상 효과를 과대평가하고 있다고 판단하였다.
- Contribution: 본 연구는 11가지 최적화기를 0.1B부터 1.2B 매개변수 모델까지 네 가지 모델 규모와 최대 8배 Chinchilla 최적 데이터 비율까지 확대하여 체계적으로 비교 평가하였다.
Method
본 연구는 세 단계의 하이퍼파라미터 조정 프레임워크를 적용하여 최적화기별 최적 설정을 확보하였으며, 이를 바탕으로 Llama 2 아키텍처 기반 모델과 대규모 공개 데이터셋으로 실험하였다. 하이퍼파라미터 민감도를 분석해 크기 변화에 따라 재조정할 항목을 선정하고, 1.2B 규모까지 하이퍼파라미터 스케일링 법칙을 모델링하여 확장성을 검증하였다. 최종 평가는 C4-EN 데이터셋의 언어 모델링 손실과 다수 벤치마크 성능을 지표로 사용하였다.
Results
행렬 기반 최적화기(예: Muon, Soap)는 스칼라 기반 최적화기보다 일관되게 우수한 속도 향상을 보였으나, 최대 속도 향상치는 1.4배로 제한되며 모델 크기 증가에 따라 1.1배 수준으로 감소하였다.
Limitations
1.2B 매개변수 이상의 대형 모델과 16배 이상의 초고 데이터-모델 비율 규모에서 최적화기의 속도 향상 효과가 제한적으로 나타나며, 이로 인해 일부 행렬 기반 최적화기 성능이 저하되는 경향이 발견되었다.
Conclusion
엄격한 하이퍼파라미터 튜닝과 다양한 스케일 조건에서의 평가를 통해 수많은 최신 최적화기들이 AdamW 대비 예상보다 제한된 속도 향상만을 달성함을 밝혀내었다.
24. Universal Deep Research: Bring Your Own Model and Strategy
Introduction
- Goal: 본 논문은 사용자 지정 연구 전략을 자유롭게 구성할 수 있는 범용 심층 연구 시스템인 Universal Deep Research(UDR)를 제안하는 데 목적이 있다.
- Motivation: 기존 심층 연구 도구들은 고정된 모델과 한정된 전략만을 지원하여 사용자 맞춤형 연구 전략 생성과 다양한 모델 활용에 제한이 있었다.
- Contribution: UDR은 추가 훈련 없이도 어떤 언어 모델과도 연동 가능하며, 사용자가 자연어로 직접 연구 전략을 작성·수정·실행할 수 있는 시스템을 개발하였다.
Method
UDR은 사용자 정의 연구 전략과 연구 프롬프트를 입력받아 전략을 단계별 코드로 변환한 후 독립 실행 환경에서 실행한다.
상태 변화를 코드 변수로 관리하여 제한된 컨텍스트 안에서도 효율적이고 추적 가능한 연구 진행을 가능하게 하며, 도구는 동기 방식으로 호출된다.
언어 모델은 전체 연구를 통제하기보다 특정 요약, 평가, 추출 등 국소적 추론에만 활용되며, 중간 진행 상황은 사용자에게 구조화된 알림으로 전달된다.
Results
제안하는 방법은 전략별 코드 생성 방식을 통해 기존 대비 실행 신뢰도를 높이고 GPU 사용률과 지연 시간을 줄이면서 다양한 연구 프로세스 구현을 가능하게 하였다.
Limitations
언어 모델 코드 생성의 품질에 시스템 신뢰도가 의존하고, 실시간 사용자 입력에 따른 동적 분기 미지원 등 상호작용성과 전략 검증 기능이 제한적이다.
Conclusion
UDR은 범용 언어 모델 위에 사용자 주도형 심층 연구 도구 구축이 가능함을 시연하였으며, 사용자 제어권 확대를 위한 전략 라이브러리 제공 및 자동화 방안 연구를 권장한다.
25. Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing
Introduction
- Goal: 본 논문은 시각적 자기회귀 모델(VAR)을 활용한 텍스트 기반 이미지 편집 기능을 개발하는 데 목적이 있다.
- Motivation: 기존 VAR 모델은 텍스트-이미지 생성에서는 우수한 성능을 보이나, 추가 학습 없이도 텍스트 프롬프트에 따른 정밀한 이미지 편집 능력이 요구되기 때문이다.
- Contribution: 본 연구는 VAR 전용의 최초 노이즈 반전 기반 편집 기법인 VARIN과 위치 인지 가 argmax 반전(LAI) 방법을 제안하여 원본 이미지 재구성과 텍스트 조건의 정확한 편집을 가능하게 하였다.
Method
VARIN은 VAR 모델의 비가역적 argmax 샘플링 문제를 해결하기 위해 LAI라는 의사역함수를 통해 역 Gumbel 노이즈를 추출한다. 이렇게 추출된 역 노이즈는 원본 이미지를 완벽하게 재구성할 수 있고, 편집 시에는 편집 강도 조절을 통해 원본 정보 보존과 변경 사항 간의 균형을 맞춘다. 이 과정은 추가적인 학습이나 복잡한 조정 없이 즉시 적용 가능한 편집 방식을 제공한다.
Results
PIE-Bench과 다양한 정성/정량 평가에서 VARIN은 기존의 재생성(Regeneration) 및 DICE, EditAR 등 경쟁 기법들보다 텍스트 프롬프트에 부합하는 편집 성능과 배경 보존 능력을 동시에 우수하게 달성하였다.
Limitations
VARIN은 HART 모델의 낮은 재구성 능력에 따라 Paella 기반 모델 대비 이미지 재현 품질이 다소 떨어져 구조 및 세부 묘사 면에서 한계가 존재한다.
Conclusion
본 연구는 VAR 모델에서 학습 불필요한 노이즈 반전 방식으로 텍스트 기반 이미지 편집을 실현함으로써 VAR의 활용도를 넓혔으며, 향후 다른 자기회귀 모델과의 결합 및 주의집중 제어 통합 가능성을 제시한다.
26. On the Theoretical Limitations of Embedding-Based Retrieval
Introduction
- Goal: 본 연구는 단일 벡터 임베딩 기반 검색 모델이 표현할 수 있는 이론적 한계를 규명하는 데 목적이 있다.
- Motivation: 최근 임베딩이 모든 쿼리와 다양하게 정의되는 관련성을 표현하는 데 사용되면서, 임베딩이 해결할 수 없는 근본적 한계가 현실적인 쿼리에서도 존재할 수 있음을 밝힐 필요가 있다.
- Contribution: 임베딩 차원수와 결과로 반환 가능한 top-𝑘 문서 조합 간의 관계를 이론적 및 실험적으로 분석하고, 이 한계를 검증하는 LIMIT 데이터셋을 제안하였다.
Method
벡터 임베딩 모델은 쿼리와 문서 각각을 차원 𝑑의 벡터로 표현하며, 점곱을 통해 관련성을 예측한다.
임베딩 차원과 관련 문서 조합 표현 가능성은 sign-rank 개념을 통해 수학적으로 한계가 명확히 증명된다.
또한, 임베딩 벡터를 자유롭게 최적화하는 실험을 통해 차원 수가 부족할 경우 모든 top-𝑘 조합을 표현할 수 없음을 보였다.
Results
제안한 LIMIT 데이터셋에서 최신 단일 벡터 임베딩 모델들은 단순한 질의임에도 불구하고 낮은 성능을 보이며, 임베딩 차원이 증가할수록 성능이 개선되나 여전히 한계가 존재한다는 점이 관찰되었다.
Limitations
본 연구는 이론적 분석과 테스트셋 직접 최적화 사례에 기반해 임베딩 모델의 한계를 규명하였으나, 자연어 임베딩 모델의 실제 학습 및 일반화 성능까지 완전히 반영하지는 못한다.
Conclusion
Embedding 기반 검색 모델은 임베딩 차원에 의해 본질적 한계가 존재하며, 향후 교차 인코더나 다중 벡터 모델 등 다양한 대체 접근법 개발이 요구된다.
27. AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
Introduction
- Goal: 본 연구는 대규모 언어모델(LLM)의 인도 사회 내 카스트와 종교 편향을 헌법적 가치에 따라 제거하는 공정성 강화 추론 기법 AMBEDKAR를 제안하는 데 목적이 있다.
- Motivation: 기존 편향 완화 전략은 주로 서구 중심이며 인도 특유의 사회문화적 복잡성을 반영하지 못해, 인도 내 차별적 편향 문제가 심각하게 재현됨을 경험적으로 확인하였다.
- Contribution: AMBEDKAR는 인도 헌법 제14조~17조에 기반한 헌법 인지 디코딩 레이어와 투기적 디코딩 기법을 통해 추론 시점에서 편향을 억제하며, 학습된 언어모델 파라미터를 변경하지 않고 공정하고 중립적인 출력을 유도하는 체계를 구축하였다.
Method
헌법 인지 검증기와 편향 가능성이 있는 제안자 모델 간 이원 구조에서, 원본과 대조적 반사실 문맥 상의 토큰 확률 분포 간 분포 차이(Jensen-Shannon divergence)를 공정성 제한 조건으로 삼아 후보 토큰을 재점수화한다.
대조적 반사실 변화를 통해 동일 의미 내 언어적 편향 민감도를 측정하며, 토큰 생성 시 공정성 점수가 낮은 후보를 선택하여 정체성 의존적 편향 출력을 줄인다.
이 과정은 복잡한 재학습 없이 추론 시점에서 진행되며, 효율적 토큰 후보 탐색과 재평가를 통해 실시간 적용 가능성을 확보하였다.
Results
AMBEDKAR는 인도 내 카스트 및 종교 편향성을 최대 26.41%까지 절대 감소시키며, 다양한 공개 및 독점 LLM에서 유의미한 편향 완화 효과를 획득하였다.
Limitations
본 기법은 검증기 모델의 편향 가능성 및 서술 수준 이상의 담론적 편향 방지를 완전하게 다루지 못하며, 하이퍼파라미터 민감성과 이원 모델 구조에 따른 배포 실용성 제한이 존재한다.
Conclusion
AMBEDKAR 프레임워크는 헌법 가치를 투영한 투기적 디코딩 방식을 바탕으로 인도 사회의 구조적 편향 문제를 효과적으로 완화함으로써, 법적·사회적 정합성을 갖춘 대규모 언어모델 공정성 강화의 새로운 패러다임을 제시한다.
28. ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
Introduction
- Goal: 본 논문은 다양한 카메라 설정에서 카메라 내부 파라미터 없이 실시간으로 동작하는 단안 시각 SLAM 시스템인 ViSTA-SLAM을 제안하는 것이다.
- Motivation: 기존 SLAM 방법들은 정확한 카메라 내재변수에 의존하거나 모델 크기가 커 실시간 적용에 어려움이 있었으며, 비대칭적인 2-뷰 모델 구조로 인해 후단 최적화에 제한이 존재하였다.
- Contribution: 본 연구는 경량 대칭 2-뷰 연관 모델을 전단으로 사용하여 효율성과 정확성을 향상시키고, Sim(3) 자세 그래프 최적화와 루프 클로저를 결합한 후단을 통해 드리프트 문제를 해결하는 SLAM 파이프라인을 개발하였다.
Method
ViSTA-SLAM의 전단은 두 RGB 이미지 쌍을 입력으로 하여 각 뷰의 로컬 점군과 상대 카메라 자세를 대칭적으로 회귀하는 STA 모델로 구성되며, 이는 기존 비대칭 모델 대비 파라미터 수를 대폭 감소시킨다. 후단에서는 두 개 이상의 노드를 각 뷰에 할당하고, 크기(scale) 및 자세(pose) 엣지로 연결한 Sim(3) 자세 그래프를 구성하여 루프 클로저 검출과 함께 최적화를 수행한다. 이로써 누적 오차를 줄이고 전역 일관성을 확보할 수 있도록 설계되었다.
Results
ViSTA-SLAM은 7-Scenes 및 TUM-RGBD 데이터셋에서 카메라 추적 정확도와 고밀도 3D 재구성 품질에서 현존 최첨단 방법들보다 우수한 성능을 달성하였으며, 모델 크기가 작고 초당 평균 78프레임으로 실시간 처리 가능함을 보였다.
Limitations
후단에서 점군 최적화를 생략하여 전단에서의 점군 예측 불완전성으로 인한 정렬 오차가 발생할 수 있다는 한계가 존재한다.
Conclusion
본 연구는 경량 대칭 2-뷰 연관 모델과 Sim(3) 그래프 최적화를 결합한 실시간 단안 SLAM 프레임워크를 제안하여 높은 정확도와 효율성을 동시에 달성하였으며, 이는 미래 연구를 위한 기반이 된다.
29. SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction
Introduction
- Goal: 자연어 질문을 SQL 쿼리로 변환하는 문제를 다중 에이전트 및 체인 오브 사고(chain-of-thought) 방식을 이용하여 효과적으로 해결하는 것이다.
- Motivation: 기존 실행 기반 정적 오류 수정 방법은 의미적으로 잘못된 SQL 쿼리를 교정하는 데 한계가 있어 보다 구조적이고 해석 가능한 오류 수정 체계가 필요하다.
- Contribution: SQL-of-Thought라는 새로운 다중 에이전트 프레임워크를 제안하여 스키마 연결, 하위 문제 분할, 쿼리 계획 생성, SQL 생성, 오류 유형에 기반한 유도된 오류 수정 루프를 포함한다.
Method
SQL-of-Thought는 사용자 질문과 데이터베이스 스키마를 받아 스키마 연결 에이전트가 필요한 테이블과 컬럼을 추출하고, 하위 문제 분할 에이전트가 클라우스 단위로 분할한다. 이후 쿼리 계획 에이전트가 체인 오브 사고 방식을 통해 실행 계획을 생성하며, SQL 에이전트가 실행 가능한 SQL 쿼리를 생성한다. 만약 실행 오류가 발생하면 오류 유형을 분류하는 오류 분류표를 활용한 오류 수정 계획 에이전트와 수정 SQL 에이전트가 단계적으로 오류를 교정한다.
Results
SQL-of-Thought는 Spider 벤치마크에서 91.59%, Spider-Realistic에서 90.16%, Spider SYN에서 82.01%의 실행 정확도를 달성하며 기존 방법들을 능가하였다.
Limitations
평가는 Spider 데이터셋과 그 변종에 한정되었고, 다중 에이전트 구조로 인해 비용과 추론 지연이 발생하며 폐쇄형 대형 언어 모델에 크게 의존한다는 한계가 존재한다.
Conclusion
SQL-of-Thought는 체계적인 오류 분류와 유도된 오류 수정을 결합하여 자연어-SQL 변환에서 최첨단 정확도를 달성하였으며, 향후 실제 데이터셋 확장과 비용 효율적 경량 모델 활용을 통한 발전이 필요하다.
30. MobiAgent: A Systematic Framework for Customizable Mobile Agents
Introduction
- Goal: 본 논문은 실제 모바일 환경에서 높은 정확도와 효율성을 가진 맞춤형 모바일 에이전트 시스템인 MobiAgent를 제안하는 것이다.
- Motivation: 기존 GUI 기반 모바일 에이전트는 현실 과제 수행에서 낮은 작업 완성률과 느린 응답 시간 등의 문제를 안고 있기 때문이다.
- Contribution: MobiAgent는 MobiMind 에이전트 모델 시리즈, AgentRR 가속 프레임워크, 그리고 MobiFlow 벤치마킹 스위트를 포함하는 종합적인 시스템과 고품질 데이터 수집 파이프라인을 제시하였다.
Method
MobiMind 모델은 Planner, Decider, Grounder의 다중 역할 구조를 채용하여 작업 계획, 판단 및 실행을 분리하였다.
AgentRR는 이전 수행 경험을 다중 수준으로 저장·재사용하여 인퍼런스 비용을 줄이고 효율성을 높이며, ActTree 자료구조와 Latent Memory 모델을 통해 prefix 재사용과 경험 비활성화 문제를 다루었다.
MobiFlow는 DAG 기반 벤치마크 프레임워크로, 다중 진위 검사 메커니즘을 통해 현실적 모바일 작업 평가를 가능하게 하였다.
Results
MobiMind-Decider-7B와 MobiMind-Grounder-3B 조합은 Gemini-2.5-pro, GPT-5 및 UI-TARS-1.5-7B 등 기존 모델을 능가하는 실제 모바일 시나리오에서 최고 수준의 작업 완성률을 달성하였다.
Limitations
모바일 애플리케이션 버전과 실행 환경 변화에 따른 경험의 진부화 문제와 오프라인 평가 방식으로 인한 일부 정답 경로 미포착 가능성은 여전히 존재한다.
Conclusion
MobiAgent는 고효율의 데이터 수집과 다중 수준 경험 재사용, 정밀한 벤치마킹을 통해 실세계 모바일 에이전트 성능을 획기적으로 개선하는 체계적 프레임워크임이 입증되었다.
31. Metis: Training Large Language Models with Advanced Low-Bit Quantization
Introduction
- Goal: 본 연구의 목표는 대형 언어 모델(LLM) 훈련에서 저비트 양자화를 효과적으로 수행하기 위한 안정적이고 고성능의 훈련 프레임워크를 제안하는 것이다.
- Motivation: 기존 저비트 양자화는 파라미터 분포의 이방성으로 인한 넓은 수치 범위와 블록 단위 양자화 편향으로 인해 훈련 불안정과 성능 저하를 초래하는 문제가 있다.
- Contribution: 본 논문은 스펙트럼 분해와 임의 임베딩, 적응적 학습률, 이중 범위 정규화를 결합한 Metis 프레임워크를 제안하여 저비트 양자화 하에서 FP8은 FP32 성능을 넘어설 수 있고 FP4는 FP32와 유사한 정밀도를 달성함을 보인다.
Method
Metis는 파라미터의 지배적 스펙트럼 성분과 롱테일 성분을 분리하여 넓은 분포를 좁은 범위로 압축하는 스펙트럼 분해 기법과 이를 효율적으로 구현하는 임의 임베딩을 활용한다.
또한, 스펙트럼 도메인에 적응적 학습률을 적용하여 중간 크기 성분들의 업데이트를 강화하여 다양한 특징 학습을 촉진한다.
마지막으로, 수치 정밀도 및 파라미터 범위 분포를 동시에 제한하는 이중 범위 정규화를 도입하여 저비트 훈련의 안정성과 무편향성을 확보한다.
Results
Metis를 적용한 FP8 훈련은 FP32 기준 성능과 동등하거나 이를 능가하며, FP4 훈련도 FP32 대비 유사한 정확도로 실현 가능함을 다수의 GLUE 벤치마크 및 대형 GPT-2 모델 실험을 통해 입증하였다.
Limitations
현 시점에서 대부분의 검증은 1억 이상의 중규모 모델과 공개 데이터셋에 국한되어 있으며, 대규모 모델 및 추가 데이터에 대한 결과는 향후 공개될 예정이다.
Conclusion
Metis 프레임워크는 대형 언어 모델의 초저비트 양자화 훈련에서 안정적이고 고성능의 새로운 표준을 제시하며, 고효율 LLM 훈련 방법론 발전에 기여한다.
32. Stairway to Fairness: Connecting Group and Individual Fairness
Introduction
- Goal: 본 논문은 추천시스템에서 그룹 공정성과 개인 공정성 평가 지표 간의 관계를 실증적으로 분석하는 것이다.
- Motivation: 기존 연구들은 두 공정성 유형을 서로 다른 평가 기준으로 측정하여 상호 비교가 어려웠고, 한쪽 공정성 향상이 다른 쪽에 미치는 영향을 알지 못하였다.
- Contribution: 본 연구는 동일한 평가 지표군을 활용해 그룹 및 개인 공정성을 비교 분석하고, 그룹 공정성만으로는 개인 공정성 문제를 간과할 수 있음을 최초로 실험적으로 입증하였다.
Method
세 개의 공개 데이터셋과 네 개의 대형 언어 모델 기반 추천기(LLMRec)를 활용하여 교차 민감 속성 기준으로 사용자 그룹을 형성하였다.
그룹 및 개인 공정성을 정량화하는 데 공통적으로 적용 가능한 여러 평가 지표(예: 지니 지수, 아트킨슨 지수)를 사용하였다.
추천 성능과 공정성을 NDCG, 히트율 등 효과성 지표와 함께 분석하였다.
Results
실험 결과, 그룹 공정성이 높은 추천 모델이 개인 공정성에서는 매우 불공정할 수 있으며, 그룹 간 평가만으로는 개인 내 불평등을 발견할 수 없다는 점을 확인하였다.
Limitations
본 연구는 사용자 공정성에 초점을 맞추었으며, 아이템(제공자) 공정성과의 관계나 공정성 완화 기법의 효과는 후속 연구 대상으로 남겨두었다.
Conclusion
그룹과 개인 공정성은 별개의 개념으로, 추천시스템의 공정성 평가와 개선을 위해 두 관점 모두를 동시에 고려해야 한다.
33. Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices
Introduction
- Goal: 본 논문은 엣지 디바이스에서 활용 가능한 27M 파라미터 규모의 소형 단일언어 자동 음성 인식(ASR) 모델인 Moonshine Tiny를 개발하는 것을 목표로 한다.
- Motivation: 기존 다국어 ASR 모델이 적은 리소스의 비영어권 언어에서 낮은 성능을 보이며, 온디바이스 ASR을 위한 경량 모델의 성능 향상이 필요하다.
- Contribution: Moonshine Tiny 모델은 인간 레이블, 의사 레이블, 합성 데이터를 조합한 단일언어 특화 학습으로 Whisper Tiny 대비 평균 48% 낮은 오류율을 달성하며, Whisper Small(9배 크기)를 능가하고 Whisper Medium(28배 크기)와 동등하거나 더 우수한 성능을 보였다.
Method
- Moonshine Tiny는 RoPE를 적용한 인코더-디코더 트랜스포머 아키텍처를 사용하며, 입력 오디오 길이에 따라 연산 비용이 선형적으로 증가하여 엣지 환경에 적합하다.
- 데이터는 공개 데이터, 내부 수집 및 의사 레이블링, 그리고 데이터가 부족한 언어에 대해 텍스트 대 음성 합성을 활용하는 3단계 전략으로 준비하였다.
- 모든 모델은 일정 조절 없는 AdamW 옵티마이저를 사용해 8 에폭 동안 대규모 분산 학습 환경에서 훈련되었다.
Results
- Moonshine Tiny 모델은 모든 평가 언어에서 Whisper Tiny를 크게 능가하며 Whisper Small을 상회하고, 다수 언어에서 28배 큰 Whisper Medium과 비슷하거나 더 나은 오류율을 기록하였다.
Limitations
- 저자원 및 초저자원 언어에 대한 데이터 부족 문제 해결을 위해 데이터 합성 및 증강 기법 활용이 앞으로도 필요하다.
Conclusion
- 본 연구는 27M 파라미터 규모의 단일언어 Moonshine Tiny 모델들이 비슷하거나 훨씬 큰 다국어 모델 대비 엣지 기반 ASR에서 우수함을 입증했으며, 관련 모델들을 오픈소스로 공개하여 연구 확산에 기여하였다.
34. MedDINOv3: How to adapt vision foundation models for medical image segmentation?
Introduction
- Goal: 본 연구는 대규모 자연 이미지 기반의 비전 파운데이션 모델을 의료 영상 분할에 적응시키는 방법을 제안하는 데 목표가 있다.
- Motivation: 기존 의료 영상 분할 모델은 특정 작업에 한정되어 있어 모달리티 및 기관 간 일반화가 어렵고, 자연 이미지와 의료 영상 간 도메인 격차로 인해 파운데이션 모델 직접 적용이 제한적이다.
- Contribution: 본 연구에서는 MedDINOv3라는 간단하고 효과적인 프레임워크를 통해 멀티스케일 토큰 집계를 활용한 비전 트랜스포머 구조 개선과 CT-3M 데이터셋을 이용한 도메인 적응 사전학습을 수행하였다.
Method
MedDINOv3는 먼저 기존 ViT 백본을 분석하여 중간 레이어의 패치 토큰을 멀티스케일로 집계하는 구조 개선을 도입하였다. 이어 3.87백만 축 방향 CT 단면을 포함하는 CT-3M 데이터셋으로 DINOv3의 3단계 도메인 적응 사전학습(글로벌/로컬 자기증류, 그래암 앵커링, 고해상도 적응)을 실시하였다. 최종적으로 해당 모델을 다양한 의료 영상 분할 과제에 파인튜닝했다.
Results
MedDINOv3는 AMOS22, BTCV, KiTS23, LiTS 등 4개 공개 벤치마크에서 기존 강력한 CNN 및 트랜스포머 기반 모델들을 능가하거나 동등한 성능을 보였고, AMOS22 및 BTCV에서 각각 DSC 점수를 2.6%, 5.49% 향상시켰다.
Limitations
그래암 앵커링을 포함한 3단계 사전학습 중 일부 단계는 의료 영상 도메인에서 성능 향상에 한정적인 기여를 보였다.
Conclusion
본 연구는 멀티스케일 토큰 집계와 대규모 도메인 적응 사전학습을 결합하여 비전 파운데이션 모델의 의료 영상 분할 활용 가능성을 높였으며, 특화된 CNN 대비 경쟁력 있는 통합 백본 솔루션을 제시하였다.
35. Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
Introduction
- 본 연구의 목표는 대형 언어 모델(LLM)의 프롬프트 민감도가 모델의 내재적 결함인지 아니면 평가 과정에서 생긴 인위적 현상인지를 재고하는 것이다.
- 다양한 표현 방식에 따른 성능 차이가 LLM 평가의 신뢰성에 영향을 미친다는 우려가 존재한다.
- 본 연구는 여러 LLM과 다양한 평가 지표를 활용하여 프롬프트 민감도의 원인을 체계적으로 분석하고, LLM을 평가자로 활용하는 새로운 평가 방식을 제안하였다.
Method
본 연구는 12개의 다채로운 프롬프트 템플릿을 설계하고, 7종의 LLM을 대상으로 6개의 벤치마크를 적용하였다. 기존의 휴리스틱 평가 방법과 달리 LLM을 평가자로 사용하는 방식을 도입하여 의미적 일치를 판단하도록 하였다. 또한, 다양한 프롬프트에 따른 성능 변동과 순위 일관성을 정량적으로 측정하였다.
Results
LLM-as-a-Judge 평가 방식은 휴리스틱 평가와 비교했을 때 프롬프트에 따른 성능 변동과 순위 불안정성이 크게 감소하였으며, 인간 평가자와도 높은 일치도를 보였다.
Limitations
계산 자원 제약으로 인해 각 벤치마크당 12개의 프롬프트만 사용하여 평가했으나, 일부 실험에서 100개 이상의 템플릿과도 유사한 결과를 보였다.
Conclusion
프롬프트 민감도는 LLM의 고유한 문제라기보다는 기존 휴리스틱 평가 방법에 기인한 인위적 현상이며, LLM-as-a-Judge 평가가 보다 신뢰할 수 있는 대안임이 증명되었다.
36. Improving Large Vision and Language Models by Learning from a Panel of Peers
Introduction
- Goal: 본 연구의 목적은 대형 비전-언어 모델(LVLM)의 성능을 패널로 구성된 동료 모델 간 상호 학습을 통해 향상하는 방법을 제안하는 것이다.
- Motivation: 기존 LVLM 정렬 방법은 고비용의 인간 선호 데이터에 의존하거나 품질이 낮은 기계 생성 데이터에 한계가 있으며, 자가감독 데이터는 환각 문제를 유발하는 단점이 존재한다.
- Contribution: 본 논문은 모델들 간의 상호 평가와 피드백을 통한 자기 개선 프로세스를 구현한 Panel-of-Peers(PoP) 학습 프레임워크를 제안하고 15개 벤치마크에서 평균 점수를 48%에서 57%로 향상시켰음을 입증하였다.
Method
PoP는 동등한 능력을 갖춘 여러 LVLM을 패널로 구성하여, 동일한 입력에 대해 후보 응답을 생성하고 서로의 응답을 평가하며, 이 평가를 종합하여 보상 점수를 산출한다. 보상 기준으로 0.85 이상의 점수를 받은 응답을 선택하여, 선호 데이터를 구성하고 이를 이용해 패널 멤버들을 반복적으로 세밀 조정한다. 이러한 생성-평가-학습 단계를 여러 차례 반복함으로써 패널 내 모델 간 지식 전이가 이루어지고 성능이 점진적으로 향상된다.
Results
PoP 학습은 15개 벤치마크에서 반복 학습 후 최고 58.2%의 평균 점수를 기록하여, 기존의 RLHF, CSR 등 최첨단 선호 정렬 기법들을 일관되게 능가하는 성능 향상을 보여주었다.
Limitations
PoP 방법은 평가에 상대적 스코어링보다 절대 평가 방식을 적용할 때 계산 비용이 증가하며, 다수 평가자와의 긴 평가 프롬프트로 인한 문맥 손실 문제가 잔존한다.
Conclusion
Panel-of-Peers 학습은 대규모 인간 주석 없이도 LVLM들이 동료의 피드백을 통해 효율적으로 자기 개선하며, 다양한 과제에서 능력 향상과 지식 전이를 가능하게 하는 확장성 있는 새로운 학습 패러다임임이 확인되었다.
37. Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
Introduction
- Goal: 본 연구는 3D 포인트 클라우드의 자기지도학습에서 두 개념을 분리한 뷰를 생성하여 상호 재구성하는 새로운 사전학습 패러다임을 제안하는 데 목적이 있다.
- Motivation: 기존 단일 뷰 기반의 자기재구성 방식은 학습의 난이도와 표현력에 한계가 있으며, 서로 다른 두 뷰 간 재구성은 더 다양하고 도전적인 학습을 가능하게 한다.
- Contribution: Point-PQAE라는 새로운 생성적 자기지도학습 프레임워크를 제안하고, 이를 위해 점군 데이터용 크롭 메커니즘과 3차원 상대 위치 정보를 반영한 위치 쿼리 모듈을 개발하였다.
Method
제안하는 Point-PQAE는 포인트 클라우드에서 두 개의 독립된 뷰를 크롭 및 회전을 통해 생성하고, 한 뷰로부터 다른 뷰를 교차 재구성하는 방식을 취한다. 뷰 상대 위치 임베딩(VRPE)을 도입하여 뷰 간 상대 위치 정보를 인코더의 잠재 표현과 결합한 후, 위치 쿼리 블록을 통해 교차 주의를 수행한다. 이를 통해 엄격한 교차 재구성 손실을 최소화하며 보다 풍부한 의미론적 표현 학습을 가능하게 한다.
Results
Point-PQAE는 ScanObjectNN 벤치마크에서 Point-MAE 대비 MLP-LINEAR 평가 프로토콜 기준 6.7% 향상된 정확도를 기록하며 기존 자기재구성 방법을 크게 능가하였다.
Limitations
본 연구는 뷰 분리 및 상대 위치 임베딩의 설계에 중점을 두었으나, 3D 점군의 구조적 다양성 측면에서는 아직 추가적인 일반화 연구가 필요하다.
Conclusion
본 연구는 교차 재구성 기반 3D 포인트 클라우드 자기지도학습 프레임워크 Point-PQAE를 통해 기존 자기재구성 대비 더욱 도전적이고 정보량이 높은 사전학습을 실현하여 뛰어난 표준 벤치마크 성능을 달성하였다.
38. C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection
Introduction
- Goal: 본 논문은 글로벌 장면 문맥과 생성적 노이즈 제거를 융합하여 고충실도의 세밀한 객체 검출을 구현하는 C-DiffDet+ 모델을 제안하는 데 목적이 있다.
- Motivation: 기존의 확산 모델 기반 객체 검출기들은 지역적 특징에만 의존하여 문맥적 정보가 중요한 세밀한 검출 과제에서 한계를 보였기 때문에 이를 극복하고자 하였다.
- Contribution: 글로벌 컨텍스트 인코더와 컨텍스트 인지 융합 모듈을 결합하여 확산 기반 검출기의 로컬 정보 의존 문제를 해결하고 CarDD 벤치마크에서 최첨단 성능을 달성하였다.
Method
본 연구에서는 Swin Transformer 백본을 활용하고 적응 채널 강화(ACE) 블록으로 특징을 개선하며, 글로벌 컨텍스트 인코더(GCE)로 전체 장면 정보를 추출한다. 이어서 컨텍스트 인지 융합(CAF) 모듈을 통해 글로벌 문맥과 로컬 제안 특징의 크로스 어텐션을 수행하며, 멀티모달 융합으로 시간, 위치, 문맥 정보를 통합한다. 이러한 구조는 노이즈 제거 확산 과정에 글로벌 장면 정보를 조건화하여 세밀하고 정확한 객체 검출을 가능케 한다.
Results
CarDD 자동차 손상 검출 데이터셋에서 C-DiffDet+는 기존 최상위 모델 대비 평균 정밀도(AP) 64.8%를 기록하며 특히 작은 손상 영역에서 6.8%p 향상된 성능을 보였다.
Limitations
중간 크기 손상 검출에서는 더 개선된 지역적 특징 처리가 필요한 것으로 나타나 본 모델의 전반적 성능에 한계가 있다.
Conclusion
글로벌 장면 문맥과 생성적 노이즈 제거를 결합한 본 모델은 미세하고 문맥 의존적인 손상 검출 과제에서 기존 접근법을 능가하는 우수한 성능을 입증하였다.
39. FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models
Introduction
- Goal: 본 연구는 캐시 가능한 확산 모델을 활용하여 멀티 레퍼런스 가상 착용(Multi-Reference Virtual Try-On)의 속도와 품질을 개선하는 FastFit 프레임워크를 제안하는 데 목적이 있다.
- Motivation: 기존의 가상 착용 기술은 복수의 참조 이미지 통합 지원 부족과 참조 특징의 반복 재연산으로 인한 비효율성 문제에 직면해 있다.
- Contribution: 본 연구는 참조 특징 인코딩과 디노이징 과정을 분리하는 캐시 가능 UNet 구조와 세미 어텐션 메커니즘을 통해 3.5배 가속을 달성하고, 다섯 범주를 아우르는 대규모 DressCode-MR 데이터셋을 구축하였다.
Method
FastFit은 참조 이미지의 클래스 임베딩을 사용해 타임스텝 독립적인 참조 특징을 추출하며, 세미 어텐션을 통해 디노이징 과정 중 참조 특징을 읽기 전용으로 활용한다. 이로써 참조 특징을 단 한 번만 계산하여 모든 디노이징 단계에서 효율적으로 재사용하는 구조를 구현하였다. 최종적으로 VAE 디코더를 통해 고해상도 가상 착용 이미지를 생성한다.
Results
FastFit은 VITON-HD, DressCode, DressCode-MR 세 데이터셋에서 최첨단 이미지 품질을 유지하면서 평균 3.5배 빠른 추론 속도를 달성하였다.
Limitations
복잡한 의류 간 물리 상호작용 모델링과 비주류 의류 스타일 일반화, 실시간 인터랙티브 구현은 향후 과제로 남아있다.
Conclusion
FastFit은 멀티 레퍼런스 가상 착용의 효율성과 품질 간 균형을 혁신적으로 개선하여 전자상거래 및 지능형 스타일링 분야에서의 실제 적용 가능성을 크게 높였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: