Daily Papers — 2025-08-29"
1. Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
Introduction
- Goal: 본 논문은 텍스트-이미지(text-to-image, T2I) 생성의 강화학습에서 안정적인 정책 최적화를 위한 페어와이즈 선호 보상 기반 GRPO 방법인 PREF-GRPO를 제안하는 것을 목표로 한다.
- Motivation: 기존 GRPO 기반 방법들이 점수 최대화에 집중하며 미미한 보상 차이를 과도하게 증폭하는 환상적 이점(illusory advantage) 문제로 인해 보상 해킹과 품질 저하가 발생하는 문제점을 해결하고자 한다.
- Contribution: PREF-GRPO를 통해 점수 최대화 대신 페어와이즈 선호 적합(pairwise preference fitting)으로 최적화 목표를 재정의하고, 세밀한 의미적 일관성 평가를 위한 통합 텍스트-이미지 생성 벤치마크 UNIGENBENCH를 새롭게 제안한다.
Method
PREF-GRPO는 기존 절대 점수 기반 보상 모델 대신 페어와이즈 선호 보상 모델을 활용하여, 각 생성 이미지를 그룹 내 다른 이미지와 쌍별 비교하여 승률을 보상 신호로 사용한다.
이로 인해 보상 분산이 증대되어 미미한 차이에 대한 과도한 최적화를 방지하고, 비교 기반 평가를 통해 사람의 선호를 보다 정확히 반영한다.
또한 MLLM 기반 자동화 파이프라인을 통해 다양한 프롬프트와 세밀한 평가 기준을 가진 UNIGENBENCH 벤치마크를 구축하여, T2I 모델의 다차원적 성능을 분석한다.
Results
PREF-GRPO는 기존 점수 최대화 기반 방법 대비 UNIGENBENCH에서 전반적인 의미적 일관성 점수가 5.84% 개선되었으며, 텍스트와 논리 추론 영역에서 각각 12% 이상의 성능 향상과 보상 해킹 완화가 확인되었다.
Limitations
본 연구는 제한된 데이터 및 상황에 따른 일반화 가능성에 대한 추가 검증이 필요하며, 일부 하위 평가 차원에 대한 세밀한 분석은 정보 부족으로 명확하지 않다.
Conclusion
PREF-GRPO는 페어와이즈 선호 기반 강화학습을 통해 텍스트-이미지 생성의 안정적 최적화를 가능하게 하며, UNIGENBENCH를 통해 세밀한 평가와 T2I 모델 개발에 새로운 기준을 제시한다.
2. rStar2-Agent: Agentic Reasoning Technical Report
Introduction
- 목표: 본 연구는 에이전트 강화학습을 활용하여 14B 규모의 수학 추론 모델 rStar2-Agent를 개발하고 최첨단 성능을 달성하는 것이다.
- 동기: 기존의 Chain-of-Thought(긴 사고 과정) 방식은 복잡 문제 해결 시 중간 과정의 오류를 효과적으로 감지하거나 수정하지 못하는 한계가 존재한다.
- 기여: Python 코드 도구를 활용하여 자율적 탐색과 검증, 중간 단계 개선이 가능한 에이전트 강화학습 방법론과 효율적 대규모 학습 인프라, GRPO-RoC 알고리즘 및 교육 레시피를 제안하였다.
Method
모델은 코드 실행 환경 내에서 Python 기반 도구 호출로 다중 턴 추론을 수행하며, GRPO-RoC라는 그룹 상대 정책 최적화 기법과 정답 기반 재샘플링 전략으로 환경 잡음을 완화한다. 효율적인 RL 인프라 구축으로 최대 45,000건의 동시 코드 호출을 0.3초 내에 처리하며, 동적 로드 밸런싱 스케줄러로 GPU 효율성을 극대화한다. SFT 기반의 비추론 초기화 단계 이후 다단계 RL 훈련을 통해 최소한의 연산 비용으로 고도의 인지 능력을 발현시킨다.
Results
rStar2-Agent-14B는 단 510 RL 스텝, 1주일 내에 AIME24 80.6%, AIME25 69.8% 등 수학 추론 분야에서 671B DeepSeek-R1을 능가하는 최첨단 성능을 기록하였다.
Limitations
에이전트 강화학습 과정에서 도구 사용 오류와 포맷 위반이 초기에는 상당 수준 존재하여 이를 해결하는 데 추가적인 샘플링 전략과 알고리즘 설계가 필요하였다.
Conclusion
본 연구는 에이전트 강화학습과 코드 실행 도구 활용을 통한 스마트한 추론 강화가 가능함을 보였으며, 효율적 인프라와 알고리즘적 혁신으로 대규모 언어 모델의 수학 및 일반 추론 능력을 획기적으로 향상시켰다.
3. USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
Introduction
- Goal: 본 연구는 스타일 주도 및 주제 주도 이미지 생성 작업을 하나의 통합 프레임워크로 통합하여 스타일과 내용을 분리하고 재조합하는 모델을 개발하는 데 목적이 있다.
- Motivation: 기존 연구들은 스타일 주도 생성과 주제 주도 생성을 별개의 과제로 다루며 상호 배타적인 목표를 설정하였으나, 두 목표가 본질적으로 스타일과 콘텐츠의 분리에 귀결되기에 함께 학습될 수 있다고 보았다.
- Contribution: 본 논문에서는 대규모 삼중 이미지 데이터셋 구축, 교차 작업 공동 분리 학습, 스타일 보상학습을 포함한 USO 모델 및 평가 벤치마크 USO-Bench를 제안하여 두 작업을 동시에 향상시키는 새로운 패러다임을 제시하였다.
Method
- 우선 UNO 모델을 기반으로 스타일 전문가와 비스타일 전문가 모델을 학습하여 <스타일 참조, 비스타일 주제 참조, 스타일화 결과> 형태의 삼중 데이터셋을 구축하였다.
- 두 단계의 학습으로 먼저 SigLIP 기반 스타일 정렬 학습으로 스타일 임베딩을 정렬하고, 이어 분리된 인코더를 활용하여 콘텐츠와 스타일을 분리하는 다중 조건화 모델을 훈련시켰다.
- 추가로 스타일 보상학습(SRL)을 도입하여 스타일 일관성 강화를 목표로 하여 모델 성능을 향상시켰다.
Results
- USO 모델은 USO-Bench, DreamBench 등 다양한 벤치마크에서 주제 일관성, 스타일 유사성, 텍스트-이미지 정렬 측면에서 현존 오픈소스 모델 대비 최고 수준의 성능을 기록하였다.
Limitations
- 본 논문에서는 스타일 보상학습에 의존하나, 정체성 보존을 위한 명시적 데이터는 포함하지 않아 일부 극단 상황에서 한계가 존재할 수 있다.
Conclusion
- USO는 스타일 주도 및 주제 주도 이미지를 통합하여 공동 분리 학습과 스타일 보상학습을 통해 두 작업을 상호 강화함으로써 통합 이미지 생성 분야에서 최첨단 성능을 달성한 통합 프레임워크임을 입증하였다.
4. AWorld: Orchestrating the Training Recipe for Agentic AI
Introduction
- Goal: 본 논문은 Agentic AI 개발에 필요한 ‘learning from practice’ 패러다임을 실현하기 위한 효율적인 훈련 프레임워크 AWORLD를 제안하는 데 목적이 있다.
- Motivation: 복잡한 GAIA 벤치마크에서 경험 생성 과정의 비효율성이 Agentic AI 개발의 주요 병목으로 작용하기 때문에 이를 해결할 필요가 있다.
- Contribution: AWORLD의 분산 실행 아키텍처를 통해 경험 생성 속도를 14.6배 향상시키고, 이를 통해 Qwen3-32B 기반 에이전트를 훈련하여 기존 모델 대비 성능을 대폭 향상시킨 점이다.
Method
AWORLD는 에이전트 구성, 통신 프로토콜, 분산 상태 관리, 그리고 강화학습과 통합되는 훈련 조율을 포함하는 모듈형 프레임워크이다.
에이전트는 다양한 도구와 환경과 상호작용하며 메시지 기반 통신을 통해 복잡한 작업을 수행하고, Kubernetes 기반 분산 클러스터에서 높은 동시성으로 경험 데이터를 생성한다.
이 경험 데이터는 외부 강화학습 프레임워크와 연동되어 주기적인 정책 업데이트에 활용된다.
Results
AWORLD를 활용해 훈련한 Qwen3-32B 기반 에이전트는 GAIA 벤치마크에서 기본 모델 대비 정확도가 21.59%에서 32.23%로 상승했으며, 난이도 최상위 문제에서는 16.33%의 점수로 유명한 독점 모델들보다 우수한 성과를 보여주었다.
Limitations
단일 노드에서의 병렬 처리 한계 및 도구와 환경의 자원 집약적 특성으로 인해 분산 시스템 의존성이 높아지는 점이 한계로 지적된다.
Conclusion
AWORLD는 Agentic AI 훈련에 필요한 경험 생성 병목을 효과적으로 극복하여, 실용적이고 경쟁력 있는 에이전트 개발을 가능하게 하는 개방형 학습 인프라를 제공한다.
5. TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning
Introduction
- Goal: 본 논문은 대규모 언어 모델의 실세계 과제에 최적화된 다양하고 과제 연관성 높은 지시문 데이터 생성을 위한 Task-Centric Instruction Augmentation (TCIA) 방법을 제안하는 것이다.
- Motivation: 기존 자동 지시문 생성 방법들은 데이터의 다양성과 품질을 보장하지만 실제 과제와의 연관성(task drift)을 간과하여 특정 과제에 적합한 지시문 확보에 한계가 있었다.
- Contribution: TCIA는 지시문을 기본 질의와 제약 조건으로 분해하여 의미 기반 데이터베이스에서 유사 제약을 탐색 및 변형하는 폭넓은 탐색방법을 통해 고다양성·고연관성 지시문을 생성하며, 이를 기반으로 실세계 과제에서 기존 모델들을 능가하는 성능 향상을 입증하였다.
Method
TCIA는 자연어 지시문을 기반 질의와 명확히 분류된 제약 조건 집합으로 해체한 뒤, 문맥 유사 제약들을 대규모 데이터베이스에서 검색하여 추가, 제거, 대체하는 폭넓은 탐색(BFS)로 다양한 지시문 집합을 생성한다. 생성된 지시문은 다시 자연어로 변환되고, 다중 LLM 검증 및 품질 평가지표를 활용해 타당성과 일관성을 검증받아 엄선된다. 최종적으로 고품질 지시-응답 쌍을 구축하여 감독 미세조정에 활용한다.
Results
TCIA는 4가지 내부 실세계 과제에서 고정 지시문 및 WizardLM 기반 증강 대비 평균 8.7% 향상된 성능을 보였으며, GPT-4o 같은 폐쇄형 최첨단 모델들까지 능가하는 결과를 달성하였다.
Limitations
실험에 사용된 내부 데이터 및 구체 지시문 구성 일부가 공개되지 않아 외부 재현에 제한이 존재한다.
Conclusion
TCIA는 지시문 분해 및 의미 기반 제약 조작을 통한 체계적 증강으로 과제 특화 학습을 효과적으로 지원하며, 모델이 복잡하고 변화하는 실제 작업 요구사항에 유연하게 대응할 수 있도록 하는 실용적 지시문 증강 프레임워크임을 입증하였다.
6. Mixture of Contexts for Long Video Generation
Introduction
- Goal: 본 연구의 목표는 학습 가능한 희소 어텐션 라우팅 모듈인 Mixture of Contexts (MoC)를 통해 장시간 영상 생성 문제를 효율적이고 일관성 있게 해결하는 것이다.
- Motivation: 기존의 확산 트랜스포머 기반 영상 생성 모델은 자기어텐션의 제곱 복잡도로 인해 긴 시퀀스 처리와 장기 기억 유지에 한계가 존재한다.
- Contribution: MoC는 쿼리가 영상 내 중요한 청크와 필수 앵커(자막, 지역 윈도우)만을 동적으로 선택해 대응하며 인과적 라우팅을 적용함으로써 분산된 문맥을 효과적으로 검색 및 활용하는 방법을 제안한다.
Method
MoC는 영상 시퀀스를 프레임, 샷, 자막 단위로 내용 정렬된 청크로 나누고 각 쿼리가 의미 있는 상위 k개 청크를 선택하는 비매개변수(top-k) 라우터를 학습한다. 모든 텍스트 토큰과 같은 샷 내 지역 토큰은 필수 앵커로 설정되어 지역적 신뢰성을 보장하고, 경로에 순환이 없도록 인과적 마스킹을 적용한다. 이를 통해 계산량은 거의 선형으로 감소하며 영상 단위 수 분 동안 장기 기억과 일관성을 유지할 수 있다.
Results
MoC는 8초 단일 샷 영상과 64초 다중 샷 장시간 영상 생성에서 최대 85% 희소성으로 계산량을 7배 이상 줄이면서도 VBench 평가 지표 전반에서 기준 모델과 동등하거나 우월한 품질을 달성하였으며, 특히 다중 샷 영상에서는 2.2배 속도 향상과 동적 움직임 정도 개선 효과를 보였다.
Limitations
현재 MoC는 LCT와 동일한 데이터 및 설정에서 평가되었으며, 더 긴 시퀀스에 대한 효율성 및 추가 속도 향상 가능성은 향후 연구 과제로 남아 있다.
Conclusion
본 연구는 학습 가능한 희소 어텐션 라우팅이 영상 생성에서 장기 메모리 문제를 해결하며, 계산 비용을 단축하고 데이터 기반으로 중요한 문맥만 집중하는 새로운 장기 영상 생성 패러다임의 실현 가능성을 입증하였다.
7. MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
Introduction
- 본 연구의 목표는 현실적이고 복잡한 다단계 작업에서 도구 활용 능력을 평가할 수 있는 대규모 언어 모델 벤치마크 MCP-Bench를 제안하는 것이다.
- 기존 벤치마크들은 도구 간 상호 연계가 부족하고 명확한 도구 지정에 의존하여 실제 도구 사용의 복잡성과 장기적 계획 능력을 제대로 평가하지 못하는 한계가 있었다.
- MCP-Bench는 28개의 MCP 서버를 통해 250개의 도구를 연결하고, 모호한 지시문에서 도구를 식별하고 다목적 목표를 위한 계획과 증거 기반 추론 능력까지 포괄적으로 평가하는 체계적 평가 프레임워크를 제공한다.
Method
- MCP-Bench는 MCP 프로토콜을 기반으로 다양한 도메인의 실시간 서버들과 연동하여 실제 도구들의 입력-출력 종속성을 반영한 다단계 복합 작업을 자동으로 생성한다.
- 각 작업은 명시적 도구 이름 없이 모호화된 지시문으로 변환되어 언어 모델이 적절한 도구를 자체 탐색하여 사용하도록 설계되었다.
- 결과 평가는 도구 호출의 유효성 및 실행 성공률을 확인하는 규칙 기반 평가와, 작업 완성도, 도구 사용 적합성, 계획 효율성을 판단하는 LLM 판정자 기반 평가를 결합하여 수행된다.
Results
- 20개 최첨단 LLM 실험 결과, 모든 모델이 도구 스키마 이해는 대체로 우수하였으나, 복잡한 다단계 및 다서버 작업에서 계획 능력 및 상호작용 조율에 현저한 성능 차이를 보였으며, GPT-5와 O3 등이 최고 성능을 나타내었다.
Limitations
- MCP-Bench는 실제 도구 생태계의 복잡성을 잘 반영하나, 일부 도메인과 작업 유형에서 작업 수가 제한적이며, 완전 자동화된 평가의 신뢰도 향상을 위한 추가 연구가 필요하다.
Conclusion
- MCP-Bench는 다중 도메인·다단계·모호한 지시문 환경에서 LLM 도구 활용 능력을 종합적으로 평가할 수 있는 확장 가능하고 현실적인 벤치마크 플랫폼으로, LLM 에이전트의 실무 적용 역량 강화에 기여한다.
8. CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
Introduction
- Goal: 본 연구는 인간 인지 과정을 모방한 3단계 점진적 아키텍처를 통해 명령어 기반 라우팅 및 희소화를 적용하는 인지 정렬 비전-언어-액션(CogVLA) 모델을 제안하는 것이다.
- Motivation: 기존 VLA(비전-언어-액션) 모델은 고비용의 후훈련과 계산 오버헤드로 인해 확장성과 실제 적용에 한계가 발생하며, 시각-언어-행동 간 의미적 결합을 무시한 단편적 최적화가 문제이다.
- Contribution: CogVLA는 사람의 시각집중, 의미적 의도 주입, 행동 계획 과정을 모방하는 EFA-Routing, LFP-Routing, CAtten 모듈을 통합하여 효율성과 성능을 동시에 향상시킨다.
Method
CogVLA는 ① 시각 인코더에서 명령어 기반 희소화로 시각 토큰을 25%로 압축하는 Encoder-FiLM 기반 집계 라우팅(EFA-Routing), ② 대형 언어 모델 내에서 행동 의도 주입과 불필요한 시각 토큰을 제거하는 LLM-FiLM 기반 가지치기 라우팅(LFP-Routing), ③ 인과적 시각-언어 주의와 양방향 행동 디코딩을 결합하여 의미적 일관성과 행동 연속성을 확보하는 V-L-A 결합 주의(CAtten)로 구성된다.
Results
LIBERO 벤치마크와 실제 로봇 작업에서 CogVLA는 기존 최고 성능 모델 대비 97.4% 성공률을 기록하며 2.5배 학습 비용 절감과 2.8배 추론 속도 향상을 달성하였다.
Limitations
실험 결과 Goal 카테고리에서 성능이 다소 낮으며 이는 성능과 효율성 간 절충 설계 때문인 것으로 나타났다.
Conclusion
CogVLA는 명령어 중심의 다중 모달 희소화로 계산 효율과 의미적 일관성을 동시에 극대화하여 차세대 통합 비전-언어-행동 모델 설계에 중요한 방향성을 제시한다.
9. OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn Dialogue with Large Language Models
Introduction
- Goal: 본 연구의 목표는 다중 턴 대화에서 대화 목표를 추적하고 시각화하여 대형 언어 모델(LLM)과의 복잡한 대화 속에서 사용자가 목표 진척 상황을 효과적으로 평가하고 검토할 수 있도록 지원하는 것이다.
- Motivation: 긴 대화와 변화하는 맥락으로 인해 사용자가 대화 목표를 파악하고 관리하는 데 어려움이 존재하며, 이는 반복적인 명령 입력이나 대화 재시작 등의 비효율성을 야기하기 때문이다.
- Contribution: 본 논문은 LLM 기반 대화에서 목표를 자동으로 추론·병합·평가하는 파이프라인과 이를 시각화하는 OnGoal 인터페이스를 제안하고, 사용자 연구를 통해 목표 추적이 대화 효율성과 참여도를 향상시킴을 입증하였다.
Method
OnGoal은 GPT-4o 기반의 목표 파이프라인으로 사용자 발화에서 질문, 요청, 제안 등의 목표를 추론한 후 유사하거나 상반되는 목표를 병합하거나 대체한다.
그 다음 대화 모델의 응답에 대해 각 목표 달성 여부를 평가하고, 그 결과와 근거를 실시간으로 설명 및 시각화한다.
사용자 인터페이스는 인라인 목표 요약, 타임라인과 이벤트 뷰 등 다양한 시각화와 텍스트 하이라이팅을 제공하여 사용자가 목표 진척과 LLM 행태를 쉽게 검토하도록 지원한다.
Results
OnGoal을 사용한 20인 대상 연구 결과, 참가자들은 목표 추적 기능이 없는 기본 인터페이스 대비 더 적은 시간과 노력을 들여 목표를 달성하고, 오해를 극복하기 위한 새로운 프롬프트 전략을 탐색하여 LLM 대화의 몰입도와 회복탄력성을 높였다.
Limitations
OnGoal은 전역 차원에서 목표를 추적하는 데 집중하며, 특정 문장이나 부분 문맥별로 국소 목표를 다루는 기능은 제한적이다.
Conclusion
OnGoal은 다중 턴 LLM 대화에서 목표 관리의 어려움을 완화시키며, 향후 LLM 대화 인터페이스 설계에 있어 목표 소통 강화, 인지 부하 완화, 상호작용성 증진 및 피드백 기능의 중요성을 제시한다.
10. Dress&Dance: Dress up and Dance as You Like It - Technical Preview
Introduction
- Goal: Dress&Dance는 단일 사용자 이미지와 원하는 의상 및 참조 동영상을 입력받아, 고해상도(1152×720) 5초 길이의 24 FPS 가상 착용(virtual try-on) 영상을 생성하는 비디오 확산 프레임워크이다.
- Motivation: 기존 가상 착용 기술은 정적인 2D 이미지 생성에 한정되어 사용자의 움직임과 의상의 자연스러운 흐름을 표현하지 못하는 한계가 있었다.
- Contribution: 본 연구는 다중 모달 입력을 통합하는 CondNet 조건부 네트워크와 다단계 점진적 훈련 전략을 도입하여 다양한 의상 조합과 정교한 동작 묘사가 가능한 고품질 가상 착용 동영상 생성을 가능하게 하였다.
Method
Dress&Dance는 사용자 이미지, 의상 이미지 또는 세트, 참조 모션 동영상, 그리고 선택적 텍스트를 토큰 시퀀스로 변환한 후 통합 확산 백본에 입력한다. CondNet은 텍스트, 이미지, 비디오를 통합하는 크로스 어텐션 기반 조건부 모듈로서 의상 등록과 동작 재현성을 향상시킨다. 훈련은 의상 위치 학습을 위한 커리큘럼 기반 워밍업과 해상도 및 조건 복잡도를 점진적으로 높이는 다단계 방식으로 진행되며, 최종적으로 8 FPS 영상을 24 FPS로 업샘플링하는 비디오 정제기를 포함한다.
Results
Dress&Dance는 다양한 가상 착용 모드와 참조 모션에 대해 공개 소스 및 상용 모델과 비교하여 전반적인 의상 충실도 및 시각적 품질 평가에서 우수한 성능을 보였다.
Limitations
의상이 사용자의 손이나 신체 일부에 의해 가려질 경우, 기존 방법들은 해당 영역의 의상 정보를 복원하지 못했으나, Dress&Dance는 이를 극복하였지만 복잡한 장면에서는 여전히 제한점이 존재한다.
Conclusion
Dress&Dance는 다중 모달 컨디셔닝과 효율적인 훈련 방법을 통해 고해상도 영상에서 동작과 의상을 동시에 정밀하게 재현하는 최초의 가상 착용 비디오 생성 프레임워크로서 우수한 품질과 유연성을 입증하였다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: