Daily Papers — 2025-08-31"
1. Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
Introduction
- Goal: 본 연구의 목표는 텍스트-투-이미지(Text-to-Image, T2I) 강화학습에서 안정적인 정책 최적화를 위해 쌍대 선호(pairwise preference) 보상에 기반한 GRPO 기법인 PREF-GRPO를 제안하는 것이다.
- Motivation: 기존 GRPO 기반 방법들은 점수 최대화에 치중하여 보상 해킹(reward hacking)이 발생하며, 이는 보상 점수 차이가 미미한 이미지 간 차이를 과도하게 확대하는 환상적 이점(illusory advantage) 문제에서 비롯된다.
- Contribution: 쌍대 선호 보상 모델을 활용하여 보상 점수 최대화 대신 이미지 간 선호도 적합화로 최적화 목표를 전환한 PREF-GRPO와, 세밀한 평가 기준을 포함한 T2I 평가 벤치마크 UNIGENBENCH를 제안하였다.
Method
PREF-GRPO는 각 단계에서 생성된 이미지 집단 내 모든 이미지 쌍을 쌍대 선호 보상 모델로 비교하고, 해당 이미지의 승률을 정책 최적화 보상으로 사용한다. 이를 통해 미세한 이미지 품질 차이를 안정적으로 구분하고 보상 해킹 문제를 완화한다. 또한, 점수 정규화 시 발생하는 환상적 이점 문제를 해결하여 정책 업데이트 과정의 안정성을 높였다.
Results
UNIGENBENCH를 활용한 실험에서, PREF-GRPO는 기존 점수 최대화 기반 방법 대비 T2I 생성의 의미적 일관성과 이미지 품질에서 유의미한 성능 향상과 보상 해킹 완화 효과를 입증하였다.
Limitations
본 연구는 제안한 PREF-GRPO 및 UNIGENBENCH가 다양한 측면에서 효과적임을 보였으나, 더욱 복잡한 추론과 텍스트 표현 해석 등에 대해서는 여전히 개선의 여지가 존재한다.
Conclusion
쌍대 선호 보상 기반의 PREF-GRPO는 기존 점수 최대화 접근법의 한계를 극복하며 T2I 강화학습에서 보다 안정적이고 의미 있게 보상을 설계하는 새로운 패러다임을 제시하였다.
2. rStar2-Agent: Agentic Reasoning Technical Report
Introduction
- 본 연구의 목표는 에이전트 강화학습을 이용하여 14억 매개변수 규모의 수학 추론 모델 rStar2-Agent를 개발하여 최첨단 수준의 성능을 달성하는 것이다.
- 기존의 긴 체인 오브 쏘트(Long CoT)가 한계에 봉착한 문제에 대해, Python 코딩 도구 활용과 실행 피드백 반영을 통한 자율적 탐색 및 정교한 중간 단계 검증 능력의 필요성이 존재한다.
- 주요 기여로는 (i) 고성능 Python 코드 실행 환경을 포함한 효율적 강화학습 인프라 구축, (ii) 코딩 환경 잡음을 해결하는 GRPO-RoC 알고리즘 제안, (iii) 비추론 사전학습 후 다단계 RL 학습을 통한 효율적 인지능력 향상이다.
Method
rStar2-Agent는 Python 코드를 통한 다중 상호작용 롤아웃을 수행하며 에이전트 강화학습을 적용한다.
GRPO-RoC 알고리즘은 결과 보상만 사용하는 상황에서 품질이 낮은 성공 경로를 거르고 다양한 실패 사례를 유지하여 학습의 안정성과 코드 오류 감소를 달성한다.
대규모 코드 실행 요청을 처리하는 독립적 서비스와 GPU 자원을 효율 배분하는 동적 스케줄러를 통해 제한된 자원에서도 대규모 학습이 가능하도록 설계되었다.
Results
rStar2-Agent-14B는 510단계 단기 RL 학습만으로 AIME24에서 80.6%, AIME25에서 69.8%의 평균 합격률을 기록하며 671억 매개변수 모델 DeepSeek-R1을 능가하는 수학적 추론 성능을 달성하였다.
Limitations
환경 잡음과 코드 오류 문제는 GRPO-RoC를 통해 완화되었으나 초기 RL 단계에서의 탐색 및 학습 과정에서 여전히 일부 불안정성이 존재한다.
Conclusion
rStar2-Agent는 에이전트 강화학습과 효율적 인프라 및 알고리즘 설계를 통해 제한된 연산 자원 내에서 최첨단 수학 추론 성능과 일반화 능력을 동시에 구현하였다.
3. USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
Introduction
- Goal: 본 연구는 스타일 지향 및 주제 지향 이미지 생성 작업을 단일 모델에서 통합하여 처리하는 USO(Unified Style-Subject Optimized) 프레임워크를 제안하는 데 있다.
- Motivation: 기존 연구들은 스타일과 주제에 따른 생성 작업을 분리하여 수행하고 있으며, 이는 상호 보완적 특성을 충분히 활용하지 못해 표현 능력에 한계가 존재한다는 점에 착안하였다.
- Contribution: 본 논문은 두 태스크 간 공동 분리 학습(cross-task co-disentanglement) 패러다임, 대규모 삼중항(triplet) 데이터셋 구축, 점진적 스타일 정렬 및 보상 학습 기법을 통합한 USO 모델과 이를 평가할 수 있는 USO-Bench 벤치마크를 제시하였다.
Method
본 연구는 스타일 이미지, 컨텐츠 이미지, 그리고 스타일이 입혀진 결과 이미지로 구성된 삼중항 데이터셋을 기반으로 스타일-주제 특성을 분리 및 재조합하는 학습 프레임워크를 개발하였다. 먼저, 스타일 정렬 훈련을 통해 스타일 특징 추출기를 개선하고, 이어서 스타일과 컨텐츠 특징을 분리하는 다중 조건부 학습을 수행한다. 추가로, 스타일 보상 학습(Style Reward Learning, SRL)을 도입하여 스타일 유사성 및 주제 일관성 강화에 기여한다.
Results
USO는 USO-Bench와 DreamBench 평가에서 주제 일관성, 스타일 유사성, 텍스트 정합성 지표 모두에서 기존 오픈소스 모델 대비 최고 성능을 달성하였다.
Limitations
정보 부족
Conclusion
USO는 주제 및 스타일 지향 생성 작업을 통합하는 새로운 공동 분리 학습 모델로서, 고품질의 개별 및 복합적 이미지 생성에 대한 최첨단 성능을 입증하였다.
4. MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
Introduction
- Goal: 본 논문은 복잡하고 현실적인 다단계 작업에서 도구 사용 능력을 평가하기 위한 대규모 벤치마크 MCP-Bench를 제안하는 것이다.
- Motivation: 기존의 도구 사용 LLM 벤치마크는 제한된 도구, 명시적 실행 단계, 그리고 단편적인 작업 흐름에 머물러 현실적인 다중 도구 연계와 긴 계획 능력을 충분히 평가하지 못하였다.
- Contribution: MCP 프로토콜 기반의 28개 MCP 서버와 250개 도구를 연결하여 다중 도메인에서 도구 검색, 모호한 지시 해석, 다단계 계획, 증거 기반 추론, 교차 도메인 워크플로우 조정을 평가하는 현실적 벤치마크 및 평가 프레임워크를 제안하였다.
Method
MCP-Bench는 MCP 서버들이 제공하는 상호연계 가능한 도구들을 기반으로 자연어로 변환된 의존성 체인을 활용해 LLM 에이전트가 다중 턴 도구 호출로 작업을 수행하도록 한다.
평가는 툴 네임 유효성, 스키마 준수, 실행 성공률 등 룰 기반 검증과 LLM-판정자에 의한 과제 완성도, 도구 사용 적합성 및 계획 효율성을 종합하여 이중 평가 체계로 진행된다.
과제의 모호한 기술(fuzzy instruction)을 통해 명시적 실행 절차 없이 적절한 도구 조합과 실행 경로 추론 능력도 강제 평가한다.
Results
20개 최신 LLM 실험 결과, 기초적 스키마 이해는 대부분 우수하나, 긴 계획과 교차 서버 작업에서 고등 모델(gpt-5, o3 등)만이 높은 지속성과 효율성을 보여줌을 확인하였다.
Limitations
본 연구는 실험에 사용한 도구와 서버 구성이 특정 도메인과 MCP 에코시스템 범위 내에 제한되어 있어 다른 생태계나 도구 유형에 대한 일반화는 정보 부족하다.
Conclusion
MCP-Bench는 현실적인 다중 도구 사용 시나리오에서 LLM 에이전트의 복합적 추론·계획·집행 역량을 표준화된 환경에서 종합적으로 평가할 수 있는 신뢰성 높은 대규모 벤치마크 플랫폼이라고 평가된다.
5. AWorld: Orchestrating the Training Recipe for Agentic AI
Introduction
- Goal: 본 논문은 Agentic AI의 “learning from practice” 패러다임을 실현하기 위해 대규모 에이전트와 환경 상호작용을 효율적으로 조율하는 AWORLD 프레임워크를 제안하는 데 목적이 있다.
- Motivation: 복잡한 벤치마크인 GAIA에서 경험 생성의 비효율성이 심각한 병목 현상을 일으켜 에이전트 학습과 확장이 어렵다는 문제점이 존재한다.
- Contribution: AWORLD는 분산 클러스터를 활용해 경험 생성 속도를 14.6배 가속화하고, 이를 바탕으로 Qwen3-32B 기반 에이전트를 성공적으로 강화하여 경쟁 모델 대비 우수한 성능을 달성하였다.
Method
AWORLD는 에이전트 구성, 통신 프로토콜, 분산 실행 및 상태 관리, 그리고 강화학습 연계라는 네 가지 핵심 구성 요소로 에이전트 학습 주기를 통합적으로 지원한다.
분산 처리 아키텍처를 통해 병렬로 다수의 롤아웃을 수행함으로써 환경과의 상호작용 병목을 효과적으로 해소한다.
또한, SWIFT, OpenRLHF 등의 외부 강화학습 프레임워크와 매끄럽게 연동된다.
Results
AWORLD를 통해 Qwen3-32B 에이전트를 GAIA 벤치마크에서 기본 모델보다 10.6%p 향상된 32.23% 정확도로 학습시켰으며, 최고 난이도에서 선도적 상용 모델인 Claude-3.7-Sonnet를 뛰어넘는 성능을 보였다.
Limitations
현재 AWORLD는 다중 에이전트 협업 및 자율적 자기향상 기능의 지원은 초기 단계로, 해당 영역에서의 확장이 필요한 상황이다.
Conclusion
AWORLD는 대규모 실환경 상호작용을 통한 경험 생성 병목을 극복함으로써 Agentic AI의 실질적 발전과 스케일 가능한 학습 파이프라인 구현에 기여한다.
6. Mixture of Contexts for Long Video Generation
Introduction
- Goal: 본 연구의 목표는 긴 영상 생성 문제에서 장기 문맥 기억 문제를 해결하기 위한 효율적이고 학습 가능한 희소 주의 집중 라우팅 모듈, Mixture of Contexts (MoC)를 제안하는 것이다.
- Motivation: 기존의 확산 트랜스포머 기반 긴 영상 생성은 자기 주의 계산 비용이 제곱 관계로 증가하여 메모리와 계산량이 비현실적으로 확대되며, 적절한 문맥 정보를 선택적으로 복원하는 학습 어려움이 존재한다는 점에서 동기가 부여되었다.
- Contribution: MoC는 쿼리가 영상의 의미 단위인 청크들 중 관련성이 높은 일부만을 동적으로 선택하고 교차 모달 및 샷 내 고정을 통해 문맥 일관성과 효율성을 확보하며, 인과적 라우팅을 적용해 피드백 루프를 방지하는 학습 가능한 장기 메모리 조회 엔진임을 증명하였다.
Method
MoC는 프레임, 샷, 캡션 단위로 영상과 텍스트 토큰을 의미론적으로 정렬된 청크로 분할하고 각 쿼리가 점곱 기반의 탑-k 선택으로 관련 청크만 집중하도록 학습한다.
텍스트 토큰과 샷 내 로컬 윈도우는 필수 연결로 설정되어 문맥 안정성을 보장하며, 인과성 마스크를 도입해 토큰 상호 작용 방향성을 시간적으로 제한한다.
또한, 플래시 어텐션을 활용한 가변 길이 토큰 처리로 메모리 사용과 계산량을 크게 줄이면서 효율적 학습이 가능하도록 설계되었다.
Results
MoC는 기존의 밀집 자기 주의 메커니즘 대비 최대 85% 이상의 희소화에도 불구하고 단일 샷 및 멀티 샷 영상 생성에서 주제 일관성, 동작 다양성 등이 유지 또는 향상되었으며, 분산 계산량은 최대 7배 절감되고 생성 속도는 2.2배 빨라졌다.
Limitations
본 연구는 LCT와 동일한 훈련 및 테스트 세트에 한정하여 평가를 진행하였으며, 보다 긴 시퀀스 및 기타 응용 분야에서 MoC의 적용 가능성은 추가 연구가 필요하다.
Conclusion
학습 가능한 Mixture of Contexts는 영상 생성에서 효율적인 희소 주의 라우팅을 통해 분산 계산 병목을 극복하며, 데이터 기반의 장기 문맥 기억 능력을 획기적으로 향상시킬 수 있음을 입증하였다.
7. TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning
Introduction
- Goal: 본 연구는 대규모 언어 모델의 지시어 파인튜닝을 위한 과제 중심 지시어 확장 방법인 TCIA를 제안하는데 목적이 있다.
- Motivation: 기존 자동 지시어 생성법들은 다양성과 품질은 확보하나 실제 응용에서 중요한 과제 적합성(task relevance)을 간과하여 실용성에 한계가 존재한다.
- Contribution: TCIA는 지시어를 쿼리와 제약 조건으로 분해하여 체계적으로 다양성을 유지하면서도 과제에 최적화된 지시어를 생성해, 공개 오픈소스 LLM의 과제 특화 성능을 평균 8.7% 향상시켰다.
Method
TCIA는 자연어 지시어를 기본 쿼리와 명확한 제약 조건으로 분해하고, 관련 과제 유형별로 구조화된 데이터베이스를 구축한다.
여기서 Breadth-First Search를 활용해 제약 조건을 추가·제거·대체하는 단계적 확장을 수행하고, 다시 자연어로 변환 후 LLM 기반 검증과 고품질 응답 샘플링을 거쳐 최종 학습 데이터를 구축한다.
이 과정에서 임베딩 기반 유사도 검색으로 과제 중심성을 유지하여 지시어의 다양성과 제약 충실도를 균형 있게 확보한다.
Results
TCIA 기반 모델은 4개의 실제 업무 요약 및 추출 과제에서 고정 지시어 및 WizardLM 대비 평균 8.7% 높은 성능을 보였고, GPT-4o와 같은 폐쇄형 최첨단 모델을 능가하였다.
Limitations
정보 부족.
Conclusion
TCIA는 과제 적합성과 지시어 다양성을 동시에 유지하며 공개 소스 LLM의 현실적 업무 적응력을 크게 향상시키는 체계적 지시어 확장 프레임워크로서 그 유용성을 입증하였다.
8. Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
Introduction
- Goal: 본 논문은 대규모 언어 모델(LLM)의 안전성 정렬을 강화하기 위한 가벼운 백색상자 기법인 RANK-ONE SAFETY INJECTION(ROSI)를 제안한다.
- Motivation: 기존 연구에서 안전성 정렬은 특정 표현 방향을 제거하여 우회될 수 있어, 이를 반대로 증폭시키는 접근법의 필요성이 대두되었다.
- Contribution: ROSI는 미세조정 없이 모델의 가중치에 순위 1(rank-one) 수정으로 안전 방향을 주입하여, 안전 거부 행동을 영구적으로 증폭시키는 방법론과 효과를 입증하였다.
Method
ROSI는 해로운 지침과 무해한 지침 쌍으로부터 모델 활성화의 평균 차이를 구해 안전 벡터를 추출한다.
이 안전 벡터를 정규화하여 잔차 스트림에 쓰이는 가중치 행렬에 순위 1 업데이트로 영구 주입한다.
이를 통해 모델 활성화를 거부 유도 서브스페이스 방향으로 유도하여 안전 거부율을 증폭한다.
Results
ROSI는 LLAMA GUARD 3 평가 기준에서 기존 정렬된 모델의 해로운 요청 거부율을 크게 개선하고, 지능 및 표준 벤치마크(MMLU, HELLASWAG, ARC) 성능 저하 없이 우회 공격에 대한 강인성을 크게 향상시켰다.
Limitations
불완전한 안전 거부 신호를 갖는 비검열(uncensored) 모델에는 별도의 안전 시스템 프롬프트가 필수적이며, 이 없으면 ROSI 효과가 크게 감소한다.
Conclusion
ROSI는 해석 가능하고 저비용인 가중치 조작을 통해 안전성 취약점을 극복하고, 재훈련 없이도 강력한 안전 증폭과 재정렬이 가능한 실용적 완성형 안전 강화기법임을 보였다.
9. OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
Introduction
- Goal: 본 논문은 하나의 보상 모델을 활용해 다중 과제 및 평가 기준에 걸쳐 통합된 마스크 기반 이미지 생성을 제고하는 강화학습 프레임워크인 OneReward를 제안하였다.
- Motivation: 기존 방법들이 과제별로 감독 미세조정을 필요로 하여 일반화와 학습 효율성에 한계가 존재하며, 다양한 평가 기준과 과제를 하나의 모델로 효과적으로 처리하는 것이 어려웠다.
- Contribution: 본 연구는 단일 시각-언어 모델을 보상 모델로 활용해 다중 과제 및 다차원 평가에 대응 가능한 통합 강화학습 구조와 Seedream 3.0 Fill이라는 SOTA 마스크 기반 이미지 생성 모델을 개발하였다.
Method
OneReward는 과제 유형과 평가 항목 정보를 질의(query)에 포함하여 단일 시각-언어 모델이 비교 평가를 수행하도록 설계되었다. 다차원 인간 선호 데이터 기반의 쌍별 비교 학습을 통해 보상 모델을 훈련하고, 강화학습을 통해 다중 과제 이미지 생성 모델을 동시 최적화한다. Seedream 3.0 Fill은 기본 사전학습 모델 위에 기존의 과제별 미세조정 없이 OneReward를 적용하여 마스크 기반 이미지 채우기, 확장, 객체 제거, 텍스트 렌더링을 통합 처리한다.
Results
통합된 Seedream 3.0 Fill 모델은 다양한 평가 항목에서 Ideogram, Adobe Photoshop, FLUX Fill [Pro] 등 상업 및 오픈소스 경쟁 모델을 능가하는 성능을 일관되게 기록하였다.
Limitations
다중 과제 학습으로 인한 보상 신호의 변동성이 존재하며, 시각-언어 모델 기반 평가에서 단일 차원 대비 복합 평가의 난이도가 존재한다.
Conclusion
본 연구는 OneReward 프레임워크를 통해 다중 이미지 편집 과제를 효율적이고 통합적으로 처리하는 새로운 강화학습 기반 생성 모델의 가능성을 성공적으로 입증하였다.
10. Multi-View 3D Point Tracking
Introduction
- 본 연구의 목표는 다중 카메라 영상에서 임의의 3D 점을 온라인으로 추적하는 데이터 기반 다중 시점 3D 점추적기를 개발하는 것이다.
- 기존 단일 시점 추적기는 깊이 모호성과 가림현상에서 성능이 저하되고, 다중 시점 기법은 다수의 카메라와 시퀀스별 최적화가 필요해 실용성이 낮다는 문제점이 존재하였다.
- 이를 극복하여 현실적인 카메라 수(예: 4대)로부터 다중 시점 특징을 융합하고 kNN 기반 상관관계와 변환기(transformer)를 활용해 장기간 3D 점 궤적과 가림 처리를 정확하고 효율적으로 예측하는 MVTracker를 제안하였다.
Method
입력된 다중 시점 RGB 영상과 깊이 정보로부터 카메라 좌표계에 대응하는 3D 점 군집(fused point cloud)을 생성하고, 각 추적점 주변의 kNN 기반 다중 규모 상관관계를 구한다.
이 상관관계 정보와 점의 시간별 특성은 변환기 아키텍처를 통해 반복적으로 갱신되며, 이를 통해 점 위치의 시공간적 정합성과 가림 예측을 도출한다.
긴 영상 시퀀스는 중첩 슬라이딩 윈도우 방식을 사용해 처리하며, 합성 데이터셋으로 감독학습하고 실제 데이터셋에서 평가한다.
Results
Panoptic Studio와 DexYCB 벤치마크에서 본 방법은 기존 단일/다중 시점 및 최적화 기반 기법 대비 평균 2~3cm 이하의 궤적 오차와 높은 Occlusion-aware Jaccard 지표를 달성하며 실시간 수행 속도(약 7.2 FPS)를 보였다.
Limitations
본 연구는 충분한 합성 다중 시점 학습 데이터와 정확한 깊이 정보가 필요하며, 현재는 1~8대 카메라 환경에서만 검증되었다.
Conclusion
MVTracker는 효율적이고 정확한 다중 시점 3D 점추적을 위한 최초의 완전 피드포워드 데이터 기반 방법으로, 다양한 카메라 배치와 긴 시퀀스에 강인하며 실시간 적용 가능성을 가진다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: