Daily Papers — 2025-09-01"

1. A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

Introduction

  • Goal: 본 연구는 대규모 언어 모델이 생성한 코드의 보안성을 평가하기 위한 저장소 수준 벤치마크 A.S.E를 제안하는 것이다.
  • Motivation: 기존 벤치마크들은 코드 단편 수준에 집중하며 재현성과 안정성이 부족하고, 입력 문맥과 출력 보안성 간의 연관성을 충분히 반영하지 못한다.
  • Contribution: A.S.E는 실제 CVE가 문서화된 리포지토리에서 취약점 중심 과제를 구성하고, 도커화된 환경에서 전문가 정의 규칙을 활용하여 보안성, 빌드 품질, 생성 안정성을 일관되게 평가하는 체계를 마련하였다.

Method

A.S.E는 CVE 기반의 오픈소스 리포지토리에서 보안 취약 구간을 중심으로 과제를 구축하며, 경미한 의미 및 구조 변형을 적용해 모델이 단순 암기를 넘어 실제 추론을 수행하도록 설정하였다.
평가는 도커 컨테이너 내에서 고도화된 SAST 도구와 CW E별 전용 검사를 사용하여 보안 취약점 감소 여부를 자동으로 확인하며, 빌드 및 통합 성공 여부와 반복 생성 간 일관성도 측정한다.
또한 BM25 랭킹을 통한 관련 소스 코드 및 README 파일의 검색으로 저장소 전체 문맥을 활용하며, 모델별 최대 128k 토큰의 문맥 창과 다양한 디코딩 전략을 적용해 성능을 다각도로 분석한다.

Results

A.S.E 벤치마크 평가 결과 상위 모델은 Claude-3.7-Sonnet이었고, 상용 모델과 오픈소스 모델 간 보안 점수 차이는 크지 않았으며, 간결한 ‘빠른 사고’ 디코딩 방식이 복잡한 ‘느린 사고’ 방식보다 보안 패치 성능에서 우수한 경향을 나타냈다.

Limitations

저장소 수준에 초점을 맞춘 A.S.E는 일부 프로그래밍 언어와 웹 관련 취약점 유형에 집중하고 있어 모든 언어 및 취약점 유형에 대한 대표성은 부족하다.

Conclusion

A.S.E는 실세계 취약점과 저장소 문맥을 반영한 재현 가능하고 객관적인 평가 체계를 제시함으로써, 대규모 언어 모델의 보안 코드 생성 역량을 심층적으로 분석하고 향후 보안성 향상 연구의 기반을 제공한다.

2. EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

Introduction

  • Goal: 본 연구는 인간 수준의 융합적 시각-언어-행동 추론과 일반 로봇 제어를 달성하기 위한 통합 embodied foundation 모델 EO-1과 1.5백만 개 이상의 통합 데이터셋 EO-Data1.5M을 제안하는 것이다.
  • Motivation: 기존의 시각-언어-행동(VLA) 모델이 제한적인 작업 영역과 환경에 구속되어 인간과 같은 유연성과 상호 보완적 추론-행동 통합을 이루지 못하는 문제점을 해결하고자 한다.
  • Contribution: 시각, 텍스트, 행동을 교차 학습하는 통합 아키텍처와 대규모 상호 연결된 데이터셋 구축 방식을 도입하여, 다중 모달 융합과 로봇 행동 생성을 하나의 모델로 고도화하였다.

Method

EO-1은 텍스트, 이미지, 영상 및 행동 데이터를 통합하여 단일 디코더 기반 트랜스포머로 처리하며, 언어 모델링과 연속 행동 생성을 위한 두 가지 목표함수(다음 토큰 예측과 플로우 매칭)를 동시에 최적화한다.
상호 연결된 시각-텍스트-행동 데이터는 실제 로봇 영상에 인간과 대형 언어 모델을 통한 정교한 시공간 질문-응답 주석을 부착해 구성되며, 행동과 추론이 교차되는 세 가지 포맷으로 병합된다.
학습 중에는 노이즈 행동 토큰을 정제하는 Rectifying Sampling 기법을 적용해 인과관계가 보존된 혼합 모달 데이터 생성을 가능케 하였다.

Results

EO-1은 ERQA, LIBERO, SimplerEnv, EO-Bench 등 다양한 벤치마크 및 실제 로봇 실험에서 기존 공개 모델 대비 뛰어난 일반화 및 정교한 행동 제어 성능을 입증하였다.

Limitations

정보 부족

Conclusion

EO-Robotics 팀은 EO-1 모델과 EO-Data1.5M 데이터셋을 공개하여 범용 자율 로봇 연구를 위한 차세대 embodied foundation 모델 개발에 중요한 이정표를 제시하였다.

3. R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

Introduction

  • Goal: 본 연구는 멀티모달 대형 언어 모델(MLLM)이 문제의 복잡성에 따라 자동으로 사고 모드를 선택할 수 있는 일반 목적의 자동 사고(auto-thinking) 능력을 구현하는 것을 목표로 한다.
  • Motivation: 기존 MLLM은 복잡한 문제에 대해 단계별 사고를 수행하나, 간단한 문제에서도 항상 사고를 수행하여 불필요한 계산 비용이 발생하는 비효율성이 존재하였다.
  • Contribution: 이에 저자들은 사고와 비사고 두 모드를 모두 학습하는 bi-mode annealing과 이를 강화 학습으로 최적화하는 Bi-mode Policy Optimization(BPO)를 제안하여 자동 사고를 가능케 하는 R-4B 모델을 개발하였다.

Method

R-4B는 사고와 비사고 모드를 모두 포함하는 데이터셋으로 bi-mode annealing을 수행해 기본 모델을 학습한다. 이후 BPO라는 보상 기반 강화 학습 기법으로 두 모드 출력을 강제 생성하고 상호 비교하여 사고 선별 정책을 최적화한다. 이 과정에서 단순 수학 기반 규칙 보상을 사용하며 다중 주제에 걸쳐 자동 사고 전환을 학습한다.

Results

R-4B는 25개 이상의 벤치마크에서 최첨단 성능을 달성했으며, 동급 모델 대비 대부분의 과제에서 우수한 성과를 보이고 더 큰 규모의 모델과도 유사한 수준의 복합 추론 능력을 보였다.

Limitations

강화 학습 중 사고 모드 편향 문제 및 복잡한 보상 함수 없이 단순 수학 기반 룰만 사용하므로, 특정 분야에 맞춘 미세한 조정은 제한적일 수 있다.

Conclusion

본 연구는 bi-mode annealing과 BPO 강화 학습을 결합하여 효율적이고 지능적인 자동 사고가 가능한 다목적 MLLM R-4B를 제안하고, 동급 대비 뛰어난 성능과 자원 절약을 동시에 달성함을 입증하였다.

4. TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

Introduction

  • 본 논문은 오디오 기반 토킹 헤드 합성을 위한 대규모, 다양성, 고품질 데이터셋인 TalkVid를 제안하는 것을 목표로 한다.
  • 기존 최첨단 모델들은 인종, 언어, 연령 등 인간 다양성에 대한 일반화 성능이 부족하여 데이터셋의 규모와 다양성의 한계가 문제점으로 작용한다는 점에 착안하였다.
  • TalkVid 데이터셋과 함께 공정성 평가를 위한 계층적 벤치마크 TalkVid-Bench를 구축하여 기존 데이터셋 대비 우수한 일반화 성능과 편향 문제 진단의 필요성을 입증하였다.

Method

  • TalkVid는 6,000시간 이상의 고해상도 유튜브 비디오를 수집하여, 다단계 자동 필터링(화질, 모션, 얼굴 디테일)과 인간 검증을 거쳐 1,244시간 분량의 7,729명 화자 데이터를 확보하였다.
  • 영상 분할, 무빙 스코어, 미적 품질 평가(DOVER), 얼굴 움직임 및 방향성 등 정교한 기술적 기준으로 클립을 선별하며, 인간 평가와의 높은 상관성을 확인하였다.
  • TalkVid-Bench는 언어, 인종, 성별, 연령을 균형 있게 포함한 500개 클립으로 구성되어 세밀한 하위 그룹별 모델 평가를 가능하게 한다.

Results

  • V-Express 모델을 TalkVid-Core, HDTF, Hallo3 데이터셋으로 각각 훈련한 결과, TalkVid 기반 모델은 다양한 언어 및 인종·성별·연령 그룹에서 시각적 품질과 시간적 일관성 측면에서 뛰어난 일반화 성능과 편향 완화 효과를 보였다.

Limitations

  • TalkVid 데이터셋의 구축 및 검증 과정은 인간 평가 의존도와 제한된 클립 길이로 인해 일부 표현 다양성 포착에 한계가 존재한다.

Conclusion

  • TalkVid와 TalkVid-Bench의 공개를 통해, 다양성과 기술적 완성도를 고루 갖춘 데이터 기반으로 토킹 헤드 합성 모델의 공정성 및 견고성을 크게 향상시킬 수 있음을 입증하였다.

5. UItron: Foundational GUI Agent with Advanced Perception and Planning

Introduction

  • Goal: 본 연구의 목표는 모바일 및 PC 환경에서 자동화된 GUI 에이전트를 구현하여 고도의 인지, 로컬라이징, 계획 능력을 갖춘 기초 모델 UItron을 제안하는 것이다.
  • Motivation: GUI 에이전트는 복잡한 디지털 작업을 사람이 수행하는 것처럼 화면 정보를 기반으로 자동 실행하는 기술로, 인공지능의 일반화 달성에 중요한 역할을 하며, 기존 모델의 데이터 부족과 상호작용 환경 제한이 주요 과제로 작용한다.
  • Contribution: UItron은 체계적인 데이터 엔지니어링과 모바일 및 PC 연동 인터랙티브 인프라를 구축하고, 교사학습과 커리큘럼 기반 강화학습을 결합하여 중국어 앱 환경에서 탁월한 성능을 달성한 오픈소스 기초 GUI 에이전트이다.

Method

UItron은 화면 인지, 로컬라이징, 오프라인 및 온라인 계획을 포함한 GUI 태스크를 세 단계로 학습하며, 다양한 소스에서 다중 작업 인지 데이터와 장기 행동 궤적 데이터를 통합하여 훈련한다. 교사학습을 통한 인지 및 계획 능력 강화 후, 그룹 상대 정책 최적화 기반의 커리큘럼 강화학습을 적용하여 온라인 환경에서 복잡한 추론 및 탐색 능력을 향상시킨다. 또한, 다기기 연동 인터랙티브 인프라를 통해 자동화된 궤적 수집 및 실시간 평가 환경을 제공한다.

Results

UItron은 GUI 인지, 로컬라이징, 계획 벤치마크에서 최첨단 성능을 기록하였으며, 특히 100대 중국 인기 앱에서 수집된 백만 단계 이상의 조작 데이터로 구성된 평가 환경에서 기존 방법 대비 현저히 우수한 성능을 보였다.

Limitations

기존 기초 모델의 제한적 초기 성능과 GUI 시나리오에 특화된 다량의 주석 데이터 확보의 어려움이 UItron 개발 및 적용의 주요 한계이다.

Conclusion

UItron은 체계적인 데이터 가공과 혁신적 학습 프레임워크, 다중 플랫폼 인터랙티브 환경을 결합하여 모바일 및 PC GUI 자동화 분야에서 실용적이고 강력한 기초 모델로서 의의를 가진다.

6. Morae: Proactively Pausing UI Agents for User Choices

Introduction

  • Goal: 본 연구는 시각 장애인 및 저시력 사용자가 UI 자동화 과정에서 자신의 선택을 명확하게 표현할 수 있도록 능동적으로 일시 정지하며 사용자 선택을 지원하는 UI 에이전트 Morae를 제안하는 것이다.
  • Motivation: 기존 UI 에이전트는 중요한 의사결정 시점에서 사용자의 참여를 배제하거나 맥락 정보를 제공하지 않아 시각 장애인 사용자의 주체성이 저하되는 문제가 있었다.
  • Contribution: Morae는 대형 멀티모달 모델을 활용해 사용자 명령과 UI 상태를 종합해 모호성을 동적으로 검증하고, 명확하지 않은 경우 자동화를 중단하여 사용자로부터 선호를 구하는 방식을 통해 접근성과 작업 성공률을 크게 향상시켰다.

Method

Morae는 웹 DOM, 화면 캡처, 사용자 명령을 분석하는 대형 멀티모달 모델을 활용한다.
각 입력 단계마다 모호성 여부를 점검한 뒤, 선호 결정이 필요한 경우 중단하고 동적으로 생성된 인터랙티브 UI를 통해 사용자가 선택을 입력하도록 유도한다.
또한, 스크린리더 사용자 편의를 위해 실시간 음성 피드백과 작업 확인 기능을 제공한다.

Results

10명의 시각 장애인 참가자를 대상으로 한 사용자 연구에서 Morae는 기존 자동화 에이전트 대비 작업 완료율과 사용자 선호 반영도에서 유의미하게 뛰어난 성과를 보였다.

Limitations

본 연구는 실험 대상과 작업 유형이 한정적이므로, 더 다양한 사용자 그룹과 복잡한 UI 환경에서의 적용 가능성은 추가 검증이 필요하다.

Conclusion

Morae는 시각 장애인 사용자가 UI 자동화 과정에서 적극적으로 본인의 선호를 표현할 수 있도록 동적으로 일시 정지하고 명확한 선택지를 제공함으로써 사용자 주체성과 작업 효율성을 동시에 증진시키는 효과적인 접근법임이 확인되었다.

7. AHELM: A Holistic Evaluation of Audio-Language Models

Introduction

  • 본 논문은 오디오와 텍스트를 입력으로 받아 텍스트를 출력하는 오디오-언어 모델(Audio-Language Models, ALMs)의 성능을 포괄적으로 평가하기 위한 벤치마크 AHELM을 제안하는 것을 목표로 한다.
  • 기존 평가들은 일부 능력에만 집중하고 공정성, 안전성 등의 중요한 측면을 간과하며, 평가 방식과 데이터셋이 일관되지 않아 모델 간 비교가 어려웠다.
  • AHELM은 10가지 중요한 평가 측면과 14개 기존 데이터셋 및 2개의 신규 합성 데이터셋을 통합하고 평가 방법론을 표준화하여 ALMs 전반의 성능을 균등하게 비교할 수 있게 하는 점을 기여하였다.

Method

  • AHELM은 음성 인식, 지식, 추론, 감정 인식, 편향, 공정성, 다국어 처리, 강건성, 유해성, 안전성 등 10가지 측면별 다양한 시나리오를 기반으로 평가를 수행한다.
  • 모델은 모두 동일한 0-shot 프로밍과 추론 파라미터 설정으로 테스트하며, GPT-4o를 포함한 다양한 ALMs와 간단한 ASR+LM 기반 베이스라인도 함께 평가하였다.
  • PARADE(편향 평가용)와 CoRe-Bench(대화 음성 추론 평가용)라는 신규 데이터셋을 개발하여 기존에 부족했던 영역을 보완하였다.

Results

  • Gemini 2.5 Pro 모델이 전체 10개 측면 중 5개에서 최고 성능을 보였으나, 특정 음성 인식 작업에서 집단 간 공정성 문제를 발견하였으며, 베이스라인 시스템은 음성 인식 능력이 뛰어나 일부 평가에서 상위권에 위치하였다.

Limitations

  • 데이터셋 중 일부는 공개되지 않은 모델 학습에 포함되었을 가능성이 있으며, 이는 데이터 누수 위험과 완전한 일반화 평가에 제한을 초래한다.

Conclusion

  • AHELM은 오디오-언어 모델의 다면적 능력을 균등하고 투명하게 평가할 수 있는 살아있는 벤치마크로서, 지속적 데이터셋 및 모델 추가를 통해 ALMs 평가의 기준이 될 것으로 기대된다.

8. Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

Introduction

  • Goal: 본 연구의 목적은 대형 언어 모델(LLM)이 게임 환경과의 직접 상호작용을 통해 절차적 지식을 획득하고, 높은 수준의 전략적 추론과 의사결정을 수행할 수 있게 하는 것이다.
  • Motivation: 기존 LLM은 풍부한 세계 지식과 추론 능력을 갖추었으나, 동적 환경에서의 상호작용과 절차적 이해를 효과적으로 수행하지 못하며, 전통적 강화학습 에이전트는 작동은 가능하나 설명 가능성과 데이터 효율성에 한계가 있기 때문이다.
  • Contribution: 본 연구는 RL 기반 의사결정 문제를 언어 모델링 과제로 재정의한 Think-In Games(TiG) 프레임워크를 제안하여, LLM이 언어 기반 정책을 생성하고 온라인 강화학습을 통해 이를 개선하며, 해석 가능한 자연어 설명을 함께 제공하도록 하였다.

Method

TiG는 MOBA 게임 환경에서 게임 상태를 JSON 형태로 표현하고, 팀 전략 중심의 거시 수준 액션 집합에서 최적 행동을 자연어로 예측하게 하였다. 실제 게임 플레이 데이터를 기반으로 행동 우선순위가 반영된 재라벨링 알고리즘을 적용하여 학습 데이터를 구축하였으며, GRPO(그룹 상대 정책 최적화) 알고리즘을 활용하여 정책 모델을 온라인 강화학습 방식으로 효율적으로 훈련하였다. 보상은 규칙 기반의 이진 보상 함수로 단순화하여 모델의 행동 예측 정확도를 중심으로 최적화를 진행하였다.

Results

TiG는 여러 크기의 모델에 대해 SFT와 GRPO를 결합한 다단계 학습으로 MOBA 게임 내 행동 예측 정확도를 크게 향상시켰으며, 320억 파라미터 모델은 9091%의 정확도를 기록하여 기존 대규모 모델을 능가하고, 동시에 일반 언어 이해 및 추론 능력을 유지하거나 향상시켰다.

Limitations

TiG는 LLM의 기본 성능에 크게 의존하며, 주로 디지털 게임 환경에서 실험되어 다른 도메인으로의 일반화 가능성에는 제한이 있다.

Conclusion

본 연구는 LLM이 게임 환경과의 상호작용을 통해 절차적 이해를 구축하고 해석 가능한 의사결정을 수행할 수 있게 하는 TiG 프레임워크를 제안하여, 데이터 및 계산 비용 절감과 투명성 증진을 동시에 달성하였다.

9. TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

Introduction

  • 본 연구의 목표는 언어 모델 사전 학습에서 모델의 동적 데이터 선호도에 따라 데이터 혼합 비율을 효율적으로 조정하는 방법을 제안하는 것이다.
  • 정적인 데이터 혼합 전략은 학습 중 모델의 데이터 도메인 선호가 변화함에도 이를 반영하지 못해 최적이 아니며, 이 변화를 효율적으로 관찰하는 것은 큰 도전이다.
  • 본 연구는 그룹 인플루언스(Group Influence)라는 효율적인 메트릭을 도입하고 이를 활용한 TiKMiX 프레임워크를 통해 데이터 혼합 비율을 동적으로 최적화하는 두 가지 방법(TiKMiX-D, TiKMiX-M)을 제안하였다.

Method

TiKMiX는 그룹 인플루언스 함수를 사용하여 데이터 도메인이 모델 성능에 미치는 영향을 저비용으로 측정하고, 이 값을 최대화하는 데이터 혼합 비율을 최적화 문제로 정의한다.
TiKMiX-D는 직접 최적화를 통해 데이터 혼합 비율을 결정하며, TiKMiX-M은 회귀 기반 서포트 모델을 이용하여 비선형 도메인 간 상호작용을 고려한 혼합 비율을 예측한다.
이 두 가지 방법 모두 다중 검증 세트의 성능 향상과 데이터 다양성 유지를 목표로 한다.

Results

TiKMiX-D는 기존 최첨단 기법(REGMIX) 대비 20%의 계산 비용으로 우수한 성능을 보였으며, TiKMiX-M은 9개 벤치마크 평균에서 2%의 성능 향상을 달성하였다.

Limitations

동적 데이터 혼합 방식의 효과성은 실험한 규모와 도메인에 따라 다를 수 있으며, 더욱 대규모 모델과 다양한 데이터셋에 대한 검증이 필요하다.

Conclusion

TiKMiX는 그룹 인플루언스 기반 동적 데이터 혼합을 통해 모델의 데이터 선호 변화를 효과적으로 반영함으로써 정적인 혼합 비율 대비 언어 모델 성능을 크게 향상시킬 수 있음을 보였다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-09-12"
  • Daily Papers — 2025-09-11"
  • Daily Papers — 2025-09-10"
  • Daily Papers — 2025-09-09"
  • Daily Papers — 2025-09-08"