Daily Papers — 2025-10-07

1. VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Alphaxiv

Introduction

  • Goal: 본 연구는 대규모 멀티모달 모델의 시각적 추론 능력을 활용하여 영상 생성 시 추론 능력을 향상시키는 VChain 프레임워크를 제안하는 데 목적이 있다.
  • Motivation: 기존 영상 생성 모델은 시각적 상태 변화와 인과적 일관성을 반영하는 데 어려움을 겪으며, 대규모 멀티모달 모델은 이러한 미래 예측과 추론에서 강점이 있기 때문이다.
  • Contribution: VChain은 추론 시간에 핵심 키프레임을 생성하고 이를 기반으로 사전학습된 영상 생성기를 적응시키는 효율적이고 실용적인 체인-오브-비주얼-쏘트 추론 방식을 도입하였다.

Method

사용자가 제공한 텍스트 프롬프트로부터 GPT-4o를 이용해 인과적으로 중요한 핵심 장면들인 체인 오브 비주얼 쏘트를 생성한다.
이 핵심 이미지들과 대응하는 텍스트를 sparse supervision으로 활용하여 사전학습된 영상 생성기를 LoRA 기법을 통해 추론 시간에 효율적으로 미세조정한다.
최종적으로 조정된 생성기는 텍스트 사슬 전체를 입력받아 보다 인과적이고 논리적인 영상 시퀀스를 생성한다.

Results

복잡한 다단계 시나리오에 대한 실험에서 VChain은 물리 법칙, 상식 추론, 인과 추론 기준에서 기존 모델 및 변형 대비 영상 품질과 추론 정확도를 유의미하게 향상하였다.

Limitations

현재 GPT-4o 기반 이미지 생성 모델의 색상 과포화 및 편평화 현상과 API 호출 비용 문제, 그리고 sparse tuning이 영상 동적 표현에 일부 제약을 초래하는 점이 한계로 존재한다.

Conclusion

VChain은 대규모 멀티모달 모델의 추론력을 영상 생성에 효과적으로 접목시켜 인과적이고 일관된 영상 생성 성능을 달성하는 새로운 추론-생성 통합 패러다임을 제시하였다.

2. Imperceptible Jailbreaking against Large Language Models

Alphaxiv

Introduction

  • 본 논문의 목표는 기존처럼 가시적 변형 없이 대형 언어 모델(LLM)의 안전 조치 우회를 위한 무감지(jailbreak) 공격 기법을 제안하는 것이다.
  • 동기는 텍스트 기반 jailbreaking 공격이 일반적으로 눈에 보이는 수정에 의존하는 반면, 본 연구에서는 사람에게 보이지 않는 유니코드 variation selectors를 활용하여 공격 효과를 내기 위함이다.
  • 주요 기여는 눈에 띄지 않는 invisible variation selectors를 조합하여 악의적 질문에 첨부하는 새로운 무감지 jailbreak 기법과 이를 최적화하는 체인 오브 서치(chain-of-search) 알고리즘을 제안한 점이다.

Method

무감지 jailbreaking은 유니코드 variation selectors를 악의적 질문 뒤에 보이지 않는 접미사로 삽입하여 시각적으로 원문과 동일하나 토크나이저 상으로는 다르게 인식되도록 만든다.
체인 오브 서치 기법은 임의 초기화된 invisible suffix와 목표 시작 토큰(target-start tokens) 후보 집합을 이용해 무작위 탐색으로 접미사를 반복 최적화하며, 성공적인 suffix와 목표 토큰을 다음 라운드 탐색에 재사용하여 공격 효율을 높인다.
이 방법은 공격 시 각 variation selector가 고정 다중 토큰 블록을 형성해 탐색 공간이 상대적으로 제한적이라는 특성을 활용하였다.

Results

본 무감지 jailbreaking 기법은 Vicuna-13B-v1.5, Llama-2-Chat-7B, Llama-3.1-Instruct-8B, Mistral-7B-Instruct-v0.2 등 4개 정렬된 LLM에 대해 시각적 변형 없이도 최고 100%에 가까운 공격 성공률을 기록하였다.

Limitations

Llama-3.1-Instruct-8B 모델은 상대적으로 높은 재시작 횟수와 긴 접미사 길이를 요구하는 등, 일부 모델에서 최적화 난이도가 다소 높은 한계가 존재한다.

Conclusion

본 연구는 유니코드 invisible variation selectors를 활용한 새로운 무감지 jailbreak 공격 경로를 제시하여, 현재 LLM 안전 조치 메커니즘에서 간과된 취약점을 효과적으로 드러냈다.

3. Optimal Scaling Needs Optimal Norm

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 모델 및 데이터셋 크기의 최적 스케일링에 관여하는 단일 불변량, 즉 출력층의 연산자 놈(operator norm)을 규명하는 것이다.
  • Motivation: 대규모 언어 모델에서 모델 크기와 데이터셋 크기가 증가할수록 하이퍼파라미터 최적화가 어려워지며, 이들의 통합적 설명 원리가 부재한 문제를 해결하고자 한다.
  • Contribution: Scion 옵티마이저를 이용해 모델과 데이터셋 스케일에 걸쳐 일정한 출력층 연산자 놈 값을 유지하는 ‘놈 전이(norm transfer)’ 현상을 발견하고, 최적 학습률과 배치 크기 확장 규칙을 도출하였다.

Method

연구는 Llama 3 아키텍처 기반의 다양한 규모 모델에서 출력층의 RMS->∞ 연산자 놈을 중심으로 하이퍼파라미터(학습률, 배치 크기)를 그리드 탐색하며 최적 놈 조건과 손실 최소화를 동시에 분석하였다.
Scion 옵티마이저의 놈 기반 업데이트 원리를 적용하였고, 데이터셋 규모 변화와 모델 폭 및 깊이 확장에 따른 놈 변화를 실험적으로 검증하였다.
추가로 층 그룹별 학습률 조정을 통해 출력층이 가장 민감함을 발견하고, 분산 학습용 Scion 구현체(Disco)를 공개하여 대규모 실험 로그를 제공하였다.

Results

모델 크기(폭 및 깊이 최대 1.3B 파라미터)와 데이터셋 규모(최대 138B 토큰)에 걸쳐 최적 학습률과 배치 크기 조합이 일정한 출력층 연산자 놈 값을 유지하며, Scion의 확장 규칙은 Adam 옵티마이저의 알려진 제곱근 법칙과 일치하였다.

Limitations

본 연구는 Scion 옵티마이저 중심으로 분석되었으며, 최적 놈 현상 및 확장 규칙이 다른 옵티마이저나 놈 종류에 대해 보편적인지에 대해서는 아직 확실한 결론이 없다.

Conclusion

출력층 연산자 놈은 모델 및 데이터셋 크기 스케일링에서 최적 하이퍼파라미터 설정을 통합적으로 안내하는 강력한 척도가 되며, 본 연구는 이를 규명하여 스케일링 및 학습 최적화의 새로운 원리를 제시한다.

4. MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 중간 텍스트 지침 없이 음성을 직접 이해하고 생성할 수 있는 진정한 음성-대-음성 대형 언어 모델을 개발하는 것이다.
  • Motivation: 기존 음성 대화 시스템들은 텍스트 중간단계를 거치면서 음성 내 부언어학적 신호가 손실되고 표현력이 제한되는 병렬 처리 방식의 한계를 지니기 때문이다.
  • Contribution: 본 연구는 변조 기반 층 분할 아키텍처와 고정된 사전 학습 전략을 결합하여 텍스트 대형 언어 모델의 지식과 추론 능력을 유지하면서 음성 인식 및 생성 능력을 부가한 모델을 제안한다.

Method

본 모델은 36층 트랜스포머의 하위 32개 층에서 음성과 텍스트의 다중 모달 융합을 수행하고, 나머지 층에서 모달리티별 분기를 통해 각각 음성 및 텍스트 토큰 예측을 담당하도록 층을 분할하였다.
음성 토크나이저는 스트리밍 지원과 의미적 정보 보존에 최적화된 자동 음성 인식 기반 인코더-디코더 구조를 채택하였다.
사전 훈련은 텍스트 모델 파라미터를 동결한 상태에서 음성 관련 모듈만 학습하는 1단계와, 텍스트 지식을 보존하며 점진적으로 전체 모델을 공동 훈련하는 2단계 전략을 활용하였다.

Results

제안된 MOSS-Speech 모델은 중간 텍스트 지침 없이도 스포큰 Q&A 벤치마크에서 최첨단 성능을 달성하였으며, 텍스트 및 음성 양쪽 입력과 출력을 지원하면서 경쟁력 있는 음성 생성 품질과 텍스트 처리 능력을 유지하였다.

Limitations

고품질의 지도 학습 음성 데이터가 자연적으로 부족하여 합성 음성 데이터를 활용한 학습이 필요하였다.

Conclusion

본 연구는 텍스트 및 음성 능력을 균형 있게 유지하면서 텍스트 기반 지침에 의존하지 않는 진정한 음성-대-음성 상호작용 모델을 구현하여 최저 지연과 높은 표현력을 갖춘 차세대 인간-인공지능 인터페이스의 새 패러다임을 제시하였다.

5. Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

Alphaxiv

Introduction

  • 본 연구는 실시간 음성 에이전트를 위한 태국어 의미 기반 발화 종료 감지(end-of-turn, EOT) 기술을 개발하는 것이다.
  • 기존 음성 무음 기반 방법은 지연과 언어 특유의 현상에 취약하여, 텍스트만을 이용한 의미적 종료 탐지가 필요하다.
  • 본 논문은 태국어 EOT 검출을 위한 최초의 체계적 연구를 수행하고, 소형 모델의 미세 조정과 대형 언어 모델의 제로샷/몇 샷 프롬프트 방법을 비교하였다.

Method

태국어 전용 자막 데이터를 전처리 및 분할하여, 문장 단위의 의미적 종료 여부를 이진 분류 문제로 정의하였다.
WangchanBERTa, mDeBERTa-v3와 같은 인코더 모델과 Qwen3, Typhoon2 시리즈 등 디코더 기반 대형 언어 모델을 활용하여 각각 미세 조정과 제로/몇 샷 프롬프트 평가를 수행하였다.
특히 디코더 모델은 내장된 종료 토큰 확률을 활용한 임계치 설정 방식도 실험하였다.

Results

미세 조정된 소형 디코더 모델(Llama3.2-Typhoon2-1B)이 0.881 F1 점수와 110ms의 낮은 CPU 추론 지연으로 최적의 정확도-지연 균형을 달성하였으며, 미세 조정이 제로/몇 샷 대비 크게 우수하였다.

Limitations

자막 기반 라벨링은 실제 대화의 발화 경계와 차이가 있을 수 있으며, 음향적 정보(억양, 겹침 발화)는 고려하지 않아 다자간 대화 환경 대응에는 한계가 존재한다.

Conclusion

본 연구는 태국어 텍스트 기반 의미 EOT 탐지의 실용적 기준을 마련했으며, 소형 미세 조정 모델이 현장 적용 가능한 실시간 성능을 제공함을 입증하였다.

6. Character Mixing for Video Generation

Alphaxiv

Introduction

  • 본 연구의 목표는 서로 다른 세계에 존재하는 여러 캐릭터들이 자연스럽게 상호작용하는 동영상을 생성하는 것이다.
  • 기존 텍스트-투-비디오 생성에서 캐릭터의 정체성과 행동을 유지하면서도 이질적인 스타일의 캐릭터 간 상호작용을 구현하는 것이 어려운 문제임을 동기 부여하였다.
  • 본 논문은 크로스-캐릭터 임베딩과 크로스-캐릭터 증강 기법을 통해 이러한 문제를 해결하는 멀티 캐릭터 믹싱 비디오 생성 프레임워크를 제안하였다.

Method

크로스-캐릭터 임베딩(CCE)은 각 캐릭터의 정체성과 행동을 텍스트 캡션에 명확히 분리하여 학습하며, 크로스-캐릭터 증강(CCA)은 서로 다른 스타일의 캐릭터를 합성한 증강 데이터를 활용해 스타일 왜곡 문제를 완화한다.
이 과정에서 OpenAI의 GPT-4o를 활용해 비디오와 스크립트에서 자동으로 주석을 생성하고 Wan2.1-T2V-14B 모델에 LoRA 기법으로 파인튜닝하였다.
이를 통해 서로 공존하지 않는 캐릭터들도 개별 행동 특성을 유지하며 자연스럽게 상호작용하는 영상 생성이 가능하다.

Results

제안 방법은 81시간 분량의 만화 및 실사 TV 시리즈 10개 캐릭터를 대상으로 한 벤치마크 실험에서 정체성 보존, 행동 일관성, 상호작용 현실감 및 스타일 일관성 등 모든 평가 지표에서 기존 최신 기법 대비 우수한 성능을 달성하였다.

Limitations

본 방법은 명시적 정체성 주석과 LoRA 기반 파인튜닝에 의존하여 새로운 캐릭터 추가 시 재학습이 필요하므로 확장성에 한계가 존재한다.

Conclusion

본 연구는 서로 다른 스타일과 세계관의 다중 캐릭터들이 충실하게 표현되고 자연스럽게 상호작용하는 동영상 생성 가능성을 크게 향상시키는 새로운 텍스트-투-비디오 생성 방법을 제시하였다.

7. SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

Alphaxiv

Introduction

  • 본 연구의 목표는 텍스트 임베딩 내 토큰 단위 조작을 통해 분리 가능하며 연속적인 이미지 편집 방식을 제안하는 것이다.
  • 기존 텍스트-투-이미지 모델은 텍스트 프롬프트만으로는 편집 과정의 정밀한 제어가 어렵고, 속성 변경 시 의도하지 않은 변경이 발생하는 문제점이 있다.
  • 본 논문은 희소 오토인코더(Sparse AutoEncoder)를 활용하여 텍스트 임베딩의 희소 잠재 공간에서 의미 분리된 편집 방향을 발견하고, 이를 토큰별로 조작함으로써 연속적이고 분리된 이미지 편집을 가능케 하는 방법을 제안한다.

Method

희소 오토인코더를 사전학습된 T5 텍스트 인코더 출력 임베딩에 적용하여 희소하고 의미적으로 분리된 잠재 표현을 학습한다.
편집 방향은 원본 및 편집된 프롬프트 쌍의 희소 표현을 비교하여 생성하며, 여러 프롬프트 쌍에서 추출한 방향들을 특이값 분해(SVD)를 통해 하나의 견고한 방향으로 통합한다.
이 방향 벡터를 특정 토큰 희소 표현에 적용하고, 스케일 파라미터를 조절하여 편집 강도를 연속적으로 제어하며, 최종 편집된 임베딩은 확산 모델의 입력으로 사용된다.

Results

다양한 속성 및 도메인에서 분리 가능하며 연속적인 토큰 단위 편집을 여러 텍스트-투-이미지 모델에 적용하여 고품질의 의미적으로 정확한 편집 결과를 실험적으로 입증하였다.

Limitations

기저 모델에 내재된 편향으로 인해 이질적 분포(out-of-distribution)의 편집 요청에 대해서는 분리 능력이 저하되어 원하지 않는 변경이나 속성 혼합이 발생할 수 있다.

Conclusion

본 연구는 텍스트 임베딩 내 희소 표현을 활용한 토큰 단위 조작을 통해 분리 가능하고 연속적인 이미지 편집을 가능케 하며, 다양한 모델에 범용적으로 적용 가능한 효과적인 편집 프레임워크를 제시하였다.

8. LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL

Alphaxiv

Introduction

  • Goal: 본 연구는 자연어 질문을 SQL 쿼리로 변환하는 Text-to-SQL 작업을 위한 WikiSQL 데이터셋을 대규모 언어 모델(LLM) 시대에 적합하도록 체계적으로 재가공하는 데 목표를 두었다.
  • Motivation: 원래 WikiSQL 데이터셋은 구조적 및 주석상의 문제로 인해 실용성과 연구 신뢰도가 저하되어 널리 활용도가 떨어지는 문제를 안고 있었다.
  • Contribution: 본 논문은 WikiSQL의 오류를 분류하고 자동화된 정제 및 재주석 기법을 적용해 LLMSQL이라는 정제된 벤치마크를 제안하고 LLM들을 이용한 평가를 수행하였다.

Method

LLMSQL은 빈 칼럼명 보완, 데이터 타입 불일치 수정, 중복 제거, 대소문자 민감도 조정 등 수작업과 자동화된 방법을 통해 WikiSQL 데이터의 품질 문제를 체계적으로 해결하였다.
기존 WikiSQL의 숫자 기반 SQL 포맷을 완전한 SQL 문장 형태로 변환하여 최신 LLM이 직관적으로 처리할 수 있도록 하였다.
또한, 다양한 LLM 평가 시나리오를 위해 0-shot, 1-shot, 5-shot 등의 프롬프트 설계를 포함한 평가 프로토콜을 개발하였다.

Results

최대 88.4% 실행 정확도를 보인 DeepSeek R1 모델과 86.45%를 기록한 OpenAI o4-mini를 비롯하여, 크기별 및 프롬프트 샷 수에 따른 다양한 LLM들의 성능 향상을 확인하였다.

Limitations

집계 함수의 불일치와 같은 일부 주석상의 의미론적 오류는 자동화된 해결이 어려워 남아 있으며, 일부 빈 결과의 근본 원인에 대해서는 추가 조사가 필요하다.

Conclusion

LLMSQL은 기존 WikiSQL의 품질 문제를 해결하여 LLM 시대에 적합한 자연어-SQL 변환 벤치마크를 제공하며, 향후 데이터셋 확장과 품질 향상을 위한 기초 자원으로서 활용될 전망이다.

9. Epistemic Diversity and Knowledge Collapse in Large Language Models

Alphaxiv

Introduction

  • Goal: 본 연구는 대규모 언어 모델(LLM)의 출력에서 나타나는 인식 다양성(epistemic diversity)을 측정하여 지식 붕괴(knowledge collapse) 현상을 실증적으로 분석하는 것을 목표로 한다.
  • Motivation: LLM이 생성하는 텍스트가 어휘, 의미, 문체적으로 동질화되어 점차 접근 가능한 정보의 범위가 축소될 위험이 있으나, 기존 연구는 시간 및 문화적 맥락을 아우르는 분석이 부족했다.
  • Contribution: 연구진은 자연스러운 프롬프트 샘플링, 의미적 동등성 기준 클러스터링, 생태학적 다양성 지표인 Hill-Shannon 다양성 지수를 결합한 새로운 측정 방법론을 제시하고, 27개 LLM과 155개 주제, 12개 국가를 대상으로 광범위한 분석을 수행하였다.

Method

본 방법론은 실제 사용자 대화에서 추출된 200가지 자연어 프롬프트를 사용해 LLM 출력을 수집하고, 이를 원자적 주장으로 분해한 뒤 의미적으로 상호함의를 갖는 주장들끼리 클러스터링하여 다양성을 정량화한다. 다양성 평가는 Hill-Shannon 다양성 지수를 활용하며 샘플링 커버리지를 고려한 희귀화(rarefaction) 기법을 도입하였다. 클러스터링 알고리즘은 상호함의 관계를 기반으로 하여 의도하지 않은 의미 혼합을 최소화하였다.

Results

최신 모델들에서 인식 다양성이 점진적으로 향상되었으나 모든 LLM은 기본적인 웹 검색에 비해 인식 다양성이 낮았으며, 모델 크기가 클수록 다양성이 감소하고, 검색 증강 생성(RAG) 기법은 다양성 향상에 긍정적 영향을 주지만 문화적 맥락에 따라 그 효과가 상이하였다.

Limitations

선택한 주제와 국가에 한정된 샘플링으로 인해 연구 결과의 일반화 가능성에는 일부 제한이 존재한다.

Conclusion

LLM의 지식 붕괴 위험을 완화하기 위해서는 다양한 지식 출처를 포함하는 검색 증강 생성 기법의 활용과 현지 언어 지식에 대한 대표성 강화가 필요하다.

10. Power Transform Revisited: Numerically Stable, and Federated

Alphaxiv

Introduction

  • 본 논문의 목표는 power transform 기법의 수치적 불안정성을 분석하고 이를 안정적으로 해결하며, 이를 연합학습(Federated Learning) 환경에 확장하는 것이다.
  • 기존 power transform의 직접적 구현은 심각한 수치적 불안정성을 야기하여 잘못된 결과나 프로그램 장애를 초래하며, 기존 연구들이 이를 완전하게 해결하지 못한 문제가 있다.
  • 본 연구는 수치 불안정성의 원인을 체계적으로 분석하고 로그 도메인 계산, 표현식 재구성, 극단 매개변수 제약 등 수치적으로 안정된 알고리즘과 연합학습용 안정적 분산 분산분산 분산분산분산분산 계산 방법을 제안하였다.

Method

  • Box-Cox 및 Yeo-Johnson 변환에서 발생하는 수치적 오버플로우 및 취소 오차 문제를 해결하기 위해 로그 도메인에서 분산을 계산하고, 변환식의 상수항 제거 및 λ 변수를 분리하는 재구성을 적용하였다.
  • 최적 매개변수 λ가 극단값을 가지는 경우를 제한하여 수치적 오버플로우를 방지하였으며, Lambert W 함수 기반 역변환을 활용하였다.
  • 연합학습 환경에서는 클라이언트별 부분 통계량을 쌍별 병합(pairwise aggregation) 방식으로 안전하게 합산하는 새로운 분산 계산 방법을 설계하여 통신 비용을 최소화하면서도 수치적 안정성을 확보하였다.

Results

  • 실제 데이터셋 기반 실험에서 제안된 방법은 기존 방안 대비 중앙집중식 및 연합학습 환경 모두에서 수치적 안정성과 최적파라미터 추정 정확도를 대폭 향상시켰으며, downstream 분류 작업 성능도 향상시켰다.

Limitations

  • 연합학습에서 통신 라운드 수를 줄이기 위한 추가적인 메시지 전송 기법 및 강화된 개인 정보 보호 보장 문제 등은 향후 연구 과제로 남았다.

Conclusion

  • 본 연구는 power transform의 수치적 문제를 근본적으로 해결하고, 연합학습 적용에 적합한 안정적 알고리즘을 제시함으로써 과학 계산 및 머신러닝 전처리 분야의 신뢰성을 크게 높였다.



Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-10-08
  • Daily Papers — 2025-10-06
  • Daily Papers — 2025-10-03
  • Daily Papers — 2025-10-02
  • Daily Papers — 2025-10-01