Daily Papers — 2025-09-17
1. Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation
Introduction
- Goal: 본 논문은 게임 제작에 적합한 고품질 3D 자산을 자동으로 생성하는 종합 AI 플랫폼인 Hunyuan3D Studio를 제안한다.
- Motivation: 기존 3D 자산 생성 과정은 전문적이고 노동집약적이며 복잡하여 게임 개발의 생산성을 저해하는 병목현상이 존재했다.
- Contribution: Hunyuan3D Studio는 이미지 또는 텍스트 입력으로부터 전체 3D 제작 파이프라인을 통합하여 고해상도 지오메트리와 PBR 텍스처를 포함한 게임 엔진 호환 자산을 빠르게 생성하는 엔드투엔드 AI 솔루션을 구현하였다.
Method
Hunyuan3D Studio는 개념 디자인, 고해상도 지오메트리 생성, 파트 단위 3D 분할, 폴리곤 생성, 의미론적 UV 전개, 텍스처 합성 및 편집, 애니메이션 자동화 7개 모듈로 구성된 모듈러 워크플로우이다. 이 시스템은 텍스트-이미지, 이미지-멀티뷰 생성 및 바운딩 박스 조건 부여 등 다양한 조건 제어 기법을 활용하여, 각 단계 간 메타데이터를 연동하며 반복성과 효율성을 극대화한다. 특히 P3-SAM과 X-Part 모듈을 통해 정밀한 3D 파트 분할과 구조적 일관성을 확보하며, Auto-regressive 모델에 기반한 새 폴리곤 생성 기법을 도입하여 저폴리곤 게임용 메시를 생성한다.
Results
다양한 벤치마크 실험에서 제안된 각 모듈들은 기존 최첨단 기법 대비 우수한 형상 충실도, 의미적 일관성, 토폴로지 품질 및 효율성을 달성하였다.
Limitations
정보 부족
Conclusion
Hunyuan3D Studio는 3D 자산 생성의 전 과정을 자동화하며, 게임 개발에서 AI 지원 워크플로우의 현격한 진보를 실현하였다.
2. Exact Coset Sampling for Quantum Lattice Algorithms
Introduction
- Goal: 본 논문의 목표는 최근 창안된 창(windowed)-QFT 격자 알고리즘의 문제점이 존재하는 9단계(domain-extension)의 정확하고 가정이 적은 대체 방법을 제시하는 것이다.
- Motivation: 기존 알고리즘에서 9단계가 진폭 주기성과 지지 크기가 부적절하게 불일치하여 의도한 모듈러 선형 관계를 정확히 만족하지 못하는 문제가 있었다.
- Contribution: 쌍 이동 차이(pair-shift difference) 구조를 활용하여 미지의 오프셋을 완전하게 제거하고, 정확한 CRT 코셋 상태를 생성하며 QFT를 적용해 모듈러 관계를 일관되게 구현하는 새로운 9단계 연산을 제안하였다.
Method
제안된 방법은 좌표 레지스터의 복사본을 만들고 균등한 ZP 요소에 따라 b*방향으로 코히어런트 이동을 수행한 뒤 원본과 차이를 취해 오프셋을 완전 제거한다. 이후 역순환 정리(CRT)를 활용하여 전체 상태에서 이동 파라미터를 제거하고, QFT를 적용하여 원하는 모듈러 관계에 부합하는 상태를 정확하게 샘플링한다. 단위 연산은 가역적이며 다항(log M2) 크기의 게이트 자원을 요구한다.
Results
변경된 9단계 유니터리는 정확한 지지와 균등 분포를 보장하며, 오프셋과 위상 인자는 샘플링 결과에 영향을 미치지 않고 논리적 관계를 정확히 만족함이 증명되었다.
Limitations
잔여성 접근성 정리에 명시된 조건이 충족되지 않으면 샘플링 정밀도가 떨어질 수 있으며, 이 경우 부분적 모듈러 조건만 만족하거나 확률적 보정이 필요하다.
Conclusion
본 연구에서 제안한 가역적 쌍 이동 차이 기반 9단계는 미지 오프셋 문제를 해결하고, 주기성 가정 없이 정확한 CRT 코셋과 모듈러 선형 조건을 구현하는 실용적이고 효율적인 방법임이 확인되었다.
3. Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
Introduction
- Goal: 본 연구는 멀티모달 대형 언어 모델(MLLM)의 추론 시 출력 선호도를 조작하는 새로운 안전 위험인 ‘Preference Hijacking(Phi)’을 제시하는 데 목적이 있다.
- Motivation: MLLM은 텍스트뿐만 아니라 이미지 정보를 함께 처리하는 복합 모델로서, 정교하게 최적화된 이미지에 의해 모델 응답의 편향 조작 가능성 등 안전 문제가 대두되고 있다.
- Contribution: 본 논문은 모델 구조 변경 없이 추론 시점에 이미지에 숨겨진 최적화된 교란을 삽입해 MLLM의 선호도를 원하는 방향으로 조작하는 공격 방법과 범용 교란 기법을 처음으로 제안하였다.
Method
Preference Hijacking(Phi)은 공격자가 특정 선호도를 반영하는 대조 쌍 데이터셋을 구축하고 이를 바탕으로 이미지에 미세한 교란을 최적화하여 삽입함으로써, 입력 이미지와 사용자 질의에 대해 일관되고 편향된 응답을 이끌어내는 방법이다.
최적화 과정에는 Projected Gradient Descent(PGD)를 활용하고, 교란은 개별 이미지마다 훈련하는 방법뿐 아니라 여러 이미지에 적용 가능한 범용 교란(패치형, 테두리형)을 도입하여 확장성과 효율성을 확보하였다.
이를 통해 MLLM의 출력 선호도를 공격자가 지정한 방향으로 변화시키면서도 이미지의 시각적·의미적 무결성은 유지된다.
Results
다양한 공개 MLLM(LLaVA-1.5, Llama-3.2, Qwen2.5-VL)을 대상으로 텍스트 전용 및 멀티모달 과제에서 기존 비교군 대비 선호도 조작 정확도 및 평가 점수가 크게 향상됨을 입증하였다.
Limitations
본 공격은 이미지 품질 저하가 일정 부분 불가피한 사전처리 방어 기법에는 저항력을 보이나 완전한 방어책은 제시되지 않았으며, 사용자의 시스템 프롬프트 통제 권한이 없을 때만 공격이 가능하다.
Conclusion
Phi는 MLLM의 추론 과정에서 이미지 기반 입력 만으로 모델의 응답 선호도를 은밀하게 조작할 수 있음을 보여주어 멀티모달 모델의 안전성과 신뢰성 향상을 위한 새로운 연구 및 방어 필요성을 제기하였다.
4. Sound Matching an Analogue Levelling Amplifier Using the Newton-Raphson Method
Introduction
- 본 논문의 목표는 뉴턴-랩슨(Newton-Raphson) 방법을 이용하여 아날로그 레벨링 앰플리파이어인 Teletronix LA-2A의 소리 매칭을 위한 디지털 피드포워드 컴프레서 모델의 최적 파라미터를 찾는 것이다.
- 기존의 경사하강법 대신 파라미터 수가 적은 회로 모델에 적합한 뉴턴-랩슨 방법을 활용하여 더 빠르고 안정적인 수렴을 달성하고자 하는 동기가 있다.
- 디지털 컴프레서 모델을 구현하고 GPU 병렬처리를 통한 최적화 가속, 최종 모델의 VST 플러그인 공개까지 수행한 점이 본 연구의 주요 기여이다.
Method
아날로그 컴프레서의 동작을 피드포워드 디지털 컴프레서 모델로 근사하고, 최적 파라미터를 최소 제곱 거리 함수 기준으로 뉴턴-랩슨 법을 사용해 찾는다. 파라미터는 5개(스레숄드, 비율, 어택, 릴리스, 메이크업 게인)이며, 자동 미분과 병렬 알고리즘을 활용하여 헤시안 행렬을 효율적으로 계산한다. 최적화 과정에서는 감쇠와 백트래킹 라인 서치를 통해 수렴을 안정화한다.
Results
제안한 4A-2A 모델은 SignalTrain 데이터셋 기준으로 주요 상용 플러그인(UAD, Waves, Cakewalk) 대비 오차율(ESR)과 라우드니스 다이나믹 레인지 차이(∆LDR)에서 경쟁력 있는 성능을 보였으며, GRU가 포함된 확장 모델은 더욱 우수한 결과를 냈다.
Limitations
LA-2A의 피드백 구조와 2단계 릴리스 특성을 완벽히 모사하지 못하여 낮은 피크 리덕션 영역에서는 일관된 최적화 해를 찾기 어려웠다.
Conclusion
뉴턴-랩슨 방법을 활용한 그레이박스 VA 모델링은 아날로그 컴프레서의 사운드 매칭에 효과적이며, 본 연구는 향후 보다 복잡한 피드백 회로나 다른 신호처리 효과기에 뉴턴-랩슨 최적화를 확장할 토대를 제공한다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: