Daily Papers — 2025-11-25
1. DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
Introduction
- Goal: 본 연구는 고주파 신호와 저주파 의미 정보를 분리하여 효율적이고 고품질의 엔드투엔드 픽셀 확산 기반 이미지 생성을 달성하는 것이다.
- Motivation: 기존 픽셀 확산 모델은 단일 Diffusion Transformer이 고주파 노이즈와 저주파 의미를 동시에 학습함에 따라 느린 학습 및 추론 속도와 낮은 영상 품질 문제를 겪는다.
- Contribution: 본 논문은 저주파 의미는 DiT로, 고주파 세부 묘사는 경량 픽셀 디코더로 분리하는 frequency-Decoupled 구조와 시각적으로 중요한 주파수에 가중치를 부여하는 주파수 인지 기반 Flow-Matching 손실을 제안한다.
Method
Frequency-Decoupled 픽셀 확산(DeCo)은 저해상도 입력을 이용해 DiT가 저주파 의미를 모델링하고, 고해상도 입력 조건 하에 픽셀 디코더가 고주파 디테일을 생성하여 각 주파수 대역을 분리한다. 경량 픽셀 디코더는 주로 선형 계층으로 구성되어 효율적인 고주파 모형 학습이 가능하다. 또한 JPEG 기준의 주파수 중요도를 반영한 주파수 인지 Flow-Matching 손실을 도입하여 시각적으로 의미 있는 주파수 성분을 강화한다.
Results
DeCo는 ImageNet 256×256 및 512×512에서 각각 FID 1.62와 2.22를 달성하며, 기존 픽셀 확산 모델과의 성능 격차를 줄이고, GenEval 텍스트-이미지 생성 평가에서 0.86의 최고 점수를 기록하였다.
Limitations
고주파 및 저주파 성분 분리에 따른 구조 복잡성 및 최적 파라미터 설정에 여전히 의존하며, 일부 실험 설정에 대한 정보 부족 문제도 존재한다.
Conclusion
DeCo는 저주파 의미와 고주파 세부 묘사를 분리하는 새로운 아키텍처와 손실 함수를 통해 픽셀 확산 모델의 효율성과 생성 이미 품질을 크게 향상시키며 두 단계 latent diffusion 기법과도 경쟁력 있는 성능을 보인다.
2. UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios
Introduction
- 본 연구의 목표는 다양한 종횡비에서 고품질의 네이티브 4K 텍스트-이미지 생성을 위한 데이터와 모델의 공동 설계 방법을 제안하는 것이다.
- 종래 1K 해상도에서 우수한 성능을 보인 확산 트랜스포머를 네이티브 4K 해상도 및 다양한 종횡비에 확장할 경우 위치 인코딩, VAE 압축, 최적화 문제 등이 상호 연계된 실패 모드가 발생한다는 점에서 동기를 얻었다.
- 이에 본 연구는 1백만 장 이상의 고품질 4K 이미지 데이터셋(MultiAspect-4K-1M)과 위치 인코딩, VAE 후처리, 최적화 목표, 미적 학습 커리큘럼을 결합한 UltraFlux 모델을 제안한다.
Method
UltraFlux는 (i) 학습 윈도우, 주파수, 종횡비 정보를 반영하는 Resonance 2D RoPE와 YaRN 기반 위치 인코딩을 적용하고, (ii) Fine-detail 복원을 위한 비대립적 VAE 후처리, (iii) SNR 인지 Huber 웨이블릿 손실 함수를 도입하며, (iv) 고잡음 단계에 고미적 감독을 집중하는 단계별 미적 학습 커리큘럼으로 구성된다. 이를 통해 4K 해상도 및 다양한 종횡비에 안정적이고 세부 묘사에 강한 대용량 확산 트랜스포머를 학습한다.
Results
Aesthetic-Eval@4096 벤치마크와 여러 종횡비 4K 환경에서 UltraFlux는 다양한 공개 소스 모델을 능가하며, LLM 프롬프트 정제를 결합하면 Seedream 4.0과 동등하거나 우수한 성능을 보인다.
Limitations
본 연구에서 제안한 방법들은 복잡한 모델 구성 요소들이 결합되어 있으며, 아직 대규모 RL 후학습이나 추가 데이터 증강 기법 적용과 같은 확장 연구가 필요하다.
Conclusion
UltraFlux는 대규모 고품질 4K 데이터셋과 종횡비 인지 위치 인코딩, 최적화 기법을 결합한 통합 프레임워크로서 네이티브 4K 텍스트-이미지 생성에서 최첨단 성능과 실용성을 달성하였다.
3. Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens
Introduction
- Goal: 본 연구는 Vision-Language Models(VLMs)가 언어뿐 아니라 연속적 시각 토큰을 통해 시각적 사고를 수행하도록 하는 Chain-of-Visual-Thought(COVT) 프레임워크를 제안하는 데 목적이 있다.
- Motivation: 기존 VLM은 텍스트 공간에 제한되어 있어 세밀한 지각 정보(예: 깊이, 경계, 구조 등)를 정확하게 표현하지 못해 공간 추론 및 기하학 감지 능력이 부족한 문제점이 있다.
- Contribution: 본 논문은 COVT를 통해 VLM이 시각 전문가로부터 다양하고 밀집된 지각 신호를 압축한 연속 시각 토큰을 생성하고 이를 활용해 더 정확하고 해석 가능한 다중모달 추론을 가능하게 했음을 증명한다.
Method
COVT는 2D 분할, 3D 깊이, 에지, DINO 특징 등의 네 가지 시각 전문가 모델로부터 각각 대응하는 연속 시각 토큰을 학습시킨다.
학습 과정에서는 VLM이 이 토큰들을 예측해 세밀한 시각 정보를 재구성하고, 특수 디코더와 손실 함수를 통해 시각 신호를 내재화한다.
추론 시에는 이 시각 토큰 사슬을 활용해 언어와 시각 정보를 결합하여 공간적, 기하학적 인식이 뛰어난 추론을 수행한다.
Results
COVT는 CV-Bench, HRBench, BLINK 등 10개 이상의 다양한 시각 중심 벤치마크에서 3%~16% 성능 향상을 달성하며, 텍스트 기반 CoT 대비 시각 추론 정확도와 해석 가능성이 크게 개선됨을 확인하였다.
Limitations
정보 부족.
Conclusion
COVT는 연속 시각 토큰을 활용한 시각적 사고 사슬을 통해 VLM의 시각 추론 능력을 향상시켜, 정확하고 근거 있는 다중모달 지능 구현이 가능함을 입증하였다.
4. AICC: Parse HTML Finer, Make Models Better – A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser
Introduction
- Goal: 본 논문은 모델 기반 HTML 파서 MinerU-HTML을 통해 웹 문서에서 구조적 요소를 정밀하게 추출하고 이를 바탕으로 7.3조 토큰 규모의 AI 준비 다국어 코퍼스 AICC를 구축하는 것을 목표로 한다.
- Motivation: 기존 웹 코퍼스가 저품질의 휴리스틱 기반 HTML-텍스트 변환을 고정된 전처리 단계로 간주하여 문서 구조 보존에 실패하고, 이는 모델 성능 저하로 이어진다는 문제점을 해결하고자 하였다.
- Contribution: MinerU-HTML이라는 0.6B 파라미터 기반 시퀀스 라벨링 추출 파이프라인과, 이를 활용한 MainWebBench 벤치마크 및 AICC 코퍼스를 공개하여 HTML 추출 품질이 모델 성능에 미치는 중요성을 실험적으로 입증하였다.
Method
MinerU-HTML은 사전 처리 단계에서 비콘텐츠 태그 제거와 속성 단순화, 블록 수준 청킹으로 입력을 압축하고, 0.6B 파라미터 언어 모델이 시퀀스 라벨링 방식으로 주요 콘텐츠 블록을 분류한다.
이후 대표 페이지에만 모델 추론을 수행하고, 클러스터 기반 템플릿 일반화 규칙을 추출·적용하는 스케일링 전략을 이용해 수백억 웹 문서에 효율적으로 확장한다.
마지막으로 구조화된 중간 표현(Content List)을 생성한 후, 마크다운으로 변환하여 모델 학습에 적합한 AI 준비 형식을 생성한다.
Results
MinerU-HTML은 MainWebBench에서 Trafilatura 대비 ROUGE-N F1 0.8182 대 0.6358, 코드블록 0.9093 대 0.1305, 수식 0.9399 대 0.6107 등 구조적 요소 보존에서 압도적 우수성을 보였으며, AICC 기반 모델은 동등한 필터링 조건 하에서 Trafilatura 기반 코퍼스보다 1.08%p 높은 50.82% 평균 정확도를 기록하였다.
Limitations
본 논문은 일부 복잡한 테이블 구조의 완전한 보존에 한계가 있으나 이는 보존이 어려운 HTML 표 구조의 본질적 복잡성에서 기인한다.
Conclusion
MinerU-HTML 기반의 고품질 HTML 추출은 대규모 웹 코퍼스 구축 및 그를 통한 언어 모델 성능 향상에 있어 필수적이고, 본 연구는 이를 입증하는 동시에 웹 데이터 정제에서 추출 단계의 중요성을 재조명한다.
5. Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems
Introduction
- Goal: 본 연구는 추천 시스템 내 사용자와 아이템 임베딩에서 해석 가능하고 일관된 단의미 개념(모노세만틱 뉴런)을 추출하는 방법을 제안한다.
- Motivation: 기존 대형 언어 모델의 SAE 기반 단의미성 연구와 달리, 추천 시스템에서는 사용자-아이템 임베딩 간 상호작용을 보존하는 것이 필수적이므로 새로운 접근법이 요구된다.
- Contribution: 상호작용 인지 예측 기반 손실 함수를 도입한 희소 오토인코더를 통해 다양한 추천 모델과 데이터셋에서 일관성 있는 의미론적 뉴런을 추출하고, 모델 수정 없이 제어 가능한 추천 기능을 구현하였다.
Method
본 연구는 사용자 및 아이템 임베딩을 입력으로 하는 두 탑(two-tower) 구조의 추천 시스템에 맞춘 희소 오토인코더(SAE)를 설계하였다. SAE는 정지된 추천 모델을 통과하는 예측 인지 손실을 통해 임베딩 재구성이 추천의 사용자-아이템 친화도 패턴과 일치하도록 학습된다. 또한 KL-발산 기반 희소성 규제를 활용해 비활성 뉴런 문제를 완화하고, 다단계 Matryoshka SAE 구조로 의미론적 계층성을 탐색하였다.
Results
제안 방법은 MovieLens와 Last.FM 데이터셋의 Matrix Factorization 및 Neural Collaborative Filtering 모델에서 장르, 인기, 시대적 특성에 일치하는 단의미 뉴런을 고순도 및 상호작용 일관성과 함께 추출하였다.
Limitations
예측 인지 손실 가중치 조절 시 해석 가능성과 추천 품질 간 균형을 맞추어야 하며, 과도한 가중치는 희소성 저하를 초래한다는 점이 발견되었다.
Conclusion
제안한 희소 오토인코더 기반 접근법은 추천 시스템의 사용자-아이템 상호작용을 보존하면서 의미론적으로 해석 가능한 뉴런을 추출하고, 이를 통한 후속 컨트롤이 가능한 투명하고 신뢰성 있는 개인화 추천 구현에 기여한다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: