Daily Papers — 2025-09-15
1. InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
Introduction
- Goal: 본 연구는 고정 크기 잠재 공간(latent)에서 임의의 해상도 이미지를 빠르고 효율적으로 생성할 수 있는 새로운 패러다임인 InfGen을 제안하는 것이다.
- Motivation: 기존의 확산 모델은 높은 해상도 이미지 생성 시 연산 비용이 급격히 증가하여 4K 이미지 생성에 100초 이상 소요되는 문제가 존재한다.
- Contribution: InfGen은 VAE 디코더를 교체하는 경량 다중 해상도 생성기를 통해 확산 모델을 재학습 없이 임의 해상도 이미지 생성에 적용 가능하며, 생성 속도를 4K 기준 10배 이상 향상시킨다.
Method
InfGen은 고정된 크기의 잠재 표현을 내용 표현으로 간주하고, 이를 토대로 비디오 트랜스포머 기반의 크로스어텐션 구조를 통해 임의 크기의 고해상도 이미지를 1단계로 생성한다. 포지셔널 인코딩에는 임플리시트 뉴럴 포지셔널 임베딩(INPE) 방식을 도입하여 다양한 크기의 마스크 토큰과 잠재 토큰 간 위치 정보를 연속적으로 매칭한다. 초고해상도 생성을 위해 학습 없이 잠재의 반복적 외삽을 수행하는 방식을 제안하였다.
Results
다양한 확산 모델에 InfGen을 적용한 결과, 기존 모델 대비 최대 44% FID 점수 향상과 4K 이미지 생성 시간을 7.4초로 단축하는 우수한 성능을 획득하였다.
Limitations
초고해상도 반복 외삽 과정에서 확장 가능성은 높으나 계산 자원이 여전히 요구되며, 일부 복잡한 장면에서 세부 재현력 향상을 위한 추가 연구가 필요하다.
Conclusion
InfGen은 기존 확산 모델을 재학습 없이 임의 해상도 이미지 생성 능력을 부여하며, 고품질·고속 이미지 합성의 실용적 해결책으로서 확장 가능성을 보였다.
2. LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios
Introduction
- Goal: 본 연구는 긴꼬리 분포 문제를 포함하는 반지도 학습(Long-Tailed Semi-Supervised Learning, LTSSL)에서 효율적인 파라미터 미세조정을 통해 성능을 향상시키는 새로운 프레임워크 LoFT를 제안하는 것이다.
- Motivation: 기존 LTSSL 방법은 대부분 처음부터 모델을 훈련시키는데, 이로 인해 과신(overconfidence) 문제와 낮은 품질의 의사라벨 생성이라는 어려움을 겪고 있으며, 실제 현장에서는 라벨이 없는 데이터에 분포가 다른 이상치(Out-of-Distribution, OOD) 샘플이 포함될 수 있다.
- Contribution: 트랜스포머 기반 기초 모델을 파라미터 효율적으로 미세조정하며, 신뢰도 높은 의사라벨을 생성하는 LoFT와 OOD 필터링 메커니즘을 포함한 오픈월드 시나리오 대응 LoFT-OW를 제안하여 기존 방법 대비 뛰어난 성능을 입증하였다.
Method
제안한 LoFT는 사전에 대규모 데이터로 훈련된 트랜스포머 기반 기초 모델을 파라미터 효율적으로 미세조정하며, 이를 통해 모델 자신감과 의사라벨 품질을 개선한다. 의사라벨 생성 시 높은 신뢰도 샘플에는 하드 라벨, 낮은 신뢰도 샘플에는 소프트 라벨을 활용하여 과신 문제를 완화한다. 오픈월드 시나리오용 LoFT-OW는 처음에 제로샷 필터링으로 고신뢰 샘플을 선별하고, 미세조정된 모델의 OOD 검출 능력으로 추가 필터링을 수행하여 이상치 샘플을 배제한다.
Results
CIFAR-100-LT 및 ImageNet-127 장기꼬리 데이터셋에서 LoFT와 LoFT-OW는 적은 양의 라벨 없는 데이터만 사용해도 기존 최첨단 방법 대비 더 우수한 정확도와 OOD 검출 성능을 기록하였다.
Limitations
LoFT-OW는 오픈월드 설정에서 OOD 샘플로 인한 분포 편차 때문에 일부 경우 LoFT보다 정확도가 다소 낮아지는 한계를 보였다.
Conclusion
본 논문은 트랜스포머 기반 기초 모델의 파라미터 효율적 미세조정을 활용해 LTSSL의 주요 문제를 극복하고 오픈월드 환경에도 대응 가능한 실용적이고 효과적인 프레임워크를 제안하였다.
3. Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
Introduction
- 본 연구의 목적은 텍스트-투-이미지(T2I) 확산 모델에서 복잡하고 모호한 색상 표현을 정확하게 해석하고 재현함으로써 색상 일치를 향상시키는 것이다.
- 현재 확산 모델들은 복합 색상 용어의 모호성으로 인해 사용자 의도와 불일치하는 결과를 자주 생성하는 문제를 가지고 있다.
- 본 연구는 대형 언어 모델(LLM)을 활용한 색상 의미 해소와 CIELab 색 공간 기반 임베딩 보정 기법을 결합한 훈련 불필요한 프레임워크를 제안한다.
Method
제안된 방법은 먼저 LLM을 이용해 텍스트 프롬프트 내 모호한 색상 용어를 명확한 기본 색상으로 변환하는 의미 색상 해소 단계와, 변환된 색상의 CIELab 공간 내 인접 기본 색상 임베딩을 가중 보간하여 정확한 색상 임베딩을 생성하는 임베딩 보정 단계로 구성된다. 이를 통해 외부 참고 이미지나 추가 훈련 없이도 텍스트 임베딩 공간 내에서 색상 혼합을 정밀하게 수행하며, 최종적으로 크로스어텐션 기반 디퓨전 생성 과정에 반영한다.
Results
TintBench 벤치마크와 여러 기존 기법과의 사용자 평가 비교를 통해, 제안 방법은 모호한 색상 서술에 대한 해석 능력과 색상 충실도에서 모든 평가 항목에서 우수한 성능을 보였다.
Limitations
본 연구에서는 제한된 색상 데이터셋과 텍스트 입력만을 대상으로 하였으며, 이미지 영역이나 자유형 텍스트 등 다양한 입력 모달리티 확대는 추후 연구 과제로 남아있다.
Conclusion
복합 색상 표현을 포함하는 자연어 프롬프트의 모호성을 효과적으로 해결하고, 훈련 없이도 CIELab 공간 기반 임베딩 보정을 통해 고충실도 색상 재현을 달성하는 새로운 색상 정렬 프레임워크를 제안하였다.
4. DeMeVa at LeWiDi-2025: Modeling Perspectives with In-Context Learning and Label Distribution Learning
Introduction
- Goal: 본 논문은 LeWiDi 2025 공유 과제에서 분쟁이 있는 주석을 학습하는 문제에 대해 상황 내 학습과 라벨 분포 학습 방법을 활용한 관점 모델링 접근법을 제시하는 것이다.
- Motivation: 자연어 처리에서 주석자의 다양한 관점과 배경으로 인한 주석 불일치는 기존의 다수결 집계 방법으로 다루기 어려우며, 이를 반영하는 관점적 학습이 필요하기 때문이다.
- Contribution: 본 연구는 (1) 대형 언어 모델을 활용한 상황 내 학습이 주석자별 주석 예측과 소프트 라벨 집계에 효과적임을 보였고, (2) 라벨 분포 학습 방법이 소프트 라벨 예측에 유망함을 제시하였다.
Method
본 연구에서는 (1) 상황 내 학습(인컨텍스트 러닝, ICL)을 통해 주석자의 과거 주석을 데모로 사용하여 주석별 레이블을 예측하고 이를 소프트 라벨로 집계하는 2단계 파이프라인을 제안하였다. (2) 예제 선택은 의미 유사도 기반 샘플링과 레이블 기반 층화 샘플링을 비교하였고, (3) 라벨 분포 학습(LDL)에서는 RoBERTa를 활용해 누적 함수 기반 손실과 군집 정보를 결합하는 미세 조정 방식을 실험하였다.
Results
제안한 ICL 방식은 LeWiDi 2025 대회에서 2위를 기록했으며, 레이블 기반 샘플링이 수치형 라벨 예측에서 모델 보정에 도움을 주었고, explanations 포함이 일부 데이터셋에서 성능 향상을 나타냈다.
Limitations
상황 내 학습 모델은 상식 기반 예측에 의존하여 다수 관점이 명시적으로 표현되지 않은 경우 다양한 주석자 관점을 완전하게 반영하지 못한다는 한계가 존재한다.
Conclusion
본 연구는 관점적 NLP 연구자들이 불확실성과 라벨 분포 학습에 관한 기존 기법을 적극 수용하여, 소프트 라벨링과 관점 모델링 분야의 발전에 기여할 필요가 있음을 강조하였다.
5. CAT: Causal Attention Tuning For Injecting Fine-grained Causal Knowledge into Large Language Models
Introduction
- Goal: 본 연구는 대규모 언어 모델(LLMs)에 미세한 인과 지식을 효과적으로 주입하기 위한 인과 주의 조정(Causal Attention Tuning, CAT) 방법을 제안하는 데 목적이 있다.
- Motivation: 기존 LLM은 대규모 데이터로 직접 학습 시 진정한 인과 관계보다는 우연한 상관관계에 의존하여 특히 분포 외(Out-of-Distribution, OOD) 상황에서 성능 저하가 발생하는 문제를 안고 있다.
- Contribution: CAT는 인과 지식을 토큰 단위 주의(attention) 메커니즘에 주입하여 모델이 인과 구조에 집중하도록 유도하며, STG 벤치마크 및 다양한 다운스트림 작업에서 우수한 일반화 성능을 입증하였다.
Method
CAT는 (1) 전문가가 작성한 소수의 예시를 기반으로 보조 LLM을 활용하여 토큰 단위 인과 신호를 자동 생성하고, (2) 이 신호를 인접 행렬로 변환하여 주의 메커니즘의 학습을 인과적으로 제약하는 Re-Attention 메커니즘을 도입하여 인과 지식을 주입한다. 이러한 방법은 주의 분포 내 노이즈 및 편향을 줄이고 인과 단어에 집중하도록 모델을 조정한다.
Results
STG 벤치마크에서 CAT는 평균 5.76% 성능 향상과 함께 Llama-3.1-8B 모델의 OOD 성능을 64.5%에서 90.5%로, Qwen 모델의 OOD 성능을 25.4%에서 55.9%로 크게 개선하였다.
Limitations
본 연구는 10억 개 이상의 파라미터 대규모 모델에 대한 CAT의 적용 효과와 깊은 인과 이해가 필요한 복잡한 작업에 대해 충분한 탐색을 수행하지 못하였다.
Conclusion
CAT는 LLM의 주의 메커니즘에 미세 인과 지식을 효과적으로 주입하여 인과 관계 기반의 예측 및 생성 능력과 분포 외 일반화 성능을 향상시키는 혁신적인 방법임이 입증되었다.
6. CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China
Introduction
- Goal: 본 연구는 중국 소수민족 언어인 티베트어, 위구르어, 몽골어의 제목 생성 작업을 위한 대규모 데이터셋 CMHG를 구축하고 평가하는 데 목적이 있다.
- Motivation: 기존 다국어 코퍼스에서 해당 소수민족 언어들의 자료 부족과 품질 문제로 인해 자연어처리 연구 및 실제 응용이 어려운 상황이다.
- Contribution: 10만 개의 티베트어, 5만 개씩의 위구르어와 몽골어 데이터를 수집하여 새로운 제목 생성용 데이터셋을 공개하고, 원어민 주도 평가를 통해 고품질 벤치마크 테스트셋을 제시하였다.
Method
중국 내 정부 문서와 뉴스 웹사이트에서 자동 크롤링한 원문과 제목 데이터를 수집하였다.
비텍스트 요소 제거, 중복 제거, 문자 표준화 등 엄격한 전처리 과정을 거쳐 데이터 정합성을 확보하였다.
원어민 평가자들이 선정한 3,000개 샘플에 대해 제목과 본문 일치도를 7점 척도로 주석하여 신뢰성 높은 검증 데이터를 구성하였다.
Results
소규모 미세조정 모델과 대형 LLM을 대상으로 한 평가 결과, CMHG 데이터셋 활용 시 중국 소수민족 언어의 제목 생성 성능이 유의하게 향상되었으며, 특히 대형 모델은 적은 샘플로도 우수한 결과를 도출하였다.
Limitations
본 데이터셋은 세 언어에 한정되며, 다른 소수민족 언어와 다양한 자연어처리 과제에는 아직 확장되지 못한 한계가 존재한다.
Conclusion
CMHG 데이터셋은 중국 소수민족 언어의 제목 생성 연구를 위한 귀중한 자원으로서, 향후 연구 발전과 모델 성능 향상에 기여할 것으로 기대된다.
7. Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation
Introduction
- Goal: 본 연구의 목적은 대규모 언어 모델(LLM)을 텍스트 주석(annotation)에 사용할 때 발생하는 숨겨진 위험, 즉 LLM 해킹 현상을 정량화하는 것이다.
- Motivation: LLM이 연구자의 설정에 따라 출력 결과가 크게 달라져 통계적 결론에 심각한 오류를 유발할 가능성이 존재하지만, 이에 대한 체계적 검증과 가이드라인이 부족하다.
- Contribution: 37개 사회과학 주석 과제를 18개 모델과 다양한 프롬프트로 복제하여 1,361만 개 주석과 2,361개의 가설을 분석함으로써 LLM 해킹 위험을 체계적으로 평가하고 완화 전략을 제안하였다.
Method
사회과학 데이터 주석 37개 작업을 21개 연구 자료에서 수집하였고, 18종 모델과 다양한 프롬프트 조합으로 LLM 출력을 생성하였다.
각 주석 결과를 사용하여 2,361개의 가설 검증을 로지스틱 회귀분석으로 수행하며, LLM 구성별 오류 유형(Type I, II, S, M)을 평가하였다.
추가로 인간 주석 샘플 활용 및 통계적 보정 기법을 적용해 LLM 해킹 완화 효과를 비교하였다.
Results
최첨단 모델에서도 약 1/3, 작은 모델은 절반 이상의 가설에서 LLM 해킹으로 인한 잘못된 통계적 결론이 도출되었으며, 의도적 해킹도 적은 모델 및 프롬프트 조합으로 쉽게 가능하였다.
Limitations
인간 주석에 비해 대규모 LLM 주석은 여전히 높은 오류율을 보이며, 제시한 보정 기법들은 Type I과 Type II 오류 간 트레이드오프를 완전히 해소하지 못한다.
Conclusion
LLM을 단순 자동 주석 도구가 아닌 복잡한 분석 도구로 인식하고 엄격한 설정 검증과 투명한 보고가 필요한 연구 관행의 근본적 변화가 요구된다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: