Daily Papers — 2025-09-18
1. Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale
Introduction
- Goal: 본 논문은 아랍어 중심의 명령 수행 및 번역 모델인 HALA를 대규모로 구축하는 것을 목표로 한다.
- Motivation: 아랍어는 방언 다양성과 복잡한 형태론적 특성으로 인해 고품질 명령 데이터가 부족하고, 기존 다국어 모델들이 아랍어에 대한 깊이 있는 최적화를 이루지 못하는 문제점이 존재한다.
- Contribution: FP8 양자화된 고성능 AR↔EN 번역기를 바탕으로 수백만 쌍의 아랍어 명령 데이터를 생성하고, 이를 활용해 다중 규모의 HALA 모델을 미세조정하여 아랍어 벤치마크에서 최첨단 성능을 달성하였다.
Method
FP8 동적 스케일링을 적용한 고용량 다국어 번역기를 압축하여 빠르고 안정적인 아랍어-영어 번역 엔진으로 활용하였다. Open-Orca 등 다양한 고품질 영어 명령 데이터셋을 아랍어로 번역해 수백만 규모의 명령-응답 쌍을 구축하였다. 최종 명령 조정 단계에서는 다중 크기의 모델에 대해 slerp 병합 기법을 적용하여 아랍어 특화 성능과 기반 모델의 일반 능력을 균형 있게 확보하였다.
Results
HALA 모델들은 350M에서 9B 파라미터까지 다양한 규모에서 아랍어 중심 벤치마크 전반에 걸쳐 기존 기반 모델 및 최선의 경쟁 모델 대비 평균 성능 우위를 보였다.
Limitations
본 연구는 아랍어 명령 데이터 구축과 모델 미세조정에 집중하였으나, 방언별 다양성에 따른 성능 차이나 더욱 광범위한 태스크 평가는 제한적이었다.
Conclusion
HALA는 효율적인 번역-미세조정 파이프라인을 통해 고품질 아랍어 명령 모델을 구현하였으며, 아랍어 자연어처리 연구를 촉진할 수 있는 공개형 모델과 데이터셋, 평가 도구를 제공한다.
2. Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning
Introduction
- Goal: 본 연구는 코드 언어 모델(Code Language Models, CLMs)이 학습 과정에서 의도치 않게 기억한 민감 정보를 효과적이고 효율적으로 제거할 수 있는지를 탐구한다.
- Motivation: 기존 데이터 중복제거 및 차등 프라이버시 기법은 전체 모델 재학습이 필요하여 비용과 시간이 과도하게 소요되며, 이미 배포된 모델에는 동적인 민감 정보 삭제 요청에 적절히 대응하지 못한다.
- Contribution: 민감 정보가 포함된 학습 데이터의 기억 위험도를 정량화하고, 선택적 그리고 제약 기반의 무효화 기법인 CodeEraser를 제안하여 코드의 구조적 완전성과 기능적 정확성을 유지하면서 민감 기억을 효과적으로 제거한다.
Method
기존의 그래디언트 상승 방식 무효화와 제약 기반 무효화 기법을 고찰하고, 민감 구간만을 선별적으로 무효화하는 CodeEraser를 개발하였다. CodeEraser는 민감 정보 탐지 도구를 활용해 민감 세그먼트를 분리하고, 민감 구간에는 그래디언트 상승을, 비민감 구간에는 그래디언트 하강을 적용하여 모델의 전체 성능 저하를 최소화하였다. 또한, 반복 학습 전략으로 잊혀야 할 데이터와 유지할 데이터를 균형 있게 다루도록 설계하였다.
Results
Qwen2.5-Coder-7B 모델에서 CodeEraser는 민감 정보 기억을 93.89% 감소시키면서도 원본 모델 성능을 99.00% 유지하여 높은 기억 제거 효과와 모델 유틸리티 보존을 동시에 달성하였다.
Limitations
본 연구에서 제안한 무효화 기법은 민감 세그먼트 선별에 정규표현식 기반 도구를 활용하여 일부 민감 정보 탐지 한계와 선택성에 제한이 존재한다.
Conclusion
머신 언러닝 방식의 선택적 무효화 기법인 CodeEraser는 CLMs 내 민감 정보 기억의 효과적 제거와 모델 성능 유지라는 난제를 해결하는 유망한 접근법임을 실험적으로 입증하였다.
3. AERIS: Argonne Earth Systems Model for Reliable and Skillful Predictions
Introduction
- Goal: 본 연구는 고해상도 글로벌 기상 및 기후 예측을 위한 대규모 확산 기반 스윈 트랜스포머 모델 AERIS를 제안하는 데 있다.
- Motivation: 기존의 수치기상예보 모델은 작은 규모 물리 과정의 매개변수 불확실성과 높은 계산 비용 등으로 기상 및 계절 예측의 정확성과 확장성에 한계가 존재하였다.
- Contribution: 본 연구는 최대 800억 개 매개변수의 대규모 확산모델과 이를 효율적으로 병렬화하는 SWiPe 기법을 도입하여 안정적이며 계절까지 예측 가능한 성능을 달성하였다.
Method
AERIS는 픽셀 수준 1×1 패치 크기의 스윈 트랜스포머를 기반으로 하며, 확산 모델 학습 방식을 사용한다. SWiPe 병렬화 기법은 시퀀스, 파이프라인, 윈도우 병렬성을 결합하여 통신 비용 증가 없이 윈도우 기반 트랜스포머를 효과적으로 분산 처리한다. 이를 통해 0.25도 ERA5 재분석 데이터에서 전 지구적 시계열 예측을 안정적으로 수행한다.
Results
Aurora 슈퍼컴퓨터에서 10,080 노드(120,960 GPU 타일) 규모로 10.21 ExaFLOPS의 혼합 정밀도 연산 성능을 유지하며 IFS ENS 대비 중기 예측 능력을 상회하고, 최대 90일의 계절 예측에서도 안정적인 결과를 보였다.
Limitations
기존 병렬화 기법과 비교할 때 일부 시스템에서는 SWiPe 통신 중 MPI 또는 CCL 라이브러리 사용 시 데드락 등의 문제로 완전한 통신 겹치기가 어려웠다.
Conclusion
본 연구는 대규모 확산 스윈 트랜스포머와 혁신적 병렬화 기법을 통해 기상 및 기후 예측에서 우수하고 안정적인 성능을 달성하며 차세대 과학용 AI 모델의 가능성을 제시하였다.
4. Quantum Variational Activation Functions Empower Kolmogorov-Arnold Networks
Introduction
- 본 논문은 양자변분 활성함수(Quantum Variational Activation Functions, QVAF)를 도입하여 Kolmogorov-Arnold Networks (KAN)의 성능과 효율성을 강화하는 것을 목표로 한다.
- 양자변분 회로(VQCs)의 함수 근사 능력과 KAN의 학습 가능한 활성함수의 장점을 결합함으로써, 파라미터 수를 대폭 줄이면서 표현력을 높이고자 한다.
- QVAF를 단일 큐비트 데이터 재업로드 회로인 DARUAN으로 구현하고 이를 KAN에 통합하여 QKAN 아키텍처를 제안하였다.
Method
QVAF는 단일 큐비트로 구성된 데이터 재업로드 변분 회로(DARUAN)를 활성함수로 활용하며, DARUAN은 학습 가능한 데이터 전처리 가중치를 포함하여 복잡한 함수는 적은 파라미터로 근사한다.
DARUAN을 KAN 내의 각 활성함수로 대체하여 파라미터 효율성과 표현력을 높인 QKAN 아키텍처를 구성하였다.
또한, 고차원 문제에 대응하기 위해 하이브리드 QKAN(HQKAN)을 제안하여 스케일 확장성과 효율성을 개선하였다.
Results
QKAN은 함수 회귀, 이미지 분류(예: MNIST, CIFAR), 언어 생성 모델링(GPT-2)에 걸쳐 기존 KAN 및 MLP 대비 파라미터 수는 줄이면서 성능과 일반화 능력을 향상시킴을 보였다.
Limitations
QKAN과 DARUAN은 입력 및 출력 차원 증가에 따라 파라미터 수가 제곱으로 증가하는 구조적 한계가 존재한다.
Conclusion
QVAF와 DARUAN를 활용한 QKAN은 양자 영감을 받은 해석 가능하고 효율적인 신경망 아키텍처로, 특히 노이즈 중간 규모 양자 하드웨어 및 고성능 고전 시뮬레이터에서 실용적이며 확장 가능한 양자 기계학습 방향을 제시한다.
5. Image Tokenizer Needs Post-Training
Introduction
- Goal: 본 논문은 이미지 생성 모델에서 토크나이저가 재구성과 생성 작업 간 분포 차이를 극복할 수 있도록 사후 학습(post-training)을 포함한 새로운 학습 방식을 제안하는 것이다.
- Motivation: 기존 토크나이저는 주로 재구성에 최적화되어 생성 과정 중 발생하는 샘플링 오류에 취약해 생성 품질 저하가 발생하는 문제점이 존재한다.
- Contribution: 본 연구는 잠재 공간 내 샘플링 노이즈를 모사하는 주 학습(main-training)과, 잘 훈련된 생성 모델과의 분포 차이를 완화하는 사후 학습(post-training)으로 구성된 RobusTok 학습 체계를 제안하고, 새로운 평가 지표 pFID를 도입하였다.
Method
RobusTok은 Vision Transformer 기반 토크나이저로, 주 학습 시 잠재 공간에 인위적 왜곡(latent perturbation)을 가해 생성 오류에 강인한 잠재 표현을 구축한다. 이후 사후 학습 단계에서는 생성된 잠재와 재구성된 잠재 간 분포 차이를 줄이기 위해 디코더만 미세 조정하며, 이때 보존 비율(preservation ratio)을 통해 생성 잠재와 재구성 잠재 간 연속성을 확보한다. 또한 DINO 기반 의미적 규제를 적용하여 잠재 표현의 시맨틱 일관성을 유지한다.
Results
제안된 RobusTok은 약 4억 파라미터의 생성기와 결합 시, 토크나이저 주 학습만으로 1.60 gFID를 달성하며, 여기에 사후 학습을 추가할 경우 1.36 gFID로 최첨단 성능을 기록하였다.
Limitations
사후 학습은 생성 모델과 토크나이저 간 분포 차이를 완화하지만, 생성 과정의 시스템적 샘플링 오차를 완전히 해결하지는 못한다.
Conclusion
RobusTok은 생성 품질과 학습 안정성을 동시에 향상시키는 신규 토크나이저 학습 체계로, 이미지 생성 모델의 표현 효율성과 생성 성능 개선에 중요한 기여를 하였다.
6. Hybrid Quantum-Classical Model for Image Classification
Introduction
- Goal: 본 연구는 하이브리드 양자-고전 신경망과 순수 고전 모델 간의 성능, 효율성, 견고성을 MNIST, CIFAR100, STL10 세 가지 벤치마크 데이터셋으로 비교 평가하는 것이다.
- Motivation: 고전 딥러닝의 확장성과 에너지 효율성 한계를 극복하기 위해 양자 계산과 머신러닝의 융합에 대한 체계적 검증이 필요하다.
- Contribution: 본 연구는 세 데이터셋에 걸친 하이브리드 모델의 성능향상, 학습 효율성, 자원 사용량, 적대적 공격에 대한 내성 평가를 종합적으로 제시한다.
Method
하이브리드 모델은 파라미터화된 양자 회로를 고전 CNN과 결합하여 설계되었으며, 4큐비트 2레이어의 변분 양자 회로와 진폭 인코딩을 활용한다. 세 데이터셋에 대해 동일한 학습 프로토콜(에폭 50, 배치 크기 64)을 적용하여 고전 CNN 모델과 성능과 자원 소비 지표를 비교하였다. 실험은 정확도, 학습시간, 메모리 사용량, CPU 활용도 및 ε=0.1 적대적 공격 견고성 평가지표를 포함한다.
Results
하이브리드 모델은 MNIST(99.38% vs 98.21%), CIFAR100(41.69% vs 32.25%), STL10(74.05% vs 63.76%)에서 고전 모델 대비 유의미한 정확도 향상을 달성하고, 특히 복잡한 CIFAR100 및 STL10에서 성능 격차가 크게 벌어졌다.
Limitations
고차원 및 복잡 데이터셋에서는 적대적 공격에 대한 하이브리드 모델의 견고성이 고전 모델과 비교해 유사하게 취약하다는 한계가 존재한다.
Conclusion
하이브리드 양자-고전 신경망은 복잡한 영상 인식 과제에서 정확도 향상과 학습 효율성을 동시에 달성하지만, 높은 차원의 데이터에 대한 견고성 문제는 추가 연구가 필요한 주요 과제이다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: