Daily Papers — 2025-09-24

1. Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

Alphaxiv

Introduction

  • 본 연구의 목표는 아랍어 문서에 특화된 시각-언어 모델 Baseer를 개발하여 아랍어 문서 OCR의 성능을 향상시키는 것이다.
  • 아랍어의 필기체, 다양한 글꼴, 발음 부호, 오른쪽-왼쪽 표기 방향 등 복잡한 특성으로 인해 기존 OCR 시스템들이 아랍어 문서 인식에서 낮은 정확도를 보인다는 점이 연구 동기이다.
  • 본 논문은 Baseer 모델 개발, Misraj-DocOCR이라는 고품질 아랍어 OCR 평가 벤치마크 공개, 그리고 KITAB-bench 데이터셋의 오류 수정 및 개선 작업을 주된 기여로 삼았다.

Method

Baseer는 Qwen2.5-VL-3B-Instruct 모델을 기반으로 하여 시각-언어 엔코더는 고정하고 디코더만 미세 조정하는 전략으로 훈련하였다.
500,000쌍의 합성 및 실제 아랍어 문서 이미지-텍스트 데이터로 학습하며 데이터에는 마크다운과 HTML 테이블 등 구조 정보를 명확히 반영하였다.
Misraj-DocOCR 벤치마크는 문서 종류, 글꼴, 레이아웃 다양성을 포괄하고 전문가 검증을 거쳐 신뢰성을 확보하였다.

Results

Baseer는 Misraj-DocOCR과 수정된 KITAB-Bench에서 다양한 공개 및 상용 OCR 시스템 대비 WER 0.25, 높은 문자 및 구조 인식 정확도를 기록하며 아랍어 문서 OCR 분야에서 최고 성능을 입증하였다.

Limitations

Baseer 모델은 대규모 모델 대비 비교적 작은 규모임에도 불구하고 뛰어난 성능을 보이나, 일부 복잡한 문서 유형이나 길이 초과 시퀀스 처리에서 성능 저하가 관찰되었다.

Conclusion

본 연구는 범용 대규모 멀티모달 언어 모델을 아랍어 문서 OCR에 특화하여 현존 최고 수준의 정확도를 달성함으로써, 형태학적으로 복잡한 언어를 위한 도메인 맞춤형 OCR 기술 발전에 기여하였다.

2. Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

Alphaxiv

Introduction

  • Goal: 본 연구는 멀티모달 이해와 생성 작업을 동시에 가속화하는 통합 프레임워크인 Hyper-Bagel을 제안하는 데 목적이 있다.
  • Motivation: 기존 멀티모달 모델은 다양한 모달리티의 토큰을 처리하는 과정에서 반복적 디퓨전 디노이징과 오토리그레시브 디코딩이 높은 계산 비용을 야기한다는 문제점을 갖는다.
  • Contribution: 본 연구에서는 분할정복 전략을 기반으로 다음 토큰 예측에는 추측적 디코딩을, 디퓨전 디노이징에는 다단계 증류 과정을 적용하여 이해 및 생성 성능을 저해하지 않으면서 가속화 효과를 달성하였다.

Method

Hyper-Bagel은 경량 드래프트 모델을 활용한 추측적 디코딩으로 다중 연속 토큰을 예측하고, 이후 타겟 모델이 이를 병렬 검증하는 방식을 사용한다. 디퓨전 디노이징에서는 제어 신호 임베딩과 구조적 무결성, 이미지 충실도를 각각 최적화하는 3단계 증류 과정을 도입하였다. 또한 효율성을 극대화한 1-NFE 모델을 개발하여 실시간 대화형 편집 및 생성을 지원하도록 하였다.

Results

Hyper-Bagel의 6-NFE 모델은 텍스트-투-이미지 생성에서 16.67배, 이미지 편집에서 22배의 가속을 이루었으며, 멀티모달 이해에서는 2배 이상의 속도 향상을 보였고 성능 저하 없이 기존 모델과 동등하거나 우수한 결과를 달성하였다.

Limitations

복잡하게 얽힌 멀티모달 토큰 간 임베딩 차이와 모델 용량 제한으로 인해 1-NFE 모델은 6-NFE 모델에 비해 세부 표현 충실도에서 다소 손실이 발생한다.

Conclusion

Hyper-Bagel은 멀티모달 모델의 강력한 기능과 실용적 배포 요구 사이의 격차를 효과적으로 해소하여, 손실 없는 고속 가속과 실시간 상호작용을 모두 구현하는 통합 솔루션임을 입증하였다.

3. What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

Alphaxiv

Introduction

  • Goal: 본 연구의 목표는 효과적인 추론을 특징짓는 요소들을 재검토하여 체인 오브 쏘트(CoT)의 길이, 검토(review) 및 구조와 정확성 간의 관계를 체계적으로 분석하는 것이다.
  • Motivation: 기존 연구들은 긴 CoT와 검토가 성능 향상을 가져온다고 보고하였으나, 최근 연구들은 짧은 추론이 더 우수한 결과를 낸다고 상반된 결과를 제시하여 이에 대한 명확한 이해가 필요하였다.
  • Contribution: 본 논문은 10개 대형 추론 모델을 대상으로 한 실험을 통해 CoT의 길이나 검토 비율이 높을수록 정확도가 낮아지는 현상을 발견하고, 실패 단계 비율(Failed-Step Fraction, FSF)을 도입하여 구조적 평가 지표가 성능 예측에 더 효과적임을 입증하였다.

Method

본 연구에서는 수학 및 과학 추론 데이터셋을 이용하여 모델별로 생성된 CoT를 문장 단위가 아닌 그래프 구조로 추출하였다. 각 CoT를 진행(progress)과 검토(review) 구간으로 세분화하여 검토 비율을 산출하고, 실패 단계 비율(FSF)은 실패하거나 포기된 분기 노드의 비율로 정의하였다. 또한 FSF를 기준으로 후보 CoT를 재선별하고 실패 분기를 제거하는 편집 실험을 통해 인과 관계를 검증하였다.

Results

FSF는 모든 모델과 난이도 구간에서 CoT의 길이와 검토 비율보다 정확도를 더 안정적이고 강력하게 예측하였으며, FSF 기반 후보 선별과 실패 분기 제거는 최대 10% 이상의 정확도 향상을 가져왔다.

Limitations

본 연구에서는 테스트 시점에서 측정한 CoT에 근거하여 분석을 수행하였으며, 훈련 과정이 이러한 테스트 시간 특성에 미치는 영향과 모델에 내재된 CoT의 진정한 사고 충실도에 대한 평가는 이루어지지 않았다.

Conclusion

효과적인 추론은 보다 구조적으로 실패가 적고 검토와 길이를 무조건 늘리기보다 실패 분기를 제어하는 질적 접근이 중요하며, FSF는 이러한 구조적 특성을 포착하는 유용한 지표임이 확인되었다.

4. CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching

Alphaxiv

Introduction

  • 본 논문은 조건부 생성 모델에서 소스 및 타겟 분포를 조건별로 재파라미터화하여 플로우 매칭 성능을 향상시키는 방법을 제안한다.
  • 기존 확산 및 플로우 기반 모델은 조건에 무관한 표준가우시안 잡음을 조건부 데이터 분포로 변환하는 과정에서 모델이 이동 및 조건 인코딩을 동시에 수행해야 하는 부담을 가진다.
  • 이러한 문제를 완화하기 위해 조건 인식 이동만 허용하는 경량 재파라미터화 기법인 CAR-Flow를 제안하였으며, 이로 인해 학습 속도와 샘플 품질이 개선되었다.

Method

  • CAR-Flow는 소스와 타겟 분포를 조건에 따라 위치만 이동시키는 shift-only 매핑으로 재파라미터화하여 모델이 불필요한 확률 경로 이동을 수행하지 않도록 한다.
  • 무제한 재파라미터화 시 발생하는 영(零)비용 모드 붕괴를 이론적으로 분석하고, 이를 방지하기 위해 이동 변환만 허용하는 제한을 두었다.
  • 소스-전용, 타겟-전용, 또는 양측 이동 세 가지 변형을 지원하며, 두 분포 모두를 조정하는 것(조인트)이 성능상 가장 우수함을 보였다.

Results

  • ImageNet-256 데이터셋에서 SiT-XL/2 모델에 CAR-Flow를 적용 시 FID 점수가 2.07에서 1.68로 개선되었으며, 추가 파라미터는 0.6% 미만으로 경량임을 확인하였다.

Limitations

  • 본 연구는 간단한 이동 방식만을 사용하여 모든 영비용 모드 붕괴를 차단하는 최선의 해결책을 제시하였으나, 보다 일반적인 매핑 방식 탐색은 향후 연구 과제로 남겨두었다.

Conclusion

  • CAR-Flow는 조건별 분포 정렬을 통해 플로우 매칭 모델의 학습 부담을 완화하고 샘플 품질과 학습 속도를 동시에 향상하는 효과적인 방법임을 보였다.

5. Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Alphaxiv

Introduction

  • 본 논문의 목표는 Simultaneous Speech-to-Text Translation(SimulST) 분야에서 지연(latency) 측정 지표들의 정확성과 신뢰성을 평가하는 것이다.
  • 기존 SimulST 평가에서는 품질 평가는 잘 정립되어 있으나, 지연 측정 지표들이 세분화된 단편(segment) 처리 방식에 의해 편향되고 일관성 없는 결과를 낳아 문제점이 존재한다.
  • 본 연구는 이러한 문제를 해결하기 위해 YAAL 및 LongYAAL 지연 측정 지표를 제안하고, 장시간 음성 평가를 위한 SOFTSEGMENTER라는 새로운 재분할 도구를 개발하여 보다 공정하고 정확한 평가 방법을 제시하였다.

Method

  • YAAL은 기존 Length-Aware Average Lagging(LAAL) 지표의 구조적 편향을 보완하며, 입력 음성 종료 이전에 생성된 단어만을 고려하여 지연을 측정한다.
  • 장시간 무분절 음성 처리에 적합하도록 SOFTSEGMENTER는 단어 수준 정렬을 기반으로 한 부드러운 재분할 방식을 도입하였고, YAAL의 장시간 버전인 LongYAAL로 확장하였다.
  • 이들은 IWSLT SimulST Shared Task에서 제출된 다양한 시스템과 언어쌍에 대해 실험적으로 검증되어 기존 지표 대비 우수한 평가 일관성을 나타낸다.

Results

  • YAAL과 LongYAAL은 기존 주요 지연 측정 기준보다 높은 정확도와 시스템 순위의 신뢰성을 보였으며, SOFTSEGMENTER는 장시간 음성 평가에서 정렬 품질을 크게 향상시켜 평가 신뢰도를 증대시켰다.

Limitations

  • 본 연구는 고자원 언어 및 IWSLT 공유 태스크 시스템에 한정된 실험을 기반으로 하였으며, 저자원 언어 및 실제 실시간 환경에서의 일반화 가능성은 추가 검증이 필요하다.

Conclusion

  • YAAL, LongYAAL, SOFTSEGMENTER는 SimulST 지연 평가의 기존 문제점을 극복하고 단편 및 장시간 평가 모두에서 신뢰할 수 있는 표준 지표로 자리매김할 수 있음을 입증하였다.

6. CommonForms: A Large, Diverse Dataset for Form Field Detection

Alphaxiv

Introduction

  • Goal: 본 논문은 웹규모의 대규모 양식 필드 검출 데이터셋인 COMMONFORMS를 구축하고, 이를 기반으로 한 양식 필드 검출 모델을 제안하는 데 목적이 있다.
  • Motivation: 기존 상용 도구들은 체크박스 등 선택 버튼을 검출하지 못하며, 자동으로 신뢰성 있는 상호작용 양식을 생성하는 고품질 오픈소스 머신러닝 시스템이 부재하다.
  • Contribution: 59,000개 문서, 480,000여 페이지 규모의 다양한 언어와 도메인을 포함한 COMMONFORMS 데이터셋과 FFDNet-S, FFDNet-L 두 가지 고성능 양식 필드 검출 모델을 공개하였다.

Method

  • 본 연구는 양식 필드 검출 문제를 객체 검출 문제로 정의하여, 페이지 이미지로부터 텍스트 입력, 선택 버튼, 서명 필드의 위치와 유형을 예측하는 방식으로 접근하였다.
  • Common Crawl에서 8백만 개 PDF를 추출 후, 엄격한 필터링과 전처리 과정을 거쳐 59,000개의 고품질 양식 문서 데이터셋을 구축하였다.
  • 두 종류의 YOLO11 기반 고해상도(1216px) 객체 검출기인 FFDNet-S와 FFDNet-L 모델을 약 500달러 내외의 비용으로 훈련하여 평가하였다.

Results

  • FFDNet-L 모델은 COMMONFORMS 테스트셋에서 평균정밀도(mAP) 81.0을 달성하며, Adobe Acrobat 대비 높은 정밀도와 재현율을 보였다.

Limitations

  • 실제 웹에서 수집된 양식들은 주석 불일치, 비일관성 등 사전 준비된 데이터에 존재하는 오류로 인해 모델 학습에 악영향을 미칠 수 있다.

Conclusion

  • COMMONFORMS 데이터셋과 FFDNet 모델은 다양한 언어 및 도메인에서 효과적인 양식 필드 검출 성능을 보이며, 본 연구 결과물은 오픈소스로 공개되어 양식 준비 자동화 분야 발전에 기여할 것이다.

7. GeoSVR: Taming Sparse Voxels for Geometrically Accurate Surface Reconstruction

Alphaxiv

Introduction

  • 본 논문은 희소 복셀(sparse voxels)을 이용하여 기하학적으로 정확하고 세밀하며 완전한 표면 재구성을 달성하는 것을 목표로 한다.
  • 기존 Gaussian Splatting 기반 방법들이 표현력 제한과 초기점 불완전성으로 인해 표면 재구성에서 정확도와 완성도에 한계를 보이는 문제를 개선하고자 한다.
  • 희소 복셀의 잠재력을 탐구하고, 복셀 불확실성 깊이 제약과 복셀 표면 정규화를 통해 정확하고 견고한 표면 재구성을 위한 명시적 복셀 기반 프레임워크 GeoSVR을 제안하였다.

Method

GeoSVR은 SVRaster를 기반으로 희소 복셀을 초기화하여 완전한 장면 커버리지를 유지하며, 복셀의 레벨별 불확실성을 평가해 외부 단안 깊이 정보를 효과적으로 활용하는 불확실성 깊이 제약을 도입한다. 또한, 복셀 드롭아웃을 통한 전역 기하학 일관성 강화와 표면 정렬 및 크기 페널티 정규화를 포함하는 복셀 표면 정규화 기법으로 세밀하고 정확한 표면 형성을 유도한다. 이와 함께 패치 기반 깊이 손실과 명시적 다중 시점 기하학 제약을 결합하여 복셀 최적화의 왜곡 문제를 완화한다.

Results

DTU, Tanks and Temples, Mip-NeRF 360 데이터셋을 대상으로 한 실험에서 GeoSVR은 기존 최고 성능의 SDF 및 Gaussian Splatting 기반 최신 기법들을 능가하며, 정확도, 세부 보존, 완성도, 그리고 연산 효율성에서 우수한 성과를 달성하였다.

Limitations

높은 정확도를 요구하는 표면 재구성에서 단안 깊이의 완벽하지 않은 제약으로 인한 오류 방지와 복셀의 극단적인 지역성 문제는 여전히 완전한 해결이 어려운 과제로 남아있다.

Conclusion

본 연구는 희소 복셀의 표현력을 적극 활용하여 외부 깊이 제약과 복셀 기반 정규화를 통해 고품질, 고효율의 기하학적으로 정확한 표면 재구성 기법 GeoSVR을 제시하였으며, 향후 복셀의 전역성 강화 및 조명 변화와 텍스처 결핍 문제 극복 방향으로 발전 가능하다.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Daily Papers — 2025-09-26
  • Daily Papers — 2025-09-25
  • Daily Papers — 2025-09-23
  • Arxiv - 2025-09-23
  • Daily Papers — 2025-09-22