Improving Fine-grained Visual Understanding in VLMs through Text-only Training
Abstract
대규모 비전-언어 모델(VLM)은 뛰어난 일반화 성능을 보이지만, 공간적 관계 파악이나 속성 결합, 수량 세기 등 세밀한 시각적 이해(Fine-grained Visual Understanding)에는 여전히 한계를 보입니다. 본 논문에서는 값비싼 이미지-텍스트 쌍 데이터나 복잡한 파이프라인 없이, 오직 텍스트 데이터만을 활용하여 VLM의 세밀한 시각적 이해 능력을 향상시키는 방법을 제안합니다. 저자들은 시각적 추론 과정을 모방한 합성 텍스트 데이터를 생성하고 이를 통해 모델을 학습시킴으로써, 시각 정보 없이도 시각적 추론 능력을 강화할 수 있음을 입증했습니다. 실험 결과, 제안된 방법은 기존 VLM 대비 다양한 세밀한 시각 이해 벤치마크에서 유의미한 성능 향상을 달성했습니다. 이는 텍스트 전용 학습이 VLM의 시각적 한계를 극복하는 효율적인 대안이 될 수 있음을 시사합니다.
문제 정의
- 기존 VLM의 공간 관계 및 속성 결합 등 세밀한 시각 처리 능력 부족
- 성능 향상을 위해 고비용의 정제된 이미지-텍스트 쌍 데이터가 필수적인 한계
- 시각적 추론 패턴을 모방한 합성 텍스트 데이터 생성 파이프라인 구축
- 이미지 입력 없이 텍스트 데이터만으로 VLM의 언어 모델 부분을 미세 조정
- 텍스트 학습만으로 주요 Fine-grained 비전 벤치마크에서 성능 대폭 향상
- 추가적인 시각 데이터 없이도 모델의 시각적 추론 및 할루시네이션 감소 효과 입증
제안 방법
- 시각적 추론 패턴을 모방한 합성 텍스트 데이터 생성 파이프라인 구축
- 이미지 입력 없이 텍스트 데이터만으로 VLM의 언어 모델 부분을 미세 조정
- 텍스트 학습만으로 주요 Fine-grained 비전 벤치마크에서 성능 대폭 향상
- 추가적인 시각 데이터 없이도 모델의 시각적 추론 및 할루시네이션 감소 효과 입증
실험 결과
- 텍스트 학습만으로 주요 Fine-grained 비전 벤치마크에서 성능 대폭 향상
- 추가적인 시각 데이터 없이도 모델의 시각적 추론 및 할루시네이션 감소 효과 입증
텍스트 전용 학습을 통한 VLM의 세밀한 시각 이해 향상 프레임워크