Ko-PIQA: Korean Physical Interaction Question Answering Benchmark

최다솔
ModuLabs
EMNLP 2025 2025

Abstract

본 연구에서는 한국어 대규모 언어 모델(LLM)의 물리적 상식 추론 능력을 평가하기 위한 새로운 벤치마크인 Ko-PIQA를 제안합니다. 기존의 영어 기반 PIQA 데이터셋을 단순히 번역하는 것을 넘어, 한국의 언어적 뉘앙스와 문화적 맥락을 반영하여 데이터를 정제하고 재구성했습니다. 이를 위해 자동 번역 후 인간 검수 과정을 거쳐 데이터의 품질을 확보하였으며, 모호하거나 문화적으로 적합하지 않은 문항들을 수정했습니다. 다양한 한국어 특화 모델과 다국어 모델을 대상으로 실험을 진행한 결과, 모델 간의 성능 격차와 물리적 상식 추론에서의 한계점을 명확히 확인했습니다. Ko-PIQA는 한국어 AI 모델이 텍스트 이해를 넘어 물리적 세계와 상호작용하는 능력을 향상시키는 데 기여할 것입니다.

문제 정의

  • 한국어 언어 모델을 위한 신뢰할 수 있는 물리적 상식 추론 데이터셋의 부재
  • 기존 영어 데이터셋의 단순 기계 번역이 갖는 문맥적 오류와 문화적 불일치 문제
  • PIQA 데이터셋을 기반으로 번역, 필터링, 인간 검수를 포함한 다단계 데이터 구축 파이프라인 적용
  • 한국어의 고유한 언어적 특성을 반영한 물리적 상식 문항 재구성 및 검증
  • Ko-PIQA 데이터셋 구축 및 공개를 통한 한국어 물리 상식 연구 기반 마련
  • GPT-4 및 HyperCLOVA X 등 최신 모델의 물리적 상식 추론 능력에 대한 정량적 벤치마크 결과 제시

제안 방법

  • PIQA 데이터셋을 기반으로 번역, 필터링, 인간 검수를 포함한 다단계 데이터 구축 파이프라인 적용
  • 한국어의 고유한 언어적 특성을 반영한 물리적 상식 문항 재구성 및 검증
  • Ko-PIQA 데이터셋 구축 및 공개를 통한 한국어 물리 상식 연구 기반 마련
  • GPT-4 및 HyperCLOVA X 등 최신 모델의 물리적 상식 추론 능력에 대한 정량적 벤치마크 결과 제시

실험 결과

  • Ko-PIQA 데이터셋 구축 및 공개를 통한 한국어 물리 상식 연구 기반 마련
  • GPT-4 및 HyperCLOVA X 등 최신 모델의 물리적 상식 추론 능력에 대한 정량적 벤치마크 결과 제시