Typed-RAG: Efficiently Utilizing Stronger LLMs as Type Validators for RAG

Jaeyoung Kim, Kyuheon Nam, Seung-won Hwang

ModuLabs
arXiv 2025

Abstract

본 연구는 검색 증강 생성(RAG) 시스템에서 비용 효율성과 성능을 동시에 달성하기 위한 'Typed-RAG' 프레임워크를 제안합니다. 기존 RAG 시스템은 소형 모델(SLM) 사용 시 성능이 부족하고, 거대 모델(LLM) 사용 시 비용과 지연 시간이 과도한 문제가 있었습니다. Typed-RAG는 SLM이 1차 답변을 생성하게 하고, 강력한 LLM을 '타입 검증기(Type Validator)'로 활용하여 답변이 질문의 의도된 의미적 유형(Semantic Type)과 일치하는지 판단합니다. 오직 불일치가 발생했을 때만 LLM이 개입하여 답변을 재생성함으로써, 전체 쿼리의 약 10% 미만의 비용 증가만으로 LLM 단독 사용에 버금가는 고성능을 달성합니다. 실험 결과, 다양한 벤치마크에서 기존 SLM 기반 RAG 대비 2배 이상의 성능 향상을 입증했습니다.

문제 정의

SLM 기반 RAG는 복잡한 질의에 대해 부정확한 답변이나 환각(Hallucination)을 자주 생성함
고성능 LLM을 모든 쿼리에 사용하기에는 비용과 추론 지연 시간(Latency) 부담이 큼
질문의 정답 유형(Entity Type)을 정의하고, SLM이 생성한 답변이 해당 유형에 부합하는지 LLM이 검증
타입 불일치(Type Mismatch)가 감지된 경우에만 강력한 LLM을 호출하여 답변을 재생성하는 선별적 개입 메커니즘
전체 쿼리의 소수(약 10%)에만 LLM을 사용하여 비용을 최소화하면서도 LLM 단독 성능의 90% 이상 달성
NQ, TriviaQA 등 주요 QA 데이터셋에서 베이스라인 모델 대비 압도적인 성능 개선 확인

제안 방법

질문의 정답 유형(Entity Type)을 정의하고, SLM이 생성한 답변이 해당 유형에 부합하는지 LLM이 검증
타입 불일치(Type Mismatch)가 감지된 경우에만 강력한 LLM을 호출하여 답변을 재생성하는 선별적 개입 메커니즘
전체 쿼리의 소수(약 10%)에만 LLM을 사용하여 비용을 최소화하면서도 LLM 단독 성능의 90% 이상 달성
NQ, TriviaQA 등 주요 QA 데이터셋에서 베이스라인 모델 대비 압도적인 성능 개선 확인

실험 결과

전체 쿼리의 소수(약 10%)에만 LLM을 사용하여 비용을 최소화하면서도 LLM 단독 성능의 90% 이상 달성
NQ, TriviaQA 등 주요 QA 데이터셋에서 베이스라인 모델 대비 압도적인 성능 개선 확인

Typed-RAG의 전체 파이프라인: SLM 생성, LLM 타입 검증, 조건부 재생성 과정