Typed-RAG: Efficiently Utilizing Stronger LLMs as Type Validators for RAG
Abstract
본 연구는 검색 증강 생성(RAG) 시스템에서 비용 효율성과 성능을 동시에 달성하기 위한 'Typed-RAG' 프레임워크를 제안합니다. 기존 RAG 시스템은 소형 모델(SLM) 사용 시 성능이 부족하고, 거대 모델(LLM) 사용 시 비용과 지연 시간이 과도한 문제가 있었습니다. Typed-RAG는 SLM이 1차 답변을 생성하게 하고, 강력한 LLM을 '타입 검증기(Type Validator)'로 활용하여 답변이 질문의 의도된 의미적 유형(Semantic Type)과 일치하는지 판단합니다. 오직 불일치가 발생했을 때만 LLM이 개입하여 답변을 재생성함으로써, 전체 쿼리의 약 10% 미만의 비용 증가만으로 LLM 단독 사용에 버금가는 고성능을 달성합니다. 실험 결과, 다양한 벤치마크에서 기존 SLM 기반 RAG 대비 2배 이상의 성능 향상을 입증했습니다.
문제 정의
- SLM 기반 RAG는 복잡한 질의에 대해 부정확한 답변이나 환각(Hallucination)을 자주 생성함
- 고성능 LLM을 모든 쿼리에 사용하기에는 비용과 추론 지연 시간(Latency) 부담이 큼
- 질문의 정답 유형(Entity Type)을 정의하고, SLM이 생성한 답변이 해당 유형에 부합하는지 LLM이 검증
- 타입 불일치(Type Mismatch)가 감지된 경우에만 강력한 LLM을 호출하여 답변을 재생성하는 선별적 개입 메커니즘
- 전체 쿼리의 소수(약 10%)에만 LLM을 사용하여 비용을 최소화하면서도 LLM 단독 성능의 90% 이상 달성
- NQ, TriviaQA 등 주요 QA 데이터셋에서 베이스라인 모델 대비 압도적인 성능 개선 확인
제안 방법
- 질문의 정답 유형(Entity Type)을 정의하고, SLM이 생성한 답변이 해당 유형에 부합하는지 LLM이 검증
- 타입 불일치(Type Mismatch)가 감지된 경우에만 강력한 LLM을 호출하여 답변을 재생성하는 선별적 개입 메커니즘
- 전체 쿼리의 소수(약 10%)에만 LLM을 사용하여 비용을 최소화하면서도 LLM 단독 성능의 90% 이상 달성
- NQ, TriviaQA 등 주요 QA 데이터셋에서 베이스라인 모델 대비 압도적인 성능 개선 확인
실험 결과
- 전체 쿼리의 소수(약 10%)에만 LLM을 사용하여 비용을 최소화하면서도 LLM 단독 성능의 90% 이상 달성
- NQ, TriviaQA 등 주요 QA 데이터셋에서 베이스라인 모델 대비 압도적인 성능 개선 확인
Typed-RAG의 전체 파이프라인: SLM 생성, LLM 타입 검증, 조건부 재생성 과정