개요
의료 분야에서의 질의응답(Medical QA)은 최신 정보와 복잡한 추론을 요구하는 과제로, 대형 언어 모델(LLM)이 단독으로 대응하기에는 환각(hallucination) 문제와 고정된 지식으로 인해 성능에 한계가 있다. 이를 보완하기 위해 Retrieval-Augmented Generation (RAG) 방식이 사용되지만, 기존 RAG 시스템은 다음 두 가지 한계를 가진다:
- 사람처럼 정보를 탐색하는 방식이 부족하며, 단순한 통계적 유사도에 기반해 부정확하거나 불필요한 정보를 불러옴
- 사후 검증 절차 부족으로 인해 잘못된 문맥이 그대로 응답에 포함됨
이 논문은 이러한 문제를 해결하기 위해 Discuss-RAG라는 새로운 모듈을 제안하며, 에이전트 기반 협력 추론 및 검증 절차를 통해 더 정확하고 신뢰할 수 있는 의료 QA를 실현하고자 한다.
기술적 내용
1. Discuss-RAG 개요
Discuss-RAG는 플러그인 형태로 기존 RAG 시스템에 쉽게 통합 가능하며, 두 가지 주요 컴포넌트로 구성된다:
(1) 다중 전문가 협력 추론 및 요약 (Multi-turn Discussion & Summarization)
- Summarizer 에이전트(C)가 중심이 되어 도메인 전문가 그룹(H1~Hn)과 함께 여러 차례 논의를 반복하며 질문에 대한 배경지식과 논리 흐름을 정제함
- 논의는 recruiter(R)에 의해 구성된 전문가 팀에 의해 진행되며, 각 전문가의 input (Ij) 을 받아 이전 요약(Tj-1)과 함께 통합하여 새 요약(Tj)을 생성
- 이 과정을 통해 쌓인 최종 요약(Tm)은 Verifier(V)에 의해 검토되어, 일관성 있고 충분한 정보(D)를 추출함
- 이 D는 이후 정보 검색(retrieval)의 보조 정보로 사용됨
(2) 사후 검증 모듈 (Post-retrieval Verification)
- 기존 RAG 시스템에서 문서를 불러오면, Decision-Maker Agent(U)가 해당 snippet 들이 질문과 관련성이 있는지 판단
- 부적절하다고 판단되면 대체 검색 전략 (예: Chain-of-Thought 기반 검색)을 사용
- 적절하다고 판단되면, 이 snippet 들을 기반으로 최종 답변이 생성됨
2. 기술적 특징 요약
- 인간 의사 결정 모방: 단일 쿼리에 대해 다수의 전문가가 순차적 논의를 통해 지식 구조를 형성
- 요약 기반 탐색 질 향상: 단순 벡터 유사도 검색이 아닌, 요약된 개념적 흐름에 기반한 검색
- 사후 검증으로 신뢰도 강화: 검색된 문서를 응답에 활용하기 전 평가 및 필터링
- 플러그앤플레이 설계: 기존 training-free RAG 시스템에 삽입 가능한 모듈 구조
- 도메인 특화 에이전트 활용: 질병유형, 유전학, 약리학 등 분야별 에이전트 배치
- 응답 생성과 검색을 분리: 검색 전 과정을 완전히 응답 생성과 분리하여 정보의 오염을 방지
- 질의당 다양한 역할 할당: 한 질의에 대해 여러 전문가 관점을 통합하는 메커니즘 구성
결론
Discuss-RAG는 기존 의료 QA 시스템의 한계점을 보완하기 위해 설계된 에이전트 주도형 RAG 프레임워크다. 특히, 정보 검색 전 다중 전문가 협력 기반의 논의와, 검색 후 응답 생성 전의 의사결정적 검증 절차를 통해 정확성과 신뢰도를 대폭 향상시킨다.
4개의 벤치마크 데이터셋(MMLU-Med, MedQA-US, BioASQ, PubMedQA) 실험 결과는 다음과 같은 성능 향상을 보여준다:
- BioASQ: +16.67%
- PubMedQA: +12.20%
- MMLU-Med, MedQA-US도 각각 5~6% 수준의 향상
이 구조는 향후 다중 전문가 협업 기반의 LLM 응용 연구 및 고신뢰 의료 AI 시스템 설계에 있어 중요한 기반 기술로 작용할 수 있다.
TI Tech Lab 박선홍 연구원
Source
- Dong, Xuanzhao, et al. “Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA.” arXiv preprint arXiv:2504.21252 (2025).
Add comment