더이노베이터스

SEARCH-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

1. 연구 배경

대형 언어 모델(LLM)은 자연어 이해 및 생성에서 뛰어난 성능을 보이지만, 복잡한 추론과 최신 정보 획득에는 한계가 있다. 검색 엔진을 활용하는 Retrieval-Augmented Generation (RAG) 방식이 존재하지만, 단일 검색 쿼리에 의존하여 다단계 추론이 어렵다는 단점이 있다. 이에 대한 해결책으로 검색과 추론을 강화 학습 기반으로 결합한 SEARCH-R1을 제안한다.

2. SEARCH-R1의 주요 기여

  • 검색 엔진과의 강화 학습 기반 통합: 검색 엔진을 환경의 일부로 간주하여, 모델이 검색과 추론을 동적으로 최적화할 수 있도록 학습한다.
  • 다단계 검색 및 추론 지원: LLM이 <search></search> 태그를 통해 검색을 수행하고, <information></information> 태그를 활용하여 검색 결과를 분석하며, <think></think> 태그로 자체적인 추론을 구조화하는 방식으로 작동한다.
  • 결과 기반 보상 함수 도입: 검색 프로세스를 복잡하게 모델링하는 대신, 답변의 정확성에 기반한 보상 함수를 적용하여 학습 안정성을 확보한다.

3. 방법론

SEARCH-R1은 검색과 추론을 통합하는 강화 학습 프레임워크로, 주요 구성 요소는 다음과 같다:

1) 검색-추론 상호작용 구조

  • 모델은 질문을 입력받으면 먼저 자체적으로 추론을 수행하며 필요한 정보를 결정한다.
  • <search> 태그를 사용하여 검색을 트리거하고, 검색 엔진에서 반환된 정보를 <information> 태그로 감싸 분석한다.
  • 모델이 여러 단계의 검색을 수행할 수 있도록 강화 학습 기반 탐색 전략을 적용한다.
  • <think> 태그를 통해 현재까지의 정보를 종합하여 논리적인 결론을 도출한다.

2) 강화 학습 기반 최적화

  • 상태(State): 모델의 내부 기억 상태와 현재까지 검색한 정보
  • 행동(Action): 검색 수행 (<search>), 정보 정리 (<information>), 논리적 사고 (<think>)
  • 보상 함수(Reward Function):
    • 검색 결과가 유용할 경우 보상을 제공
    • 불필요한 검색이 많을 경우 패널티 부여
    • 최종 답변의 정확도에 따라 추가 보상 제공
  • 강화 학습 프레임워크로 Proximal Policy Optimization (PPO) 기법을 활용하여 검색과 추론의 균형을 조정한다.

3) 데이터 및 학습 과정

  • 다양한 질문-응답 데이터셋에서 사전 학습된 LLM을 활용하여 초기 모델을 설정한다.
  • 강화 학습을 통해 검색-추론 패턴을 최적화하며, 여러 검색 엔진과의 상호작용을 학습한다.
  • 모델의 성능을 평가하기 위해 정답률, 검색 효율성, 답변의 논리적 일관성을 기준으로 측정한다.

4. 실험 결과

SEARCH-R1은 7개의 질문-응답 데이터셋에서 테스트되었으며,

  • Qwen2.5-7B 모델에서 26% 성능 향상
  • Qwen2.5-3B 모델에서 21% 성능 향상
  • LLaMA3.2-3B 모델에서 10% 성능 향상을 기록했다. 이는 기존 최첨단(SOTA) 기법 대비 검색과 추론 능력을 동시에 향상시킴을 의미한다.

5. 결론 및 향후 연구 방향

SEARCH-R1은 검색 엔진을 활용한 강화 학습 기반 LLM 훈련 방법으로, 복잡한 문제 해결과 외부 지식 탐색 능력을 효과적으로 강화하는 새로운 프레임워크를 제시한다. 향후 연구에서는 검색 전략을 더욱 정교하게 설계하거나 다양한 LLM 모델과 결합하여 확장성을 검토할 예정이다.

TI Tech Lab 박선홍 연구원

Source

Avatar

theinnovators

Add comment