더이노베이터스

ReasonIR: 추론 과제를 위한 검색기 훈련

개요

ReasonIR-8B는 복잡한 추론이 필요한 검색 작업을 위해 개발된 새로운 검색 모델입니다. 기존 검색 시스템들이 “파리의 수도는?”과 같은 간단한 질문에는 잘 작동하지만, 수학 문제 해결이나 복잡한 분석이 필요한 질문에는 부족했던 문제를 해결합니다. 이 연구는 인공지능이 만든 학습 데이터를 활용해 더 똑똑한 검색기를 훈련시키는 방법을 제시합니다.

본문

1. 기존 검색기의 문제점

간단한 질문 vs 복잡한 질문의 차이

기존 검색기들의 한계:

  • 훈련 데이터의 단순성: 대부분 20-30단어의 짧고 단순한 질문들로 학습
    • 예: “황석영이 쓴 소설은?” → 키워드 매칭으로 쉽게 해결
  • 복잡한 질문의 어려움: 평균 200단어가 넘는 긴 질문들에서 성능 저하
    • 예: “야간 근무자들이 낮에 잠들기 어려워하는 생리학적 원인을 분석하고, 이를 해결할 수 있는 방법론을 제시하시오”

2. ReasonIR의 핵심 아이디어: 똑똑한 학습 데이터 만들기

2.1 학습 데이터 생성 전략 (ReasonIR-Synthesizer)

기본 원리: 사람이 일일이 만들기 어려운 고품질 학습 데이터를 AI가 대신 생성

세 가지 종류의 학습 데이터:

① 기존 데이터 (Public Data)

  • 이미 공개된 검색 데이터셋들 활용
  • 역할: 기본적인 검색 능력 확보

② 긴 질문 데이터 (Varied-Length Data)

  • 목적: 긴 질문을 처리하는 능력 기르기
  • 생성 방법:
    1. AI에게 “300-2000단어 길이의 복잡한 질문 만들어줘” 요청
    2. 질문과 함께 그에 맞는 정답 문서도 생성
    3. 다양한 길이로 만들어서 모델이 적응하도록 함

③ 어려운 질문 데이터 (Hard Query Data)

  • 목적: 진짜 추론이 필요한 어려운 질문 만들기
  • 생성 과정:
    1. 좋은 문서 선별: 교육적 가치가 높은 과학, 수학, 경제학 문서들 선택
    2. 브레인스토밍 방식: AI에게 “이 문서를 바탕으로 정말 어려운 문제 만들어봐” 지시
    3. 세 가지 조건 충족:
      • 도전적: 단순 암기로는 안 되고 추론 필요
      • 독립적: 원문 없이도 이해 가능한 질문
      • 다양함: 여러 분야의 다양한 문제 유형

2.2 가짜 오답 만들기 (Hard Negative Generation)

문제: 검색기 훈련에는 “이건 정답, 저건 오답”을 구분하는 학습이 필요 기존 방법의 한계: 간단한 키워드 검색으로 오답 찾기 → 추론 문제에는 부적합

새로운 해결책:

  1. 2단계 생성: 질문→정답 문서 먼저 만들고, 별도로 가짜 오답 문서 생성
  2. 교묘한 오답: 겉보기에는 관련있어 보이지만 실제로는 도움 안 되는 문서
  3. 예시:
    • 질문: “야간근무자의 수면 문제 원인은?”
    • 정답: 일주기 리듬(circadian rhythm) 설명 문서
    • 가짜 오답: 체온 조절에 대한 문서 (관련은 있지만 핵심 답변 아님)

3. 모델 구조 및 훈련 과정

3.1 기본 구조

베이스 모델: Llama3.1-8B (Meta에서 개발한 대형 언어모델) 핵심 변경사항:

  • 원래는 “왼쪽에서 오른쪽으로만” 읽던 방식을 “양방향”으로 변경
  • 이유: 검색에서는 문장 전체를 한번에 이해하는 것이 더 효과적

3.2 훈련 방법: 대조 학습 (Contrastive Learning)

기본 아이디어: “비슷한 것끼리는 가깝게, 다른 것끼리는 멀게”

구체적 과정:

  1. 질문과 정답 문서를 숫자 벡터로 변환
  2. 질문 벡터와 정답 문서 벡터는 가깝게 만들기
  3. 질문 벡터와 오답 문서 벡터는 멀게 만들기
  4. 이 과정을 수천 번 반복하여 모델 개선

3.3 재순위화 기법 (ReasonIR-Rerank)

문제: AI가 문서들의 점수를 매길 때 너무 많이 동점이 나옴 해결책:

  • 기존 검색기 점수 + AI 재순위화 점수를 섞어서 사용
  • 공식: 최종점수 = 0.5 × AI점수 + 0.5 × 기존점수

4. 실험 결과

4.1 성능 개선 효과

BRIGHT 벤치마크 (추론 집약적 검색 평가):

  • 기존 최고 성능 대비 크게 향상
  • 원본 질문: 24.4점 → GPT-4 재작성 질문: 29.9점 → 재순위화 적용: 36.9점

실제 활용 성능 (MMLU, GPQA):

  • MMLU: 6.4% 향상 (수학, 과학 등 다양한 분야 문제)
  • GPQA: 22.6% 향상 (대학원 수준 과학 문제)

4.2 효율성 개선

계산 비용: 기존 복잡한 방법 대비 200배 적은 연산으로 더 좋은 성능

  • 이유: 한 번에 많은 문서를 처리하는 대신, 효율적인 검색 후 필요한 것만 재검토

4.3 학습 데이터별 기여도

실험 결과:

  • 기존 데이터만: 19.6점
  • 기존 + 긴 질문: 23.2점
  • 기존 + 어려운 질문: 20.9점
  • 기존 + 긴 질문 + 어려운 질문: 24.4점 (최고 성능)

시너지 효과: 긴 질문 데이터와 어려운 질문 데이터가 함께 사용될 때 가장 효과적

5. 혁신적인 방법론의 핵심

5.1 AI를 활용한 데이터 생성

  • 기존: 사람이 직접 수천 개의 질문-답변 쌍 제작 (시간과 비용 많이 소요)
  • 새로운 방법: AI가 체계적으로 다양하고 어려운 학습 데이터 대량 생성

5.2 질문 길이의 확장 활용

  • 발견: 질문을 길고 자세하게 다시 쓸수록 검색 성능 향상
  • 활용: 질문 길이를 새로운 성능 향상 수단으로 활용 (기존 방법들은 길어질수록 오히려 성능 저하)

5.3 단계별 생성 전략

  • 질문, 정답, 오답을 각각 별도 단계에서 생성하여 품질 향상
  • 각 단계마다 특화된 프롬프트와 조건 적용

결론

ReasonIR-8B는 AI를 활용한 체계적인 학습 데이터 생성으로 추론 집약적 검색 문제를 해결한 획기적인 연구입니다. 핵심 성과는 다음과 같습니다:

1. 성능 혁신

  • BRIGHT 벤치마크에서 새로운 최고 기록 달성 (36.9 nDCG@10)
  • 실제 활용 과제에서 기존 방법 대비 6-22% 성능 향상
  • 계산 효율성 200배 개선

2. 방법론 혁신

  • AI 기반 합성 데이터 생성 파이프라인으로 고품질 학습 데이터 대량 생산
  • 길이별, 난이도별 체계적 데이터 구성을 통한 시너지 효과 창출
  • 다단계 생성 전략으로 기존 방법의 한계 극복

3. 실용적 가치

  • 수학, 과학, 법률 등 전문 분야의 복잡한 질의응답 시스템에 즉시 적용 가능
  • 오픈소스 공개로 연구 커뮤니티 전체의 발전에 기여
  • 향후 더 발전된 LLM과의 결합을 통한 확장성 확보

이 연구는 단순한 키워드 매칭을 넘어 진정한 이해와 추론이 필요한 차세대 검색 시스템의 이정표를 제시했으며, RAG 기반 AI 시스템의 성능 한계를 크게 끌어올린 중요한 성과로 평가됩니다.

TI Tech Lab 박선홍 연구원

Source

  • Shao, R., Qiao, R., Kishore, V., Muennighoff, N., Lin, X. V., Rus, D., … & Zettlemoyer, L. (2025). ReasonIR: Training Retrievers for Reasoning Tasks. arXiv preprint arXiv:2504.20595.
Avatar

theinnovators

Add comment