개요
기존의 AI 벤치마크는 단기적이거나 좁은 도메인의 능력만 측정하며, 현실 세계의 장기적이고 복잡한 작업을 얼마나 수행할 수 있는지를 측정하지 못하는 한계가 있다. 본 논문은 이를 극복하기 위해 **AI의 장기 작업 처리 능력(long-horizon task competence)**을 평가할 수 있는 새로운 정량 지표인 50%-Task Completion Time Horizon을 제안한다.
- 이 지표는 AI가 50%의 성공률로 완료할 수 있는 작업을 인간 전문가가 수행하는 데 걸리는 평균 시간을 의미한다.
- 저자들은 이 지표를 사용하여 다양한 AI 모델(Claude 3 Opus, GPT-4, Gemini, etc)의 장기 작업 수행 능력의 성장 경로를 분석했다.
- 그 결과, 최신 AI 모델들은 2019년 이후 약 7개월마다 장기 작업 수행 한계가 두 배씩 증가해 왔음을 보였다.
내용
평가 프레임워크 설계
AI의 장기 작업 수행 능력을 측정하기 위해 다음 세 가지 종류의 작업 세트를 구성함:
1. HCAST (High-Complexity Academic Software Tasks)
정의
실제 연구 환경에서 수행되는 고난도 소프트웨어 및 머신러닝 실험 기반 작업.
예시 작업
- 학습 실험 설계 및 실행
- 논문에 기반한 모델 재현
- 새로운 loss function 구현
- 성능 비교를 위한 ablation 실험
특징
- 평균 소요 시간: 30분 ~ 2시간 이상
- 자연어 설명, 수학적 개념, 코드 구현이 혼합된 멀티모달 태스크
- 도구 사용, 명시되지 않은 추론 등이 필수
2. RE-Bench (Realistic Evaluation Benchmark)
정의
정보 검색 및 분석 기반의 실제적 문제 해결 작업으로, 문서 이해, 요약, 판단 등 고차원적 언어 처리가 중심.
예시 작업
- 긴 기술 문서(사양서, 백서)에서 특정 기능의 동작 방식 찾기
- 규정이나 정책 문서에 기반한 질문에 답변하기
- 대규모 텍스트 집합에서 핵심 주장 요약하기
특징
- 평균 소요 시간: 10분 ~ 1시간 이상
- 강한 장기 메모리 및 일관된 응답 능력 요구
- 복잡한 정보 흐름 내에서의 참조, 요약, 추론 능력 테스트
3. SWAA (Software Atomic Action Tasks)
정의
짧지만 인간에게는 자주 반복되는 코드 관련 작업들을 수십 개의 작은 단위로 분할한 작업군.
예시 작업
- 코드 리팩토링 (예: 변수명 정리, dead code 제거)
- 버그 수정
- 주석 기반 코드 구현
- 단위 테스트 작성
특징
- 평균 소요 시간: 수 분 내외
- 각각의 작업은 짧지만, 정확성 및 도구 활용 요구
- 실제 IDE 환경 또는 LLM-agent 시스템과의 통합이 실효성 평가에 중요
50%-Task Completion Time Horizon 정의 및 계산
- 모든 작업에 대해 인간 전문가의 평균 소요 시간과 모델의 성공률을 측정
- 로지스틱 회귀 모델을 사용해 AI가 50% 성공률을 낼 수 있는 인간 작업 소요 시간 값을 추정
- 이 시간값이 각 모델의 “50%-time horizon”이 되며, 모델 성능 비교와 성장 추적에 사용됨
결과 요약
- Claude 3 Opus는 2024년 기준 약 50분짜리 작업에서 50% 성공률을 달성
- 2019~2024년 사이 AI의 장기 작업 능력은 약 7개월마다 두 배로 향상
- 성장세는 최근 가속화되는 추세를 보임
기술적 성능 향상 요인 분석
연구진은 여러 모델들의 성능 향상을 다음 세 가지 기술적 능력의 향상에서 기인한다고 분석:
- 툴 활용 능력 강화
- 코드 실행기, 외부 검색, 환경 상호작용을 통한 복잡한 문제 해결 능력 증가
- 논리적 추론 및 계획 수립 능력
- 자연어 조건 해석 → 실행계획 생성 → 코드 작성 → 검증 루프 수행의 구조적 실행 능력
- 자기 피드백 기반 오류 수정
- 자신의 실수를 탐지하고 스스로 고치며 다시 시도하는 루프 실행 능력 강화
외부 타당성 검증
AI의 50%-time horizon 지표가 실제 현실 문제에 일반화 가능한지를 세 가지 방법으로 검증:
- Messiness Factor 실험: 작업 난이도를 수치화하여 ‘지저분한(messy)’ 작업과의 상관관계 분석 → 유의미한 정합성 확보
- SWE-bench Verified 비교 실험: 소프트웨어 PR 자동화 태스크에서의 모델 성능과 비교 → 유사한 성능 성장 패턴 확인
- 내부 실무 PR 작업 분석: 실제 엔지니어가 수행한 GitHub PR 작업 시간과의 비교 → 일부 자동화 가능성 입증
결론
- 50%-Time Horizon은 AI가 어느 정도까지 인간과 유사한 장기 작업을 처리할 수 있는지를 정량적으로 평가할 수 있는 지표로서 매우 효과적이다.
- 현재 AI는 최대 1시간 미만 수준의 작업을 인간과 유사한 수준으로 처리 가능하며, 이 성능은 빠르게 향상 중이다.
- 이 추세가 유지될 경우, 향후 5년 내에 수일 ~ 수주가 필요한 실제 업무의 상당 부분을 AI가 자동화할 가능성이 있다.
- 다만, AI의 자율성이 높아질수록 의도하지 않은 행동, 편향, 보안 위험도 함께 증가하므로, 향후 AI 개발과 활용에는 신중한 접근이 필요하다.
TI Tech Lab 박선홍 연구원
Source
- Kwa, Thomas, et al. “Measuring AI Ability to Complete Long Tasks.” arXiv preprint arXiv:2503.14499 (2025).
Add comment