더이노베이터스

NVIDIA Dynamo: 대규모 추론 AI를 위한 저지연 분산 추론 프레임워크

개요

NVIDIA는 최근 대규모 생성 AI 모델의 추론 성능을 극대화하기 위한 새로운 프레임워크인 “Dynamo”를 공개했다. NVIDIA Dynamo는 저지연 분산 추론 프레임워크로, 특히 reasoning 기반의 AI 모델을 대규모로 확장할 수 있도록 설계되었다. 이 프레임워크는 사전 학습된 언어 모델(LLM)과 같은 복잡한 모델의 실제 서비스 적용을 위해 필수적인 요소로 주목받고 있다.


주요 기술적 내용

Dynamo의 핵심 아이디어는 모델 추론 과정을 두 단계(prefill과 decode)로 분리하고, 이를 클러스터 내에서 분산 서빙(disaggregated serving)하는 데 있다. 각 단계의 계산 자원 요구 특성이 다르기 때문에, 이를 개별적으로 최적화함으로써 전체 처리 효율과 지연 시간을 대폭 줄일 수 있다.

프레임워크의 주요 기술 구성 요소:

  1. GPU 리소스 플래너
    • 클러스터 전반의 GPU 자원을 실시간으로 모니터링하며 prefill과 decode 작업을 지능적으로 분산한다.
    • GPU 병목을 줄이고, 동적 워크로드에도 효율적으로 대응한다.
  2. 스마트 라우터
    • 요청에 포함된 KV 캐시 정보 기반으로 최적의 GPU 노드로 요청을 라우팅한다.
    • 중복 계산을 줄이고 캐시 재활용률을 높여 추론 지연을 최소화한다.
  3. 저지연 통신 라이브러리
    • GPU 간, 그리고 다양한 인터커넥트(Pcie, NVLink, InfiniBand 등)를 통해 고속으로 KV 캐시를 전송한다.
    • 멀티 GPU/멀티 노드 환경에서의 통신 병목 현상을 해소한다.
  4. KV 캐시 관리자
    • KV 캐시를 계층화된 메모리 구조에서 관리하며, 필요 시 GPU 외부로 오프로드한다.
    • 고용량 모델 처리 시 GPU 메모리 한계를 극복하는 데 유용하다.

성능 결과

  • NVIDIA GB200 NVL72에서 DeepSeek-R1 671B 모델을 Dynamo로 서빙할 경우, 최대 30배의 토큰 처리량(TPS) 향상이 관측되었고,
  • NVIDIA Hopper 기반에서는 LLaMA 70B 모델의 처리량이 2배 이상 증가하였다.

결론 및 전망

NVIDIA Dynamo는 고성능 추론에 특화된 오픈소스 프레임워크로, 차세대 생성 AI 인프라의 핵심 요소로 자리매김할 가능성이 높다. 특히 LLM 기반의 실시간 AI 서비스(예: 챗봇, 생성형 추천, 실시간 분석)에 적합하며, 비용 최적화와 서비스 확장성 면에서도 매우 유리하다.

향후 Dynamo는 클라우드뿐만 아니라 엣지 AI 환경에서도 강력한 추론 인프라로 활용될 수 있으며, AI 모델의 상용화 및 대규모 서빙 효율화의 중심 축으로 주목받고 있다.

TI Tech Lab 박선홍연구원

Source

Avatar

theinnovators

Add comment