더이노베이터스

Chain of Draft: 더 적은 프롬프트로 더 빠른 추론을 가능하도록 새로운 방식 제안

대규모 언어 모델(LLM)은 복잡한 문제 해결을 위한 강력한 도구로 자리 잡았다. 특히, 체인 오브 쏘트(Chain-of-Thought, CoT) 기법은 논리적인 단계별 추론을 가능하게 하여 LLM의 성능을 극대화하는 방법으로 널리 연구되고 있다. 그러나 CoT 방식은 과도한 토큰 사용으로 인해 높은 연산 비용과 지연(latency) 문제를 초래한다. 이를 해결하기 위해 Chain of Draft(CoD)라는 새로운 기법을 제안되었으며. CoD는 인간의 사고방식을 모방하여 핵심 정보를 최소한의 형태로 유지하면서도 높은 정확도를 유지하는 방법론이다. 이를 통해 CoD는 기존 CoT 대비 92.4%까지 토큰 사용을 줄이면서도 동등하거나 더 나은 성능을 보인다

1. 개요

대규모 언어 모델(LLM)은 복잡한 문제 해결을 위한 강력한 도구로 자리 잡았다. 특히, 체인 오브 쏘트(Chain-of-Thought, CoT) 기법은 논리적인 단계별 추론을 가능하게 하여 LLM의 성능을 극대화하는 방법으로 널리 연구되고 있다. 그러나 CoT 방식은 과도한 토큰 사용으로 인해 높은 연산 비용과 지연(latency) 문제를 초래한다.

이 논문에서는 이를 해결하기 위해 Chain of Draft(CoD) 라는 새로운 기법을 제안한다. CoD는 인간의 사고방식을 모방하여 핵심 정보를 최소한의 형태로 유지하면서도 높은 정확도를 유지하는 방법론이다. 이를 통해 CoD는 기존 CoT 대비 92.4%까지 토큰 사용을 줄이면서도 동등하거나 더 나은 성능을 보인다.

2. 기존 연구 및 한계점

CoT 기법은 모델이 단계별 논리를 생성하도록 유도함으로써 복잡한 문제 해결력을 높인다. 하지만 CoT의 핵심 문제점은 다음과 같다:

  • 과도한 토큰 소비: 중간 추론 과정이 장황하게 표현되어 불필요한 토큰이 사용됨.
  • 높은 연산 비용 및 지연: 긴 응답이 생성됨에 따라 LLM의 연산 부하가 증가함.
  • 불필요한 세부 정보 포함: 문제 해결에 직접적으로 필요하지 않은 정보를 과도하게 포함.

이에 대한 대안으로 Skeleton-of-Thought(SoT), Concise Thoughts(CCoT) 등의 연구가 진행되었지만, 각각의 방법론은 연산 비용 절감, 정확도 저하 방지 등의 측면에서 한계를 가지고 있다.

3. Chain of Draft(CoD) 기법

CoD는 필수적인 중간 추론 과정만을 유지하는 방식으로, 기존 CoT 대비 간결한 논리 전개를 가능하게 한다.

3.1 CoD의 핵심 원칙

  1. 핵심 정보만 포함: 각 단계에서 불필요한 설명을 배제하고 필수적인 연산 및 중간 결과만을 남긴다.
  2. 간결한 표현 유지: 복잡한 논리적 설명을 줄이고, 계산이나 핵심 개념만을 직접적으로 서술한다.
  3. 단계별 축약: 논리적 전개가 필요한 경우라도 최소한의 문장이나 기호로 표현하여 과도한 정보를 제거한다.
  4. 연산 중심 접근법: 수식과 논리를 우선하여 최적의 형태로 추론을 수행하고 결과를 도출한다.

3.2 CoD와 기존 방법 비교

다음은 동일한 문제에 대해 Standard, CoT, CoD 방식의 예시이다:

문제: Jason은 20개의 사탕을 가지고 있었다. 그는 Denny에게 일부 사탕을 주었다. 현재 Jason은 12개의 사탕을 가지고 있다. Jason이 Denny에게 준 사탕의 개수는?

  • Standard: A: 8
  • Chain-of-Thought (CoT):
    1. Jason은 20개의 사탕을 가졌다.
    2. Denny에게 일부를 주고, 12개가 남았다.
    3. (20 – 12)를 계산하면 Jason이 준 사탕의 개수는 8이다.
    4. #### 8
  • Chain-of-Draft (CoD):
    • A: 20 - x = 12; x = 8. #### 8

위의 예시에서 볼 수 있듯이, CoD는 핵심적인 정보만을 남겨 토큰 사용을 최소화한다.

4. 실험 결과 및 성능 비교

논문에서는 GPT-4o 및 Claude 3.5 Sonnet을 이용해 세 가지 대표적인 추론 태스크(산술 추론, 상식 추론, 기호 추론)에 대해 CoD의 성능을 검증했다.

모델방법정확도(%)평균 토큰 수응답 지연(초)
GPT-4oStandard53.31.10.6
CoT95.4205.14.2
CoD91.143.91.0
Claude 3.5 SonnetStandard64.61.10.9
CoT95.8190.03.1
CoD91.439.81.6

위 실험 결과에서 CoD는 토큰 수를 80% 이상 절감하면서도 CoT에 근접한 정확도를 달성하였다. 또한, 응답 지연도 GPT-4o 기준으로 76.2% 감소하였다.

5. CoD의 실용적 응용 가능성

CoD의 효율성은 다양한 실제 응용 사례에서 중요한 의미를 가진다:

  1. 실시간 챗봇: 낮은 응답 지연으로 사용자 경험 개선 가능.
  2. 비용 절감: 토큰 사용 감소를 통해 클라우드 API 비용 절감.
  3. 모바일 AI 애플리케이션: 하드웨어 자원이 제한된 환경에서 효과적인 활용 가능.

6. 결론 및 향후 연구

CoD는 기존 CoT 대비 뛰어난 효율성을 제공하는 새로운 LLM 추론 기법이다. 핵심 정보만을 유지하는 방식으로 연산 비용과 토큰 사용을 줄이면서도 정확도를 유지할 수 있다. 향후 연구에서는 다음과 같은 방향을 고려할 수 있다:

  • 적응형 CoD 시스템: 문제 유형별로 적절한 CoD 수준을 자동 조정.
  • 멀티 패스 검증 기법: 간결한 추론 결과를 후처리하여 정확도 향상.
  • CoD 기반 학습 방법론 개발: LLM이 자체적으로 CoD 스타일의 추론을 학습하도록 유도.

본 연구는 LLM의 실용성을 높이는 데 기여할 수 있으며, 다양한 AI 응용 분야에서 중요한 전환점을 제공할 것이다.

TI Tech Lab 박선홍 연구원

Source

  • Xu, Silei, et al. “Chain of Draft: Thinking Faster by Writing Less.” arXiv preprint arXiv:2502.18600 (2025).
Avatar

theinnovators

Add comment