이 글은 2025년 3월에 공개된 arXiv 논문 “A Review of DeepSeek Models’ Key Innovative Techniques”의 주요 내용을 요약 및 해설한 것이다. 이 논문은 최신 오픈소스 대형 언어 모델(LLM)인 DeepSeek-V3와 DeepSeek-R1에서 도입된 핵심 기술들을 분석하고 있으며, 해당 모델들이 어떻게 경쟁력 있는 성능을 갖추게 되었는지를 설명한다.
1. 논문 배경 및 목적
DeepSeek 모델 시리즈는 오픈소스이면서도 OpenAI, Anthropic 등의 폐쇄형 모델에 필적하는 성능을 보여주며, 연구 및 산업계 모두에 큰 주목을 받고 있다. 특히, 본 논문에서는 이 모델들의 구조적, 알고리즘적 혁신을 분석하여, 학계 및 산업계에 기여하고자 한다.
2. 주요 기술 요약
(1) Multi-Head Latent Attention (MLA)
기존 Transformer의 Multi-Head Attention은 Key-Value 캐시 메모리 사용량이 크다는 단점이 있다. MLA는 이 문제를 해결하기 위해 각 attention head마다 공유된 잠재 공간(latent space)을 사용함으로써, 동일한 성능을 유지하면서도 메모리 효율을 크게 개선하였다.
(2) Mixture of Experts (MoE)
MoE는 전체 네트워크 중 일부 전문가(Expert)만을 활성화함으로써, 계산 비용을 줄이면서도 모델의 표현 능력을 증가시키는 방법이다. DeepSeek는 적절한 라우팅 전략과 결합하여 MoE의 효율성과 안정성을 확보하였다.
(3) Multi-Token Prediction
일반적인 언어 모델은 한 번에 하나의 토큰만 예측하는 반면, DeepSeek는 Multi-Token Prediction을 도입하여 한 번의 forward pass에서 여러 토큰을 동시에 예측한다. 이는 생성 속도 향상에 매우 효과적이다.
(4) 시스템 최적화를 위한 공동 설계
모델 알고리즘, 프레임워크, 하드웨어 설계를 동시에 고려하는 Joint Design Approach를 통해, 전반적인 학습 및 추론 속도를 최적화하였다. 특히 대규모 클러스터 환경에서의 효율적인 메모리 사용과 통신 병목 감소가 주요 성과이다.
(5) Group Relative Policy Optimization (GRPO)
GRPO는 기존 강화 학습 기법인 PPO의 단점을 보완하여, 학습 안정성과 수렴 속도를 향상시킨 알고리즘이다. DeepSeek 모델의 RLHF(인간 피드백을 통한 강화학습) 단계에서 중요한 역할을 한다.
(6) RL + SL 반복 학습 프레임워크
지도학습(Supervised Learning)과 강화학습(Reinforcement Learning)을 번갈아 반복 수행하는 방식은 DeepSeek의 핵심 훈련 전략 중 하나이다. 이 반복 학습 구조는 모델이 안정적으로 학습되도록 하며, 장기적인 성능 향상에 기여한다.
3. 결론 및 향후 전망
이 논문은 DeepSeek 모델이 어떻게 최신 LLM 경쟁에서 두각을 나타내고 있는지를 다양한 기술적 측면에서 설명하고 있다. 향후 연구에서는 이와 같은 기술들이 다른 분야로 어떻게 확장될 수 있는지, 그리고 Open LLM 생태계에서 어떤 역할을 하게 될지를 더욱 면밀히 살펴볼 필요가 있다.
DeepSeek는 단순한 모델 성능의 향상을 넘어서, 학습 비용 절감, 효율성 개선, 그리고 오픈소스 생태계의 활성화 측면에서 중요한 시사점을 제공하고 있다.
TI Tech Lab 박선홍연구원
Source
- WANG, Chengen; KANTARCIOGLU, Murat. A Review of DeepSeek Models’ Key Innovative Techniques. arXiv preprint arXiv:2503.11486, 2025.
Add comment