1. 개요
DeepSeek-V3는 총 671B의 파라미터를 갖춘 초대규모 Mixture-of-Experts (MoE) 언어 모델로, 각 토큰마다 활성화되는 파라미터는 37B에 해당한다. 본 모델은 이전 버전인 DeepSeek-V2에서 검증된 Multi-head Latent Attention(MLA)과 DeepSeekMoE 아키텍처를 기반으로 구축되었으며, 추가적으로 auxiliary-loss 없이 expert 부하를 균형화하는 새로운 로드 밸런싱 전략과 Multi-Token Prediction(MTP) 학습 목표를 채택함으로써 성능과 효율성 모두를 극대화하였다.
2. 내용
2.1 모델 아키텍처
- Multi-head Latent Attention (MLA): 기존 Multi-head Attention에서 발생하는 Key/Value 캐시 부담을 줄이기 위해 low-rank joint compression을 적용. 압축된 latent vector(c_KV)를 기반으로 RoPE(Rotary Position Embedding)를 적용한 decoupled key를 생성함으로써 캐시 메모리를 절감하면서도 성능 저하를 최소화함.
- DeepSeekMoE with Auxiliary-Loss-Free Load Balancing:
- Fine-grained expert 구조를 기반으로, shared expert와 routed expert를 분리.
- Sigmoid 기반 affinity score 계산 후 상위 K개 expert를 선택하는 Top-K routing 전략 채택.
- Expert별 bias term을 업데이트하는 방식으로 expert 부하를 동적으로 조정하여 auxiliary loss 없이도 로드 밸런싱 달성.
- Token-dropping 없이 전체 학습을 수행함.
- Multi-Token Prediction (MTP):
- 1개 이상의 미래 토큰을 예측하는 구조로, 각 예측 depth마다 shared embedding 및 output head를 사용하는 트랜스포머 블록을 사용.
- 예측 과정에서 causal chain을 유지하며, cross-entropy loss를 통해 학습 진행.
- Inference 시 MTP 모듈을 제거하거나 speculative decoding으로 재활용 가능.
2.2 학습 인프라 및 프레임워크
- 클러스터 구성: 2048개의 NVIDIA H800 GPU를 기반으로 구성된 대규모 분산 환경에서 학습 수행. 각 노드는 8개의 GPU로 구성되며 NVLink 및 InfiniBand를 통해 상호 연결됨.
- DualPipe 파이프라인 알고리즘:
- Forward/Backward 계산과 통신을 chunk 단위로 오버랩하여 연산 자원의 활용도를 극대화함.
- PP(파이프라인 병렬), EP(Expert 병렬), ZeRO-1(DP) 병렬성을 조합하여 메모리 최적화 및 확장성 확보.
- FP8 혼합정밀도 학습:
- 대부분의 GEMM 연산을 FP8 정밀도로 수행하고, 필요한 연산만 BF16/FP32로 유지하여 학습 속도 향상.
- 1×128 또는 128×128 단위의 tile/block-wise quantization 적용으로 quantization 오류 최소화.
- CUDA core를 활용한 고정밀 누산 전략으로 underflow 문제 해결.
2.3 사전 학습 및 사후 학습
- 사전 학습(Pre-training):
- 14.8조개의 고품질 텍스트 데이터를 기반으로 모델 학습.
- 최대 context length를 128K까지 확장하는 2단계 학습 수행.
- 전체 pre-training 과정에서 rollback이나 loss spike 없이 안정적으로 수행됨.
- 사후 학습(Post-training):
- SFT(Supervised Fine-Tuning) 및 RL(Reinforcement Learning)을 포함한 후처리로 사용자의 선호에 모델을 정렬.
- DeepSeek-R1 모델로부터 reasoning 능력을 distillation 방식으로 전이.
2.4 성능 및 비용
- 성능:
- MMLU-Pro 75.9%, GPQA 59.1%, MATH500 90.2% 등 교육 및 수리 분야에서 최고 성능 기록.
- GPT-4o, Claude 3.5와 유사한 수준의 성능을 오픈소스 모델로 구현.
- 비용:
- 총 학습 소요 GPU 시간: 2.788M H800 GPU 시간 (약 560만 달러)
- 1조 token당 약 180K GPU 시간이 소요되며, 전체 사전 학습은 약 2개월 소요됨.
3. 결론
DeepSeek-V3는 고성능 MLA와 효율적인 DeepSeekMoE 구조, 새로운 로드 밸런싱 전략, 그리고 Multi-Token Prediction이라는 기술적 혁신을 통해 오픈소스 언어 모델의 새로운 기준을 제시하였다. FP8 기반의 저정밀 학습, DualPipe 병렬 처리 전략, 대규모 클러스터 최적화 등을 통해 경제성과 확장성 또한 확보하였다. 향후 연구는 dynamic expert routing, speculative decoding의 고도화, 그리고 multilingual fine-tuning으로의 확장이 기대된다.
TI Tech Lab 박선홍 연구원
Source
- Liu, Aixin, et al. “Deepseek-v3 technical report.” arXiv preprint arXiv:2412.19437 (2024).
Add comment