Home DeepSeek V3 technical report
Post
Cancel

DeepSeek V3 technical report

소개

DeepSeek-V3는 효율적인 추론과 고성능을 동시에 달성하기 위해 다양한 구조적 개선과 학습 전략을 도입한 대규모 언어 모델(LLM)입니다. 본 포스트에서는 논문 및 발표 자료를 바탕으로 주요 기법을 정리합니다.


1. Multi-head Latent Attention (MLA)

1.1 개념

MLA는 Attention Key/Value를 압축 표현(Compressed Latent Vector)으로 저장하여
추론 시 메모리 사용량과 연산량을 줄이는 기법입니다.

MLA 구조 MLA 구조 MLA 구조

  • 기본 파라미터
    • d: 임베딩 차원
    • n_h: Attention head 개수
    • d_h: head별 차원
    • d_c: KV 압축 차원
  • Projection 행렬
    • WDKV: Down projection (Key/Value 압축)
    • WUK, WUV: Up projection (복원)

1.2 장점

  • 메모리 사용량 절감
  • 긴 시퀀스 추론에서 KV 캐시 효율성 향상

1.3 한계

  • 추론 시 프리픽스 토큰의 Key 재계산 필요 → 속도 저하 가능성 존재

2. DeepSeekMoE 아키텍처

2.1 핵심 아이디어

  1. 전문가 세분화(Segmentation) → 각 전문가가 더 특화된 지식을 학습
  2. 공유 전문가(Shared Experts) → 전문가 간 지식 중복 완화

DeepSeekMoE 구조 DeepSeekMoE 구조

2.2 문제점

  • MoE(Mixture-of-Experts) 모델은 불균형한 전문가 로드 → Routing Collapse 위험
  • 전문가 병렬화 시 효율 저하

3. Auxiliary-loss-free Load Balancing

3.1 기존 문제

  • 기존 MoE는 로드 밸런싱을 위해 Auxiliary Loss 추가 → 학습 안정성/성능에 부담

3.2 제안 기법

  • Loss 없이 로드 밸런싱 수행
  • 매 스텝마다 전문가별 로드를 모니터링
    • 과부하 시 bias 감소
    • 저부하 시 bias 증가
  • γ (Bias update speed)로 조정 속도 제어

Auxiliary-loss-free Load Balancing


4. Multi-token Prediction (MTP)

4.1 개념

  • 한 번의 예측에서 여러 토큰을 동시에 예측하도록 학습
  • 추론 시 MTP 모듈은 제거 가능 → 추론 비용 증가 없음

MTP Training Objective

4.2 장점

  • 학습 효율 상승
  • 장기 시퀀스 예측 품질 향상

5. 종합 정리

기법 목적 효과
MLA KV 캐시 효율화 메모리 절감, 긴 시퀀스 처리
DeepSeekMoE 전문가 세분화 + 공유 지식 특화, 중복 감소
Auxiliary-loss-free 로드 밸런싱 성능 저하 없이 부하 분산
MTP 다중 토큰 예측 학습 효율 상승, 추론 속도 유지

참고자료


발표 자료

  • 자세한 내용은 논문이나 아래 발표 자료로 확인 가능합니다.

Presentation Slides

This post is licensed under CC BY 4.0 by the author.