LLM DeepSeek 주요 특징과 모델 구조 250615
DeepSeek는 중국 스타트업 DeepSeek AI에서 개발한 일련의 대형 언어 모델(Large Language Model, LLM) 및 추론 모델로, “효율성”과 “합리적 비용”을 핵심 강점으로 내세우고 있습니다. 주요 특징과 모델 구조를 정리하면 다음과 같습니다.
⸻
1. DeepSeek의 핵심 특징
• 오픈 소스·소스-어베일러블
DeepSeek의 대부분 모델(예: R1, VL2, Coder 등)은 MIT 또는 DeepSeek 자체 라이선스 하에 공개되어 있어, 누구나 내려받아 실험하고 커스터마이징할 수 있습니다.
• 비용 대비 성능 최적화
• V3 모델의 경우 6710억 파라미터 규모임에도, 토큰당 약 1달러(백만 토큰 기준) 수준의 저렴한 추론 비용을 자랑합니다. 
• 훈련에는 H800 GPU만 278.8만 시간(약 5.6백만 달러 상당)이 소요되어, GPT-4 대비 1/10 수준의 훈련 비용을 달성했습니다. 
• 강력한 추론·수학·코딩 역량
R1 계열 모델은 AIME(미국 수학 경시 시험)나 프로그래밍 문제 해결 벤치마크에서 OpenAI o1 모델과 대등한 성능을 보입니다.  
⸻
2. 주요 모델 계열 및 변형
1. DeepSeek-LLM 시리즈
• 7B, 67B 파라미터 규모의 Base/Chat 모델
• RoPE(Positional Embedding), SwiGLU(FFN), GQA(Grouped-Query Attention), RMSNorm 사용 
2. DeepSeek-V3 (MoE 기반)
• 총 671B 파라미터, 토큰당 활성화되는 전용 전문가(Experts) 수 37B
• Mixture-of-Experts, Multi-Head Latent Attention(MLA), 로드 밸런싱(aux-loss-free), 멀티토큰 예측 목표 도입  
3. DeepSeek-R1 (추론 강화 모델)
• V3-Base 초기 가중치를 공유하며, 수학·논리·코딩 등 추론 과제에 특화
• R1-Zero(보상 함수 전부 규칙 기반 RL 사용)와 일반 R1(SFT+RLHF 결합)으로 분화 
4. DeepSeek Coder
• 코드 생성·이해 특화 모델, 1.3B~33B 규모
• 16K 컨텍스트 길이, 코드·영문·중문 혼합 데이터로 사전학습 및 지침 파인튜닝(SFT) 
⸻
3. 모델 구조(아키텍처) 구성 요소
1. 디코더 전용 Transformer
• Pre-norm 구조, 여러 층(layer)이 반복 배치
2. Attention 레이어
• 기존의 Multi-Head Self-Attention 대신에
• Multi-Head Latent Attention(MLA): 압축된 잠재 벡터를 활용해 성능을 높이고 추론 시 메모리 사용량을 절감
• Grouped-Query Attention(GQA): 일부 버전에 적용되어 계산량 최적화 
3. Feed-Forward Network(FFN)
• SwiGLU 활성화 함수
• Mixture-of-Experts(MoE):
• Shared Experts(공유 전문가) + Routed Experts(토큰별 선택 전문가) 구조로, 전통적 MoE 대비 더 많은 전문가 활용
• V3에서는 37B 파라미터 규모 전문가 풀에서 상황에 맞게 일부만 활성화 
4. KV(Key-Value) 캐싱
• 이미 계산된 K, V 매트릭스를 저장해, 추론 시 매번 새로 계산할 필요 없이 속도를 개선 
5. 정규화 및 임베딩
• RMSNorm, Byte-level BPE 토크나이저(어휘 크기 약 102,400), Rotary Positional Embedding(RoPE)
⸻
4. 결론 및 활용 방안
DeepSeek는 “저비용·고효율·강력한 추론”을 목표로 설계된 다양한 LLM 계열을 제공하며, MoE와 MLA 같은 최신 기법을 빠르게 도입해 성능을 끌어올렸습니다. 오픈 소스 라이선스로 누구나 접근 가능하므로, 자체 서비스에 통합하거나 연구·커스터마이징 목적으로 활용하기에 적합합니다. 최근에는 R1 계열을 중심으로 수학·코딩·논리과제에 특히 강점을 보이므로, 이 분야 솔루션 개발 시 우선 고려해볼 만합니다.