DeepSeek

개요

DeepSeek는 중국의 퀀트 펀드 High-Flyer에서 개발한 오픈 웨이트 모델 시리즈입니다. 고도로 효율적인 아키텍처와 압도적인 가성비로 주목받고 있으며, 특히 코드 생성, 수학, 추론 분야에서 최고 수준의 성능을 보여줍니다. 2025년 초 발표된 R1 모델은 전 세계적인 추론 모델 열풍을 일으켰습니다.

주요 시리즈 및 특징

1. DeepSeek-V3

규모: 총 파라미터 671B, 활성 파라미터 37B의 MoE 구조.
혁신: MLA(Multi-head Latent Attention)와 FP8 학습을 통해 성능과 효율을 동시에 잡음.
V3.1: 추론(Thinking) 모드와 일반 모드를 선택적으로 사용할 수 있는 기능 도입.

2. DeepSeek-R1 (Reasoning Model)

추론 혁명: OpenAI의 o1 모델에 필적하는 강력한 논리적 추론 및 문제 해결 능력 보유.
오픈 소스: 추론 모델의 가중치를 전격 공개하여 에이전트 및 복합 워크플로우 개발의 핵심 모델로 자리 잡음.
증류(Distillation): R1의 추론 능력을 Llama나 Qwen의 작은 모델에 이식한 증류 버전도 함께 제공.

3. DeepSeek-Coder & Math

특정 도메인에 특화된 파생 모델. 특히 코더 모델은 오픈 소스 모델 중 최상위 수준의 코딩 성능을 자랑합니다.

기술적 강점

효율성: 경쟁 모델 대비 훨씬 적은 컴퓨팅 자원으로 동급 이상의 성능을 냄.
혁신적인 아키텍처: MLA, DeepSeekMoE 등 독자적인 기술 개발을 통해 LLM 아키텍처의 발전을 주도.
비용 우위: API 사용 비용과 호스팅 비용 측면에서 현존 모델 중 가장 경제적임.

평가 및 벤치마크

DeepSeek-R1은 AIME, MATH 등 최고난도 수학/추론 벤치마크에서 글로벌 SOTA(State-of-the-Art) 수준을 기록하며, 오픈 웨이트 모델이 폐쇄형 모델을 추월할 수 있음을 증명했습니다.