SGLang
아키텍처 및 핵심 기술
RadixAttention (KV 캐시 재사용 혁신)
- Radix Tree 구조: 고정된 블록 단위가 아닌, 기수 트리(Radix Tree)를 사용하여 가변 길이의 토큰 시퀀스를 계층적으로 관리.
- 자동 접두사 캐싱: 설정 없이도 대화 기록이나 공통 프롬프트를 자동으로 감지하고 재사용하여 멀티턴 대화에서 캐시 적중률 극대화.
- 메모리 효율: vLLM 대비 1/6 수준의 메모리 사용량으로도 높은 효율을 보여줌.
고성능 추론 엔진
- CPU-GPU Overlap: CPU 스케줄러와 GPU 연산을 완벽하게 오버랩하여 GPU 활용률을 95% 이상으로 유지.
- CUDA Graph: 정적 그래프 실행을 통해 커널 실행 오버헤드를 극적으로 낮춤.
최신 모델 및 성능 최적화
DeepSeek V3 / R1 최적화
- FlashMLA & DeepGemm: DeepSeek의 최신 기술들을 엔진 수준에서 통합하여 MoE 모델의 추론 성능을 업계 최고 수준으로 끌어올림.
- FP8 정밀도 최적화: Blockwise/Tilewise 스케일링을 통해 정확도 손실 없이 높은 처리량 달성.
구조적 생성 (Structured Output)
- Compressed FSM: JSON이나 XML 같은 구조화된 데이터 생성 시, 압축된 유한 상태 머신(FSM)을 활용하여 일반적인 방식보다 1.6배 더 빠른 디코딩 제공.
성능 특성 및 벤치마크
처리량 및 지연 시간
- 처리량(Throughput): H100 GPU 기준, vLLM 대비 약 29% 높은 전체 처리량과 2배 이상의 출력 토큰 처리량 기록.
- 저지연 지향: 초당 30~31개 토큰 이상의 안정적인 지연 시간을 보장.
장단점
장점
- 최고의 성능: 특히 멀티턴 대화와 에이전트 워크플로우에서 독보적인 성능 우위.
- 메모리 효율성: 복잡한 프롬프트를 처리할 때 KV 캐시 관리 능력이 탁월함.
- 연구 친화적: 최신 추론 기법(Speculative Decoding 등)이 가장 빠르게 적용됨.
단점
- 하드웨어 제약: 최고 성능은 NVIDIA GPU에 집중되어 있음.
- 설정 복잡도: 성능을 최대로 끌어올리기 위해 커널 및 스케줄러 튜닝이 필요할 수 있음.
사용 시나리오
- 복잡한 에이전틱 워크플로우 및 멀티턴 대화 시스템
- 대규모 JSON/구조적 데이터 추출 작업
- DeepSeek V3/R1 등 최신 MoE 모델 서빙
- 극한의 GPU 가성비(Tokens per GPU)가 중요한 프로덕션 환경