LMDeploy (MMRazor/MMDeploy)

아키텍처 및 핵심 기술

고성능 TurboMind 엔진 (C++/CUDA)

속도 특화: vLLM과 대비되는 순수 C++ 기반 아키텍처로 오케스트레이션 오버헤드를 극도로 낮춤.
Persistent Batching: 슬롯 유휴 시간을 최소화하는 고도화된 배치 기법 사용.
하드웨어 제어: NVIDIA GPU의 물리적 하드웨어 성능을 가장 가깝게 제어하여 성능 추출.

최신 하드웨어 및 모델 지원 (2025)

MXFP4 지원: Microscaling Formats(MXFP4)를 지원하여 H800 등 최신 하드웨어에서 vLLM 대비 최대 1.5배 높은 성능 발휘.
DeepSeek V3/R1 최적화: MoE 모델을 위한 전용 커널을 통해 대규모 모델의 분산 추론 속도 개선.

지원하는 디코딩 전략 및 양자화

양자화의 강점 (Quantization Leader)

성능 증폭: INT4 AWQ 및 KV 캐시 양자화(KV8/KV4) 시 FP16 대비 2.4배 이상의 성능 향상.
최적의 품질: 양자화 과정에서 발생하는 품질 손실을 최소화하는 기술적 검증 완료.

대화형 추론 최적화

History Caching: 멀티라운드 대화에서 이전 대화 기록의 KV 캐시를 효율적으로 재사용하여 중복 연산 차단.

성능 특성 및 벤치마크

벤치마크 (Llama 3.1 8B, H100)

처리량: 약 16,100 tokens/s 기록 (vLLM 약 12,500 대비 약 29% 우위).
지연 시간 (TTFT): 40-60ms 수준의 최상위권 반응 속도 유지.

장단점

장점

최고의 처리량: NVIDIA GPU 환경에서 가장 높은 토큰 생성 속도 제공.
강력한 양자화: 메모리 제약이 큰 환경에서 양자화 모델 서빙 시 최적의 선택지.
간편한 배포: 원커맨드 빌드 및 배포 시스템.

단점

NVIDIA 전용: TurboMind 엔진은 NVIDIA GPU에서만 작동함.
확장성 제약: vLLM에 비해 지원하는 모델 아키텍처 종류가 상대적으로 적음.

사용 시나리오

NVIDIA GPU를 기반으로 한 고성능 프로덕션 환경
양자화 모델(4-bit/8-bit)을 통한 인프라 비용 효율화가 시급한 상황
멀티라운드 채팅 애플리케이션의 응답 속도 최적화
Llama, Qwen, InternLM 시리즈 모델의 최고 성능 서빙