LightLLM

아키텍처 및 핵심 기술

경량 설계와 높은 확장성

3-Process 비동기 협업: 토큰화(Tokenization), 추론(Inference), 디토큰화(Detokenization)를 독립된 프로세스로 관리하여 GPU 대기 시간 최소화.
Python-Native: 순수 Python 기반의 가볍고 유연한 설계로 최신 연구 기법의 빠른 구현 가능.

생태계 통합 (2025)

LiteLLM 통합: LLM 게이트웨이인 LiteLLM(v1.80+)과의 공식 통합을 통해 단일 API 엔드포인트로 LightLLM 기반 인프라를 손쉽게 관리 및 서빙 가능.
모듈화: 추론 엔진뿐만 아니라 라우터와 워크플로우 엔진이 분리된 모듈형 구조로 진화.

주요 최적화 기술 (Token Attention)

메모리 및 성능 최적화

Token Attention: 효율적인 KV 캐시 관리를 통해 전체 처리량(Throughput) 개선 및 메모리 오버헤드 감소.
Nopad Attention: 패딩 토큰을 제거한 연산 지원으로 계산 효율 극대화.
Dynamic Batching: 동적 요청 상황에 유연하게 대응하는 배치 스케줄링.
Int8KV Cache: Llama 시리즈 등 주요 모델에 대해 KV 캐시 양자화 지원으로 메모리 사용량 절반 축소.

장단점

장점

경량성: 복잡한 빌드 과정 없이 빠르게 배포하고 실험 가능.
유연한 확장: 모듈화된 설계 덕분에 커스텀 워크플로우나 연구용 최적화 적용 용이.
게이트웨이 친화: LiteLLM 등을 통해 기존 서비스 인프라와 즉시 연동.

단점

순수 속도: C++ 기반 엔진(LMDeploy, SGLang 등) 대비 극한의 처리량에서는 한계 존재.
지원 모델: 범용 엔진(vLLM)에 비해 지원하는 모델의 폭이 상대적으로 좁을 수 있음.

사용 시나리오

신규 추론 기법이나 연구 목적의 빠른 프로토타이핑
LiteLLM 게이트웨이를 활용한 다중 엔진 서빙 환경 구축
경량화된 Python 기반의 고속 서빙이 필요한 실험적 프로젝트
리소스 효율성과 관리 편의성이 중요한 소규모 클라우드 인프라