MLC LLM (Universal Deployment Engine)

아키텍처 및 핵심 기술

Apache TVM 기반 머신러닝 컴파일러

컴파일 최적화: 단순 양자화를 넘어 하드웨어 특성에 맞는 커널 퓨전(Kernel Fusion)과 그래프 최적화 제공.
범용성: 브라우저(WebGPU), 모바일(Metal/Vulkan/OpenCL), CPU, GPU 등 모든 플랫폼에서 네이티브 실행 지원.

MLCEngine (통합 모바일 SDK)

네이티브 통합: iOS(Swift) 및 Android(Kotlin) 바인딩을 통해 모바일 앱에 고성능 추론 엔진 즉시 통합 가능.
OpenAI 스타일 API: 모바일 기기 내에서도 표준화된 API 인터페이스로 모델과 통신.
최적화 도구: mlc_llm 패키징 도구를 통해 가중치 패키징과 하드웨어 가속 설정을 자동화.

WebLLM (In-Browser Inference)

브라우저 내 서버리스 추론

WebGPU 가속: Chrome 121+ 및 모바일 브라우저의 WebGPU를 활용하여 서버 없이 브라우저 단에서 LLM 실행.
보안 및 오프라인: 데이터가 로컬 기기를 떠나지 않는 완벽한 프라이버시 보호와 인터넷 연결 없는 실행 환경 제공.
Worker 기반 구동: UI 스레드와 분리된 Web Worker 환경에서 추론하여 브라우저 지연 방지.

주요 기능 및 모델 지원 (2024-2025)

에이전트 및 구조화 기능

JSON 모드: 브라우저/모바일 환경에서도 JSON 기반의 구조화된 데이터 생성 보장.
함수 호출(Function Calling): 온디바이스 모델을 통한 지능적 도구 활용 지원.

최신 소형 모델(SLM) 최적화

Llama 3.1, Qwen 2.5, Phi-3: 1B~8B 규모의 모델들을 모바일 메모리(8GB 이하)에서 원활하게 구동하도록 최적화.

장단점

장점

최고의 플랫폼 확장성: 코드 한 번으로 브라우저, 스마트폰, 데스크톱 모두 대응 가능.
서버 비용 절감: 사용자 기기의 리소스를 활용하여 추론 비용 0원 실현.
하드웨어별 정밀 최적화: TVM 컴파일러를 통한 극한의 하드웨어 제어.

단점

설정 복잡도: 컴파일 방식 특성상 모델별 빌드 및 배포 과정이 일반 엔진에 비해 복잡함.
모델 제약: 컴파일러 지원 여부에 따라 일부 복잡한 최적화가 적용된 모델은 즉시 지원이 어려울 수 있음.

사용 시나리오

모바일 앱 내장형 개인 비서 및 오프라인 번역 서비스
브라우저 기반의 보안이 중요한 문서 요약 및 분석 도구
서버 비용 없이 대규모 사용자에게 AI 기능을 배포해야 하는 스타트업
엣지 컴퓨팅 기반의 실시간 응답 환경