Knowledge Distillation

큰 LLM 모델에서 지식을 작은 LLM 모델로 전수하는 혁신적인 기술

Knowledge Distillation의 정의와 개념

Knowledge Distillation(지식 증류)은 큰 모델(teacher)의 지식과 능력을 작은 모델(student)로 전수하는 기법입니다. “선생님-학생” 관계에서 선생님 모델이 가진 복잡한 분포나 답변 방식을 학생 모델이 학습하여, 훨씬 작은 크기로도 비슷한 성능을 발휘할 수 있게 만드는 것이 핵심입니다.

핵심 아이디어

전통적인 학습에서는 모델이 정답 레이블(hard label)만을 학습하지만, Knowledge Distillation에서는 선생님 모델의 소프트 레이블(soft label)을 활용합니다. 예를 들어, 이미지 분류에서 선생님 모델이 “고양이 80%, 개 15%, 새 5%”라는 확률 분포를 제공하면, 학생 모델은 이 풍부한 정보를 통해 더 효과적으로 학습할 수 있습니다.

Knowledge Distillation의 도입 배경

LLM의 한계점

대규모 언어 모델의 뛰어난 성능에도 불구하고 실무 적용에는 심각한 제약이 있었습니다:

  1. 막대한 계산 비용: GPT-4와 같은 모델은 추론 시 수백GB의 GPU 메모리 필요
  2. 높은 지연 시간: 실시간 서비스에 부적합한 응답 속도
  3. 제한된 접근성: API 호출을 통해서만 사용 가능하여 커스터마이징 어려움
  4. 비용 문제: 대규모 서비스 시 감당하기 어려운 운영 비용

해결책으로서의 Knowledge Distillation

Knowledge Distillation은 이러한 문제들을 해결하는 핵심 기술로 등장했습니다:

  • 효율성: 작은 모델로 대형 모델과 유사한 성능 달성
  • 배포 용이성: 모바일 디바이스나 엣지 환경에서도 실행 가능
  • 비용 절감: 추론 비용을 크게 줄이면서도 품질 유지

Knowledge Distillation의 장점

1. 계산 효율성

측면 Teacher 모델 Student 모델 (Distilled)
파라미터 수 1750억 개 (GPT-3) 66M-13B (크기에 따라)
추론 속도 기준값 최대 71% 빠름
메모리 사용량 350GB+ 수 GB
배포 비용 높음 낮음

2. 성능 유지

DistilBERT는 BERT의 40% 적은 파라미터97%의 성능을 유지하며, 추론 속도는 60% 향상되었습니다. MiniLLM 프로젝트에서는 GPT-4 수준의 성능을 13B 파라미터 모델로 달성했습니다.

3. 접근성 향상

Knowledge Distillation을 통해 중소 기업이나 연구팀도 고성능 AI 모델에 접근할 수 있게 되었습니다. OpenAI의 GPT-4o mini는 이러한 오픈소스화화의 대표적 사례입니다.

Knowledge Distillation의 단점

1. 성능 한계

  • 복잡한 추론 작업에서는 여전히 원본 모델 대비 성능 차이 존재
  • 창의적 작업이나 도메인 특화 작업에서 제한적 성능

2. 학습 복잡성

  • Teacher 모델 선택의 중요성: 잘못된 선생님 모델 선택 시 성능 저하
  • 하이퍼파라미터 튜닝: Temperature, loss weight 등 세심한 조정 필요

3. 도메인 의존성

  • 분포 불일치: Teacher와 Student가 다른 데이터 분포에서 학습될 경우 성능 저하
  • 지식 전수 한계: Teacher의 암시적 지식이 완전히 전달되지 않을 수 있음

대표적인 Knowledge Distillation 방법론

1. White-box vs Black-box Distillation

White-box Distillation:

  • Teacher 모델의 내부 상태(logits, hidden states) 접근 가능
  • 더 풍부한 지식 전수 가능
  • 대표 사례: DistilBERT, MiniLLM

Black-box Distillation:

  • Teacher 모델의 출력만 접근 가능 (API 형태)
  • GPT-4와 같은 상용 모델 활용 시 주로 사용
  • Proxy-KD와 같은 고급 기법 필요

2. 핵심 기술들

Temperature Scaling

# 소프트맥스에 Temperature 적용
def softmax_with_temperature(logits, temperature):
    return F.softmax(logits / temperature, dim=-1)

# Temperature가 높을수록 더 부드러운 분포
soft_targets = softmax_with_temperature(teacher_logits, T=3.0)

Temperature는 지식 전수의 핵심 파라미터로, 높은 값일수록 더 많은 클래스 관계 정보를 담습니다.

Loss Function 설계

Knowledge Distillation의 손실 함수는 일반적으로 다음과 같이 구성됩니다:

\[L_{total} = \alpha \cdot L_{CE} + (1-\alpha) \cdot L_{KD}\]

여기서:

  • \(L_{CE}\): 실제 레이블과의 Cross-entropy loss
  • \(L_{KD}\): Teacher와 Student 출력 간의 KL-divergence
  • \(\alpha\): 두 loss 간의 가중치

3. 최신 방법론들

MiniLLM: Reverse KL Divergence

MiniLLM은 기존의 Forward KL 대신 Reverse KL Divergence를 사용하여 더 효과적인 지식 전수를 달성했습니다:

# Forward KL vs Reverse KL
forward_kl = kl_div(student_logits, teacher_logits)
reverse_kl = kl_div(teacher_logits, student_logits)  # MiniLLM 방식

DPKD: Direct Preference Knowledge Distillation

DPKD는 선호도 기반 학습을 통해 Student 모델이 Teacher보다 더 나은 결과를 생성할 수 있도록 합니다:

  • Teacher 출력을 참조 모델로 활용
  • Direct Preference Optimization(DPO) 적용
  • 응답 정확도와 일치율에서 기존 방법 대비 우수한 성능

구체적인 구현 사례

OpenAI의 Model Distillation

OpenAI는 2024년 10월 통합 Distillation 파이프라인을 출시했습니다:

  1. Stored Completions: GPT-4o의 입출력 쌍을 자동 저장
  2. Evals: 성능 평가 자동화
  3. Fine-tuning: 저장된 데이터로 GPT-4o mini 학습
# OpenAI Distillation API 사용 예제
response = client.chat.completions.create(
    model="gpt-4o",
    messages=messages,
    store=True,  # 자동으로 distillation 데이터셋 생성
    metadata={"task": "classification"}
)

Microsoft MiniLLM 프로젝트

Microsoft의 MiniLLM은 오픈소스 구현체를 제공합니다:

주요 특징:

  • 120M~13B 파라미터 범위의 다양한 모델 크기 지원
  • Multi-GPU 학습 지원 (Tensor Parallelism)
  • Dolly, Vicuna 등 다양한 instruction 데이터셋 활용

실제 성능:

  • Instruction-following 작업에서 기존 방법 대비 우수한 성능
  • Long-text 생성에서 더 나은 calibration
  • Exposure bias 문제 완화

실무 적용 가이드

1. 방법론 선택 기준

상황 추천 방법 이유
API 모델 활용 Black-box Distillation GPT-4 등 상용 모델 활용
오픈소스 모델 White-box Distillation 풍부한 내부 정보 활용
빠른 프로토타입 OpenAI Distillation 통합 파이프라인 제공
커스터마이징 MiniLLM 방식 완전한 제어 가능

2. 성능 비교: Distillation vs Fine-tuning

기준 Full Fine-tuning Knowledge Distillation
성능 최고 (100%) 우수 (90-97%)
학습 비용 높음 보통
추론 비용 높음 낮음
일반화 능력 제한적 우수
배포 용이성 어려움 쉬움

3. 실제 적용 사례

법률 분야: Darrow AI는 distilled LLM을 활용하여 대규모 법률 문서 분석을 비용 효율적으로 수행

의료 분야: DiXtill은 XAI 기반 지식 증류로 의료 진단 모델의 해석가능성과 효율성을 동시에 달성

모바일 애플리케이션: DistilBERT는 모바일 디바이스에서 71% 빠른 추론 속도로 실시간 자연어 처리 지원

최신 연구 동향

1. 멀티모달 확장

LLaVA-MoD는 Mixture of Experts(MoE) 구조와 distillation을 결합하여 2B 파라미터로 7B 모델을 능가하는 성능을 달성했습니다.

2. 실시간 지식 전수

EchoLM은 실시간 knowledge distillation을 통해 1.4-5.9배 처리량 향상과 28-71% 지연 시간 감소를 동시에 달성했습니다.

3. 자동화된 파이프라인

Distilling step-by-step 방법론은 Chain-of-Thought 추론 과정까지 증류하여 더 적은 데이터로도 우수한 성능을 보입니다. 2026년 현재, 단순히 정답만 전수하는 것이 아니라 교사 모델의 사고 과정(Reasoning Steps)을 통째로 전수하는 CoT Distillation이 소형 모델의 지능을 극대화하는 표준 기법으로 자리 잡았습니다.

결론

Knowledge Distillation은 대규모 언어 모델의 오픈소스화를 가능하게 하는 핵심 기술입니다. 비용 효율성성능을 균형있게 달성할 수 있어, 실제 서비스 배포에서 필수적인 기술로 자리잡았습니다.

특히 OpenAI의 GPT-4o miniMicrosoft의 MiniLLM 같은 성공 사례는 Knowledge Distillation이 단순한 연구 주제를 넘어 실용적인 AI 솔루션임을 증명하고 있습니다.

앞으로는 멀티모달 확장, 실시간 증류, 자동화된 파이프라인 방향으로 발전하여, 더 많은 조직이 고성능 AI 기술에 접근할 수 있게 될 것으로 예상됩니다. LLM 서비스를 고려하는 조직이라면, Knowledge Distillation을 통해 비용 최적화와 성능 확보를 동시에 달성할 수 있는 전략을 수립하는 것이 중요합니다.


This site uses Just the Docs, a documentation theme for Jekyll.