Post-Training & Alignment

사전 학습(Pre-training)이 끝난 모델이 인간의 지시를 따르고 인간의 선호도에 맞게 응답하도록 조정하는 과정입니다. 2024-2025년을 거쳐 2026년에는 기존의 PPO나 단순 DPO를 넘어, KTO(Kahneman-Tversky Optimization)와 Online DPO와 같이 데이터 효율성과 실시간 피드백을 극대화하는 기법들이 표준이 되었습니다.

1. 정렬(Alignment)의 진화

전통적인 RLHF(PPO)는 별도의 보상 모델을 학습시키는 복잡한 과정을 거쳤으나, 최신 기법들은 이를 단순화하여 직접 선호도를 학습하거나(RL-free), 학습 중인 모델의 현재 출력을 실시간으로 반영하는 방향으로 발전했습니다.

2. 주요 정렬 기법 (2026 Standard)

KTO (Kahneman-Tversky Optimization)

개념: 노벨 경제학상 수상자 다니엘 카네만의 ‘전망 이론(Prospect Theory)’을 기반으로 합니다. 비교 쌍(Preference Pairs) 없이 각 답변이 ‘좋음(Desirable)’ 또는 ‘나쁨(Undesirable)’이라는 단일 라벨만 있어도 학습이 가능합니다.
장점: 실제 서비스 로그(좋아요/싫어요)를 그대로 학습 데이터로 활용할 수 있어 구축 비용이 매우 저렴하며, 데이터가 불균형한 상황에서도 강력한 성능을 발휘합니다.

Online DPO (온라인 직접 선호도 최적화)

개념: 고정된 데이터셋을 사용하는 Offline DPO와 달리, 학습 과정에서 모델이 직접 생성한 답변을 실시간으로 평가(주로 고성능 모델이나 보상 모델 활용)하여 학습에 반영합니다.
장점: 모델의 현재 분포와 데이터 간의 괴리(Distribution Shift)를 줄여 오버피팅을 방지하고 성능을 극대화합니다.

DPO (Direct Preference Optimization)

개념: 보상 모델 없이 ‘선택된 응답’과 ‘거부된 응답’ 간의 로그 확률 차이를 최대화하도록 학습합니다.
상태: 구현이 간단하여 여전히 널리 쓰이지만, 최근에는 Online 방식이나 KTO로 대체되는 추세입니다.

ORPO (Odds Ratio Preference Optimization)

개념: SFT(지도 미세 조정)와 Alignment 단계를 하나로 통합합니다. 승인된 답변과 거부된 답변의 오즈비(Odds Ratio)를 손실 함수에 반영합니다.
장점: 별도의 참조 모델이 필요 없어 메모리 사용량을 절약하며 학습 속도가 매우 빠릅니다.

SimPO (Simple Preference Optimization)

개념: 참조 모델 없이, 응답의 ‘길이 정규화된 로그 확률’을 보상으로 사용합니다.
장점: 모델이 무의미하게 긴 답변만 선호하는 ‘길이 편향(Verbosity Bias)’을 효과적으로 억제합니다.

GRPO (Group Relative Policy Optimization)

개념: DeepSeek에서 제안한 기법으로, 비싼 비판 모델(Critic) 없이 그룹 내 상대적 점수로 정책을 업데이트합니다. 복잡한 추론 정렬에 강력합니다.

3. 정렬 프로세스 비교

항목	PPO (전통)	DPO (기본)	KTO (경제적)	Online DPO (성능)
보상 모델	필요함	필요 없음	필요 없음	필요 없음 (또는 평가용 모델)
비교 쌍 데이터	필요함	필수	불필요 (단일 라벨)	필요함
참조 모델	필요함	필요함	필요함	필요함
학습 안정성	낮음	보통	높음	높음
주요 특징	복잡함	표준적	데이터 구축 용이	최고 성능 도달

실무 팁: 정렬 모델 선택

데이터가 비교 쌍이 아니라 단일 라벨(좋아요/싫어요)뿐이라면?: KTO가 유일하고 강력한 선택입니다.
최고의 성능을 뽑아내고 싶다면?: 모델이 직접 생성한 데이터를 평가하는 Online DPO를 적용하세요.
메모리가 부족하고 빠른 학습이 필요하다면?: ORPO가 가장 효율적입니다.
복잡한 논리 문제를 해결해야 한다면?: GRPO와 같은 그룹 기반 정렬이 효과적입니다.