LLM 특화 벤치마크 (LLM-Specific Benchmarks)
1. HELM (Holistic Evaluation of Language Models)
HELM은 언어 모델을 종합적으로 평가하는 벤치마크입니다.
def load_helm_benchmarks():
"""HELM 벤치마크"""
helm = {
"HELM": {
"description": "Holistic Evaluation of Language Models",
"tasks": ["Question Answering", "Summarization", "Translation", "Reasoning"],
"metrics": ["accuracy", "robustness", "fairness", "efficiency"]
}
}
return helm
평가 영역:
- Question Answering: 질문 답변 능력
- Summarization: 텍스트 요약 능력
- Translation: 번역 능력
- Reasoning: 추론 능력
평가 지표:
- Accuracy: 정확도
- Robustness: 견고성
- Fairness: 공정성
- Efficiency: 효율성
2. BigBench (Beyond the Imitation Game)
BigBench는 다양한 언어 이해 및 추론 작업을 포함하는 벤치마크입니다.
def load_bigbench_benchmarks():
"""BigBench 벤치마크"""
bigbench = {
"BigBench": {
"description": "Beyond the Imitation Game",
"tasks": ["Language Understanding", "Reasoning", "Creativity"],
"metrics": ["accuracy", "diversity", "creativity"]
}
}
return bigbench
주요 영역:
- Language Understanding: 언어 이해
- Reasoning: 논리적 추론
- Creativity: 창의성
3. AlpacaEval
AlpacaEval은 지시사항 따르기 능력을 평가하는 벤치마크입니다.
def load_alpacaeval_benchmarks():
"""AlpacaEval 벤치마크"""
alpacaeval = {
"AlpacaEval": {
"description": "Evaluation for Instruction Following",
"tasks": ["Instruction Following", "Task Completion"],
"metrics": ["win_rate", "human_preference"]
}
}
return alpacaeval
평가 영역:
- Instruction Following: 지시사항 따르기
- Task Completion: 작업 완성도
평가 지표:
- Win Rate: 승률
- Human Preference: 인간 선호도