일반적인 벤치마크 (General Benchmarks)
1. GLUE (General Language Understanding Evaluation)
GLUE는 자연어 이해 작업을 위한 표준 벤치마크입니다.
def load_benchmark_datasets():
"""벤치마크 데이터셋 로드"""
benchmarks = {
"GLUE": {
"description": "General Language Understanding Evaluation",
"tasks": ["CoLA", "SST-2", "MRPC", "QQP", "STS-B", "MNLI", "QNLI", "RTE"],
"metrics": ["accuracy", "f1", "pearson", "spearman"]
}
}
return benchmarks
주요 작업:
- CoLA: 언어 수용성 판단
- SST-2: 감정 분석
- MRPC: 문장 유사성 판단
- QQP: 질문 유사성 판단
- STS-B: 의미적 텍스트 유사성
- MNLI: 자연어 추론
- QNLI: 질문-답변 자연어 추론
- RTE: 텍스트 함의 관계
2. SuperGLUE
SuperGLUE는 GLUE보다 더 어려운 자연어 이해 작업을 포함합니다.
def load_superglue_benchmarks():
"""SuperGLUE 벤치마크"""
superglue = {
"SuperGLUE": {
"description": "More challenging NLU tasks",
"tasks": ["BoolQ", "CB", "COPA", "MultiRC", "ReCoRD", "RTE", "WiC", "WSC"],
"metrics": ["accuracy", "f1", "exact_match"]
}
}
return superglue
주요 작업:
- BoolQ: 예/아니오 질문 답변
- CB: 약한 지도학습 자연어 추론
- COPA: 인과관계 추론
- MultiRC: 다중 문장 독해
- ReCoRD: 독해 기반 질문 답변
- WiC: 문맥에서의 단어 의미
- WSC: Winograd 스키마 챌린지
3. MMLU (Massive Multitask Language Understanding)
MMLU는 다양한 학문 분야에 대한 지식을 테스트하는 벤치마크입니다.
def load_mmlu_benchmarks():
"""MMLU 벤치마크"""
mmlu = {
"MMLU": {
"description": "Massive Multitask Language Understanding",
"tasks": ["STEM", "Humanities", "Social Sciences", "Other"],
"metrics": ["accuracy"]
}
}
return mmlu
주요 분야:
- STEM: 과학, 기술, 공학, 수학
- Humanities: 인문학
- Social Sciences: 사회과학
- Other: 기타 분야