일반적인 벤치마크 (General Benchmarks)

1. GLUE (General Language Understanding Evaluation)

GLUE는 자연어 이해 작업을 위한 표준 벤치마크입니다.

def load_benchmark_datasets():
    """벤치마크 데이터셋 로드"""
    benchmarks = {
        "GLUE": {
            "description": "General Language Understanding Evaluation",
            "tasks": ["CoLA", "SST-2", "MRPC", "QQP", "STS-B", "MNLI", "QNLI", "RTE"],
            "metrics": ["accuracy", "f1", "pearson", "spearman"]
        }
    }
    return benchmarks

주요 작업:

  • CoLA: 언어 수용성 판단
  • SST-2: 감정 분석
  • MRPC: 문장 유사성 판단
  • QQP: 질문 유사성 판단
  • STS-B: 의미적 텍스트 유사성
  • MNLI: 자연어 추론
  • QNLI: 질문-답변 자연어 추론
  • RTE: 텍스트 함의 관계

2. SuperGLUE

SuperGLUE는 GLUE보다 더 어려운 자연어 이해 작업을 포함합니다.

def load_superglue_benchmarks():
    """SuperGLUE 벤치마크"""
    superglue = {
        "SuperGLUE": {
            "description": "More challenging NLU tasks",
            "tasks": ["BoolQ", "CB", "COPA", "MultiRC", "ReCoRD", "RTE", "WiC", "WSC"],
            "metrics": ["accuracy", "f1", "exact_match"]
        }
    }
    return superglue

주요 작업:

  • BoolQ: 예/아니오 질문 답변
  • CB: 약한 지도학습 자연어 추론
  • COPA: 인과관계 추론
  • MultiRC: 다중 문장 독해
  • ReCoRD: 독해 기반 질문 답변
  • WiC: 문맥에서의 단어 의미
  • WSC: Winograd 스키마 챌린지

3. MMLU (Massive Multitask Language Understanding)

MMLU는 다양한 학문 분야에 대한 지식을 테스트하는 벤치마크입니다.

def load_mmlu_benchmarks():
    """MMLU 벤치마크"""
    mmlu = {
        "MMLU": {
            "description": "Massive Multitask Language Understanding",
            "tasks": ["STEM", "Humanities", "Social Sciences", "Other"],
            "metrics": ["accuracy"]
        }
    }
    return mmlu

주요 분야:

  • STEM: 과학, 기술, 공학, 수학
  • Humanities: 인문학
  • Social Sciences: 사회과학
  • Other: 기타 분야

This site uses Just the Docs, a documentation theme for Jekyll.