최신 및 프론티어 벤치마크 (Modern & Frontier Benchmarks)
2024년과 2025년을 기점으로 LLM의 성능이 비약적으로 향상됨에 따라, 기존의 GLUE나 MMLU 같은 벤치마크들은 ‘포화 상태’에 이르렀습니다. 현재는 데이터 오염(Data Contamination)을 방지하고, 실제 에이전트로서의 능력이나 전문가 수준의 추론을 측정하는 새로운 지표들이 표준으로 자리 잡고 있습니다.
1. 코딩 및 소프트웨어 엔지니어링
SWE-bench (Software Engineering Benchmark)
LLM이 실제 GitHub 이슈를 해결할 수 있는지 평가하는 에이전틱 벤치마크입니다. 단순 코드 생성을 넘어 코드베이스 검색, 수정, 유닛 테스트 실행 능력을 종합적으로 측정합니다.
- SWE-bench Verified: 인간 엔지니어가 검증한 신뢰도 높은 테스트 세트입니다.
- SWE-bench Pro: 2025년 이후 모델들을 위해 더 어렵고 복잡한 이슈들로 구성된 버전입니다.
- 핵심 지표: 해결률(Resolved Rate, %).
LiveCodeBench
LeetCode, AtCoder 등 코딩 플랫폼에서 실시간으로 발생하는 새로운 문제들을 사용하여 데이터 오염 문제를 해결한 벤치마크입니다. 모델이 학습 데이터에 포함되지 않은 새로운 로직을 얼마나 잘 이해하는지 측정합니다.
2. 고난도 추론 및 전문 지식
GPQA (Graduate-Level Google-Proof Q&A)
생물학, 물리학, 화학 등 과학 분야의 박사급 전문가들이 출제한 매우 어려운 객관식 문제들입니다. 비전문가가 구글링을 하더라도 답을 찾기 어렵도록 설계되어 있습니다.
- GPQA Diamond: 가장 정제되고 어려운 문제 세트입니다. 현재 최상위 모델들은 인간 전문가(약 65~74%)를 능가하는 90% 이상의 정확도를 보입니다.
FrontierMath
일반적인 LLM이 해결하기 거의 불가능한 수준의 현대 수학 문제들을 포함합니다. 단순 계산이 아닌 창의적인 수학적 사고와 증명 능력을 요구합니다.
4. 사용자 경험 및 실전 능력
TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark)
Samsung Research에서 개발한 벤치마크로, LLM이 ‘인간의 업무 보조 에이전트’로서 얼마나 유용한지를 실제 업무 환경(Job Productivity) 관점에서 평가합니다.
- 핵심 특징: 10가지 직업 카테고리(콘텐츠 생성, 데이터 분석, 추론 등), 12개 언어 지원, 2,400개 이상의 실제 사용 사례 기반.
- 평가 방식: 단순 정답 여부가 아닌, 상세 체크리스트를 기반으로 한 Binary Pass/Fail 메트릭을 사용하여 모델의 실질적인 업무 완수 능력을 측정합니다.
Arena Hard (LMSYS)
Chatbot Arena의 방대한 데이터를 바탕으로, 특히 답변하기 까다롭고 변별력이 높은 프롬프트들만 추출하여 만든 자동 평가 벤치마크입니다. 모델의 실전 대화 능력을 인간의 선호도와 가장 유사하게 측정하는 지표 중 하나입니다.
Chatbot Arena (LMSYS)
수천 명의 사용자가 두 모델의 응답을 블라인드 테스트하여 순위를 매기는 크라우드소싱 플랫폼입니다. Elo 레이팅 시스템을 통해 실시간 모델 순위를 제공합니다.
5. 멀티모달 이해 (Multimodal)
MMMU / MMMU-Pro
대학 수준의 지식과 복잡한 시각적 추론을 요구하는 멀티모달 벤치마크입니다. 차트 분석, 과학 도해 이해, 공간 추론 등을 평가합니다.
5. 도구 사용 및 에이전트 능력
Berkeley Function Calling Leaderboard (BFCL)
모델이 외부 도구(API)를 호출할 때 정확한 파라미터를 생성하고 논리적인 순서로 실행하는지 평가합니다. 복잡한 워크플로우를 처리하는 에이전트 성능의 핵심 지표입니다.
Humanity’s Last Exam
AI가 해결하기 매우 어려운 고난도 문제들을 모아놓은 벤치마크로, 단순히 지식을 넘어 도구를 활용한 복합적인 추론 능력을 측정합니다.
실전 사례: GLM-5 및 Qwen-3.5 평가 (2026년 기준)
최근 발표된 최상위 모델들은 기존의 정적 벤치마크를 넘어, 실제 업무 환경과 유사한 ‘에이전틱(Agentic)’ 성능 측정에 집중하고 있습니다.
GLM-5 (시스템 엔지니어링 최적화)
- SWE-bench Verified: 약 77.8%를 기록하며 실제 소프트웨어 수정 능력에서 강점을 보임.
- Humanity’s Last Exam (with tools): 50.4점을 기록하여 도구 활용 추론 능력을 입증.
- BrowseComp: 다단계 브라우징 및 컨텍스트 관리 능력 측정.
Qwen-3.5 (멀티모달 에이전트)
- GPQA Diamond: 88.4점으로 대학원 수준의 고난도 추론 능력 증명.
- IFBench (Instruction Following): 76.5점으로 복잡한 제약 조건 준수 능력 측정.
- BrowseComp: 에이전트의 웹 검색 및 정보 추출 능력 평가.
요약: 벤치마크의 변화 흐름
| 구분 | 과거 (Traditional) | 현재 (Modern/Frontier) |
|---|---|---|
| 주요 대상 | 단일 문장 이해, 단순 QA | 소프트웨어 엔지니어링, 복잡한 추론 |
| 평가 방식 | 정적 데이터셋, n-gram 일치 | 실시간 데이터, 에이전트 실행 결과 |
| 난이도 | 고등학교/학부 수준 | 박사급/전문가 수준 |
| 주요 벤치마크 | GLUE, MMLU, GSM8K | SWE-bench, GPQA, Arena Hard, TRUEBench |