주요 에이전트 평가 프레임워크

에이전트의 ‘실행 능력’을 측정하기 위해 학계와 산업계에서 널리 사용하는 표준화된 평가 도구와 벤치마크 프레임워크를 소개합니다.

1. lm-evaluation-harness (EleutherAI)

“LLM 평가의 표준 오픈소스 라이브러리”

특징: 모델의 기초 체력(지식, 논리, 추론 등)을 측정하는 가장 범용적인 도구입니다.
주요 활용: MMLU, GSM8K, HellaSwag 등 60개 이상의 고전적 벤치마크를 한 번의 명령어로 실행할 수 있습니다.
연관성: 에이전트 전용은 아니지만, 에이전트의 기반이 되는 모델의 기본 성능을 검증할 때 필수적으로 사용됩니다.

2. AgentBench

“포괄적인 에이전트 능력 평가 프레임워크”

특징: 에이전트가 현실 세계와 유사한 8가지 다양한 환경에서 얼마나 잘 작동하는지 평가합니다.
평가 환경:
- OS (Bash): 터미널 명령어 실행 능력
- Database (SQL): 데이터 질의 및 조작 능력
- Knowledge Graph: 구조화된 지식 탐색
- Card Game: 전략 수립 및 규칙 준수 등
장점: 에이전트의 다재다능함을 종합적으로 측정할 수 있는 업계 표준 벤치마크 중 하나입니다.

3. ToolBench

“도구 활용 및 API 오케스트레이션 특화”

특징: 수천 개의 실제 API(RapidAPI 등)를 활용하여 에이전트의 도구 선택 및 호출 능력을 평가합니다.
핵심 지표: 모델이 복잡한 사용자 요청을 해결하기 위해 어떤 API 조합을 선택하고, 인자를 정확히 넘기는지 측정합니다.
의의: 에이전트가 ‘외부 지능’을 얼마나 잘 빌려 쓰는지 집중적으로 평가합니다.

4. HumanEval / MBPP

“코드 생성 및 실행 정확성 측정”

특징: 파이썬 등의 프로그래밍 문제를 주고, 모델이 작성한 코드가 유닛 테스트를 통과하는지 평가합니다.
평가 방식: Pass@k 지표를 사용하여, 모델이 생성한 샘플 중 정답이 포함될 확률을 계산합니다.
연관성: 코딩 에이전트(Aider, Claude Code 등)의 성능을 비교할 때 가장 기본이 되는 지표입니다.

5. WebArena / Mind2Web

“웹 브라우징 및 자율 행동 평가”

특징: 실제 웹사이트 환경에서 “특정 상품을 장바구니에 담고 결제 페이지까지 이동해줘”와 같은 시나리오를 수행하게 합니다.
의의: 복잡한 UI를 이해하고 시각적 정보를 처리하여 실질적인 목표를 달성하는 ‘행동력’을 평가합니다.

프레임워크 선택 가이드

평가 목표	추천 프레임워크
모델의 기본 지식 및 논리력	lm-evaluation-harness
OS, DB 등 시스템 제어 능력	AgentBench
복합 API 호출 및 연동 능력	ToolBench
코딩 및 알고리즘 해결 능력	HumanEval, MBPP
웹 환경에서의 자율 행동	WebArena