평가 지표 및 방법론

Pass@k: $k$번의 샘플 중 최소 하나 이상이 정답일 확률. ($k=1, 5, 10$ 등)
Best-of-N: 여러 번 생성한 결과물 중 가장 좋은 것을 선택했을 때의 성능.

에이전트 하네스에서 측정하는 주요 성능 지표(Metrics)와 그 의미를 상세히 살펴봅니다. 에이전트의 가치는 ‘얼마나 정확하게’, ‘얼마나 효율적으로’ 목표를 달성하느냐에 달려 있습니다.

1. Task Success Rate (SR, 성공률)

에이전트가 주어진 목표를 최종적으로 달성했는지를 평가하는 가장 핵심적인 지표입니다.

목표 달성을 위해 자원을 얼마나 사용했는지 측정합니다. 이는 실제 서비스 운영 비용과 직접적인 연관이 있습니다.

에이전트가 외부 도구를 얼마나 능숙하게 다루는지 평가합니다.

Tool Selection Accuracy: 주어진 상황에서 적절한 도구를 선택했는가?
Parameter Extraction Accuracy: 도구 호출 시 인자(Argument) 값을 정확한 타입과 포맷으로 추출했는가?
Sequence Integrity: 도구 호출의 순서(Sequence)가 논리적으로 타당했는가? (예: 파일을 열기 전에 먼저 존재 여부를 확인했는가?)

에이전트가 반복적으로 실행될 때 일관된 결과를 내는지 평가합니다.

주로 생성 기반 작업에서 무작위성을 고려하여 성능을 평가할 때 사용합니다.

Deterministic Match (결정론적 일치): 정답이 명확한 경우(예: 코드 테스트 통과 여부, 특정 DB 쿼리 결과) 프로그램이 직접 채점.
LLM-as-a-Judge: 정답이 정성적이거나 복잡한 경우, 더 강력한 모델(예: GPT-4o, Claude 3.7 Sonnet)이 에이전트의 사고 과정과 결과물을 채점.
Human-in-the-Loop (인간 평가): 최종적으로 인간 전문가가 에이전트의 작업물을 검토하고 점수를 부여. (가장 정확하지만 가장 느리고 비쌈)