평가 지표 및 방법론
에이전트 하네스에서 측정하는 주요 성능 지표(Metrics)와 그 의미를 상세히 살펴봅니다. 에이전트의 가치는 ‘얼마나 정확하게’, ‘얼마나 효율적으로’ 목표를 달성하느냐에 달려 있습니다.
1. Task Success Rate (SR, 성공률)
에이전트가 주어진 목표를 최종적으로 달성했는지를 평가하는 가장 핵심적인 지표입니다.
- Success (성공): 작업의 최종 결과가 기대치와 일치하거나, 모든 하위 작업이 문제없이 완료됨.
- Partial Success (부분 성공): 일부 목표는 달성했으나 완벽하지 않은 경우.
- Fail (실패): 오류가 발생하거나, 무한 루프에 빠지거나, 잘못된 결과물을 내놓음.
2. Efficiency Metrics (효율성 지표)
목표 달성을 위해 자원을 얼마나 사용했는지 측정합니다. 이는 실제 서비스 운영 비용과 직접적인 연관이 있습니다.
- Token Usage (토큰 사용량): 한 작업을 완료하는 데 소모된 총 토큰 수. (비용 효율성)
- Number of Turns (사고 회수): LLM이 추론과 실행을 반복한 횟수. (지연 시간/Latency)
- Time to Completion (소요 시간): 전체 작업이 완료되는 데 걸린 실제 시간.
3. Tool Usage Accuracy (도구 활용 정확도)
에이전트가 외부 도구를 얼마나 능숙하게 다루는지 평가합니다.
- Tool Selection Accuracy: 주어진 상황에서 적절한 도구를 선택했는가?
- Parameter Extraction Accuracy: 도구 호출 시 인자(Argument) 값을 정확한 타입과 포맷으로 추출했는가?
- Sequence Integrity: 도구 호출의 순서(Sequence)가 논리적으로 타당했는가? (예: 파일을 열기 전에 먼저 존재 여부를 확인했는가?)
4. Stability & Reliability (안정성 및 신뢰성)
에이전트가 반복적으로 실행될 때 일관된 결과를 내는지 평가합니다.
- Error Recovery (자가 수정): 도구 실행 결과 에러가 발생했을 때, 이를 분석하고 스스로 수정하여 재시도했는가?
- Consistency: 동일한 질문에 대해 매번 비슷한 성능을 보여주는가?
- Safety Violation: 에이전트가 금지된 명령을 실행하거나 보안 가이드라인을 위반하지 않았는가?
5. Statistical Metrics (통계적 지표)
주로 생성 기반 작업에서 무작위성을 고려하여 성능을 평가할 때 사용합니다.
- Pass@k: $k$번의 샘플 중 최소 하나 이상이 정답일 확률. ($k=1, 5, 10$ 등)
- Best-of-N: 여러 번 생성한 결과물 중 가장 좋은 것을 선택했을 때의 성능.
평가 방법론: 누가 평가하는가?
- Deterministic Match (결정론적 일치): 정답이 명확한 경우(예: 코드 테스트 통과 여부, 특정 DB 쿼리 결과) 프로그램이 직접 채점.
- LLM-as-a-Judge: 정답이 정성적이거나 복잡한 경우, 더 강력한 모델(예: GPT-4o, Claude 3.7 Sonnet)이 에이전트의 사고 과정과 결과물을 채점.
- Human-in-the-Loop (인간 평가): 최종적으로 인간 전문가가 에이전트의 작업물을 검토하고 점수를 부여. (가장 정확하지만 가장 느리고 비쌈)
지표 요약표
| 카테고리 | 핵심 지표 | 의미 |
|---|---|---|
| 목표 달성 | Success Rate | 최종 성공 여부 |
| 비용 및 속도 | Tokens, Turns | 운영 효율성 및 사용자 경험 |
| 기술적 정확도 | Tool Call Acc | API 및 도구 활용 능력 |
| 신뢰성 | Error Recovery | 문제 해결 및 복구 능력 |
| 통계적 성능 | Pass@k | 일반화된 성능 수준 |