Agent Harness

개요

Agent Harness는 LLM 기반 에이전트의 성능을 객관적으로 측정하고 평가하기 위해 설계된 표준화된 테스트 환경 및 실행 프레임워크를 의미합니다. 단순히 모델의 지식을 묻는 일반적인 LLM 벤치마크와 달리, 에이전트 하네스는 모델이 도구(Tools)를 어떻게 활용하고, 복잡한 작업을 어떻게 계획하며, 환경과 상호작용하여 목표를 달성하는지 등 ‘실행 능력(Agency)’을 평가하는 데 집중합니다.

왜 Agent Harness가 필요한가?

정적 지식 vs 동적 실행: 기존 벤치마크(MMLU 등)는 모델의 지식을 평가하지만, 실제 서비스에서는 모델이 API를 호출하고 파일을 수정하는 능력이 더 중요합니다.
다회차 상호작용(Multi-turn Interaction): 에이전트는 한 번의 응답이 아니라 여러 번의 사고 루프를 거치며 문제를 해결해야 하므로, 이를 추적하고 평가할 환경이 필요합니다.
도구 활용의 정확성: 함수 호출(Function Calling) 시 인자를 올바르게 추출하고, 실행 결과에 따라 다음 행동을 결정하는 능력을 정밀하게 측정해야 합니다.
안전한 격리 환경: 에이전트가 실제 시스템을 조작할 수 있으므로, 샌드박스 환경에서 안전하게 테스트할 수 있는 기반이 필요합니다.

학습 내용

이 섹션에서는 에이전트 하네스의 구성 요소부터 주요 프레임워크, 그리고 효과적인 평가 지표를 다룹니다.

1. 에이전트 하네스의 구성 요소

학습 목표: 하네스를 구성하는 핵심 논리 이해

System Prompt & Persona: 에이전트의 역할 정의
Tool Definitions (Schema): 에이전트가 사용할 수 있는 도구의 명세
Environment Sandbox: 에이전트가 작업을 수행할 격리된 공간
Loop Control: 에이전트의 사고(Reasoning)와 실행(Action) 주기 관리

2. 주요 에이전트 평가 프레임워크

학습 목표: 업계에서 널리 사용되는 하네스 도구 파악

lm-evaluation-harness (EleutherAI): LLM 평가의 표준 CLI 도구
AgentBench: OS, DB, Web 등 다양한 환경에서의 에이전트 평가 프레임워크
ToolBench: 도구 사용 능력 및 API 오케스트레이션 평가 특화
HumanEval / MBPP: 코딩 에이전트의 기능적 정확성 측정

3. 평가 지표 및 방법론

학습 목표: 에이전트의 성능을 어떤 기준으로 측정할 것인가?

Task Success Rate (SR): 목표 달성 성공률
Efficiency Metrics: 토큰 사용량, 소요 시간, 사고 회수(Turns)
Tool Call Accuracy: API 호출의 정확도 및 인자 추출 능력
Pass@k: 코딩 작업에서의 성공 확률 통계

4. 실전 하네스 구축 가이드

학습 목표: 자신의 서비스에 맞는 커스텀 하네스 설계 방법 습득

테스트 케이스 설계 및 데이터셋 구축
LLM-as-a-Judge를 활용한 정성적 평가 자동화
샌드박스 보안 및 결과 로깅 전략

최신 연구 동향: 관측 가능성 기반 하네스 자동 진화

2026년 4월 발표된 연구 “Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses” (arXiv:2604.25850)는 사람이 개입하지 않고도 하네스 구성요소(시스템 프롬프트, 도구, 미들웨어)를 자율적으로 진화시키는 알고리즘을 제안했습니다.

이 시스템은 세 가지 관측 계층을 도입합니다:

컴포넌트 관측성: 단일 구성요소의 성능 매핑
경험 관측성: 실행 데이터 코퍼스의 인덱싱 및 분석
결정 관측성: 예측과 검증을 결합한 매니페스트 기반 판단

10회의 진화 이터레이션 후 Terminal-Bench 2의 Pass@1 성공률이 69.7%에서 77.0%로 상승했으며, 이는 사람이 직접 설계한 최고 수준의 하네스(Codex-CLI, 71.9%)를 압도합니다. 특히 성과의 핵심이 시스템 프롬프트 텍스트 교체가 아닌 도구 및 미들웨어 구조의 진화에 집중된 점이 주목됩니다. 실제 적용 사례로 Hermes Agent의 자가 진화 스킬 추출 메커니즘을 참고할 수 있습니다.

학습 효과

객관적 성능 지표 확보: 개발 중인 에이전트의 능력을 데이터 기반으로 파악하여 개선 방향 설정
신뢰성 있는 에이전트 구축: 다양한 엣지 케이스에서의 에이전트 동작을 검증하여 서비스 안정성 확보
최신 벤치마크 트렌드 파악: 빠르게 변화하는 에이전트 평가 기술을 습득하여 업계 표준에 부합하는 시스템 설계