이론적 기반과 핵심 논문
1. ReAct 패러다임 (2022)
ReAct (Reasoning + Acting)는 Google Research에서 발표한 중요한 논문으로, 추론과 행동을 결합한 새로운 패러다임을 제시했습니다.
ReAct의 핵심 특징
- 추론 추적: 모델이 행동 계획을 유도하고 추적할 수 있게 함
- 외부 정보 통합: Wikipedia API 등을 통한 실시간 정보 검색
- 오류 처리: 예외 상황을 처리하고 계획을 수정할 수 있음
- 해석 가능성: 인간이 모델의 의사결정 과정을 이해할 수 있음
연구 결과
ReAct는 HotpotQA, Fever, ALFWorld 등 다양한 벤치마크에서 기존 방법들을 크게 개선했습니다. 특히 추론과 행동을 결합함으로써 모델의 성능과 신뢰성을 동시에 향상시켰습니다.
2. Toolformer (2023)
Meta AI에서 발표한 Toolformer는 언어 모델이 스스로 도구 사용법을 학습할 수 있다는 것을 보여준 획기적인 연구입니다.
Toolformer의 혁신적 접근
- 자기 지도 학습: 소수의 예시만으로 도구 사용법을 학습
- 다양한 도구 통합: 계산기, 검색엔진, 번역기, 캘린더 등
- 성능 향상: 훨씬 큰 모델인 GPT-3보다 우수한 성능
핵심 아이디어
Toolformer는 도구 사용을 위한 특별한 토큰을 도입하고, 모델이 이러한 토큰을 적절한 위치에 삽입하도록 학습시킵니다. 이를 통해 모델은 언제 어떤 도구를 사용해야 하는지 자동으로 판단할 수 있게 됩니다.
3. ToolLLM (2023)
ToolLLM은 16,000개 이상의 실제 API를 활용할 수 있는 도구 사용 프레임워크를 제시했습니다.
주요 특징
- 대규모 API 지원: RapidAPI Hub의 16,464개 실제 API 활용
- 깊이 우선 탐색: 다양한 추론 경로를 평가하는 알고리즘
- 자동 평가기: ToolEval을 통한 도구 사용 능력 평가
연구 의의
ToolLLM은 실제 API를 사용한 대규모 도구 사용 학습의 가능성을 보여주었으며, 도구 사용 능력 평가를 위한 새로운 벤치마크를 제시했습니다.
4. 추론 시간 스케일링과 System 2 사고 (2025~2026)
ReAct와 Toolformer의 개념은 현대의 추론 시간 스케일링(Inference-time Scaling) 기술로 완성되었습니다.
핵심 진화 포인트
- Internal Chain-of-Thought: 모델이 도구를 호출하기 전, 보이지 않는 곳에서 수백 개의 토큰을 사용하여 계획을 세우고(Reasoning) 자가 검증을 수행합니다.
- Verification via RL: 모델이 생성한 도구 호출 결과가 ‘정답’인지(예: 코드가 실행되는지)를 보상으로 사용하여 학습(RLVR)함으로써 신뢰성을 극대화합니다.
- Search vs. Prediction: 단순히 다음 단어를 예측하는 것이 아니라, 여러 도구 사용 경로 중 최적의 경로를 탐색(Search)하는 방식으로 작동합니다.
연구의 영향과 의의
이러한 연구들은 LLM이 단순한 텍스트 생성 도구를 넘어서 실제 세계와 상호작용할 수 있는 자율적 에이전트(Autonomous Agent)로 발전하는 이론적 토대가 되었습니다. 2026년 현재, 이러한 이론들은 MCP와 같은 표준 프로토콜과 결합하여 실질적인 에이전틱 운영체제(Agentic OS)의 구현으로 이어지고 있습니다.