목록으로

Programming Notes

Agent-EvalKit으로 AI 에이전트를 체계적으로 평가하기

Agent-EvalKit은 Claude Code, Kiro CLI, Kilo Code를 포함한 AI 코딩 어시스턴트와 통합하여 평가 인프라를 구축할 수 있도록 지원하는 오픈 소스 툴킷(Apache 2.0)입니다. 본 포스팅에서는 Strands 에이전트 SDK와 Amazon Bedrock을 사용하여 구축된 여행 리서치 에이전트를 실무 예제로 활용하여, Agent-EvalKit의 6단계 평가 프로세스가 어떻게 작동하는지 상세히 살펴봅니다.