Amazon Bedrock AgentCore가 추천 기능과 성능을 검증하는 두 가지 방법(배치 평가 및 A/B 테스트)을 출시합니다. 이를 통해 운영 환경의 AI 에이전트를 위한 '관찰, 평가, 개선' 루프가 완성되었습니다. 지금까지 평가 결과를 구체적이고 검증된 개선 사항으로 전환하려면 체계적인 접근 방식보다는 개발자의 수동 개입과 직관이 필요했습니다. 이제 추천 기능, 배치 평가, A/B 테스트를 통해 개발자는 평가 결과에 따라 실질적인 조치를 취할 수 있는 도구를 갖게 되었습니다.
모델이 진화하고 사용자 행동이 변화함에 따라 에이전트의 품질은 시간이 지나면서 서서히 저하됩니다. 추천 기능은 AgentCore에서 생성된 운영 트레이스(production traces)와 평가 결과물을 분석하여, 특정 워크로드에 맞춤화된 최적의 시스템 프롬프트와 도구 설명을 생성합니다. 그다음 배치 평가를 사용하여 미리 정의된 테스트 케이스에 대해 이러한 추천 사항을 검증합니다. A/B 테스트는 미리 정의된 테스트 세트나 실제 운영 트래픽을 대상으로 통제된 테스트를 실시하여 추천 사항을 추가로 검증하며, 변경 사항이 적용되기 전에 통계적 유의성을 보고합니다. 모든 추천 사항은 배포 전 사용자의 승인이 필요합니다. 이러한 기능들이 결합되어 에이전트의 성능 개선 주기를 완성합니다. 이제 에이전트는 단순히 실행되는 것에 그치지 않고, 사용자가 원하는 방식으로 지속적으로 발전합니다.
최적화 기능은 AgentCore Evaluations를 사용할 수 있는 모든 AWS 리전에서 사용할 수 있습니다. 자세한 내용은 AgentCore 문서를 참조하세요.