목록으로

Programming Notes

AWS에서 LangSmith를 활용한 딥 에이전트(Deep Agents) 평가하기

이 포스트는 딥 에이전트 평가에 관한 LangChain의 연구 결과와 AI 에이전트 평가의 모호함을 해소하기 위한 Anthropic의 가이드를 결합하여 실무적인 지침을 제공합니다. 이 글을 통해 여러분은 다음의 내용을 배우게 됩니다:

  1. 딥 에이전트를 위한 5가지 평가 패턴 적용 방법
  2. pytest와 LangSmith를 사용한 오프라인 평가 구축 방법
  3. 프로덕션 환경을 위한 온라인 모니터링 설정 방법

이 가이드에서는 Amazon Bedrock 기반의 텍스트-to-SQL(text-to-SQL) 딥 에이전트를 예시로 활용하여, 초기 개발부터 실제 운영 단계까지의 전체 라이프사이클을 상세히 살펴봅니다.