이 게시물에서는 두 가지 문제를 모두 해결하기 위해 저희가 구축한 오픈 소스 프레임워크인 Nova Sonic Test Harness를 소개합니다. 이 도구는 시스템 프롬프트와 도구 구성을 미세 조정하기 위한 빠른 반복 도구(대화 실행, 결과 확인, 조정, 반복 과정)이자, 대규모로 음성 에이전트의 품질을 검증하기 위한 종합적인 평가 프레임워크 역할을 합니다.
Nova Sonic Test Harness는 Amazon Nova Sonic과의 전체 멀티턴(multi-turn) 대화를 자동으로 실행하고, 'LLM-as-judge(판사로서의 LLM)' 기법을 사용하여 이를 평가하며, 모델의 오디오 출력이 텍스트 출력과 일치하지 않는 경우(오디오 환각)까지 감지할 수 있습니다. 이 모든 과정에 마이크는 전혀 필요하지 않습니다.