목록으로

Programming Notes

멀티모달 평가자: Strands Evals의 이미지-텍스트 작업을 위한 MLLM-as-a-judge

비주얼 쇼핑, 이미지 또는 문서 이해, 또는 차트 분석 기능을 구축하고 있다면, 모델의 응답이 실제 원본 이미지에 제대로 근거(grounding)하고 있는지 검증할 방법이 필요합니다. 텍스트 전용 평가자는 캡션이 이미지를 충실하게 묘사하는지, 추출된 송장 합계가 실제 문서와 일치하는지, 또는 화면 요약이 [...] 인지 여부를 판단할 수 없습니다.