대규모 언어 모델(LLM)의 성능 평가는 퍼플렉서티(perplexity) 또는 BLEU(bilingual evaluation understudy) 점수와 같은 통계적 지표를 넘어섭니다. 대부분의 실제 생성형 AI 시나리오에서는 모델이 기준선(baseline)이나 이전 버전보다 더 나은 결과물을 생성하는지 이해하는 것이 중요합니다. 이는 특히 요약, 콘텐츠 생성과 같은 애플리케이션에서 중요합니다. [...]
Programming Notes
Amazon SageMaker AI에서 Amazon Nova LLM-as-a-Judge를 활용한 생성형 AI 모델 평가
대규모 언어 모델(LLM)의 성능 평가는 퍼플렉서티(perplexity) 또는 BLEU(bilingual evaluation understudy) 점수와 같은 통계적 지표를 넘어섭니다. 대부분의 실제 생성형 AI 시나리오에서는 모델이 기준선(baseline)이나 이전 버전보다...