목록으로

Programming Notes

Amazon SageMaker AI에서 Amazon Nova LLM-as-a-Judge를 활용한 생성형 AI 모델 평가

대규모 언어 모델(LLM)의 성능 평가는 퍼플렉서티(perplexity) 또는 BLEU(bilingual evaluation understudy) 점수와 같은 통계적 지표를 넘어섭니다. 대부분의 실제 생성형 AI 시나리오에서는 모델이 기준선(baseline)이나 이전 버전보다...

대규모 언어 모델(LLM)의 성능 평가는 퍼플렉서티(perplexity) 또는 BLEU(bilingual evaluation understudy) 점수와 같은 통계적 지표를 넘어섭니다. 대부분의 실제 생성형 AI 시나리오에서는 모델이 기준선(baseline)이나 이전 버전보다 더 나은 결과물을 생성하는지 이해하는 것이 중요합니다. 이는 특히 요약, 콘텐츠 생성과 같은 애플리케이션에서 중요합니다. [...]