대규모 언어 모델(LLM)의 성능 평가는 퍼플렉서티(perplexity) 또는 BLEU(bilingual evaluation understudy) 점수와 같은 통계적 지표를 넘어섭니다. 대부분의 실제 생성형 AI 시나리오에서는 모델이 기준선(baseline)이나 이전 버전보다 더 나은 결과물을 생성하는지 이해하는 것이 중요합니다. 이는 특히 요약, 콘텐츠 생성과 같은 애플리케이션에서 중요합니다. [...]
Programming Notes
프로그래밍과 기술 이슈를 빠르게 정리하는 개발 블로그
Programming Notes
대규모 언어 모델(LLM)의 성능 평가는 퍼플렉서티(perplexity) 또는 BLEU(bilingual evaluation understudy) 점수와 같은 통계적 지표를 넘어섭니다. 대부분의 실제 생성형 AI 시나리오에서는 모델이 기준선(baseline)이나 이전 버전보다 더 나은 결과물을 생성하는지 이해하는 것이 중요합니다. 이는 특히 요약, 콘텐츠 생성과 같은 애플리케이션에서 중요합니다. [...]