Amazon SageMaker AI에서 SFT 및 DPO를 사용하여 에이전트의 도구 호출 정확도 향상하기

이 게시물에서는 지도 미세 조정(SFT, Supervised Fine-Tuning)과 직접 선호도 최적화(DPO, Direct Preference Optimization)를 함께 사용하여 소형 언어 모델(SLM)의 도구 호출(tool-calling) 정확도를 향상하는 방법을 알아봅니다. 이 예제에서는 Amazon SageMaker AI 훈련 작업을 사용하므로, 훈련 인프라를 직접 관리하는 번거로움 없이 훈련 코드에만 집중할 수 있습니다. 또한 도구 호출 정확도를 평가하고 베이스 모델을 여러 미세 조정 변체와 비교하는 방법을 학습하여, 모델 품질에 대해 데이터에 기반한 의사 결정을 내릴 수 있습니다.