GPT OSS 모델 미세 조정 경험이 있으신가요? | WIPI의 프로그래밍 및 기술 블로그

안녕하세요, Affine이라는 플랫폼을 알게 되었습니다. 이곳은 매일 열리는 강화 학습 대회인데, 저도 참가하고 있습니다. 특히 협력을 구하고 싶은 부분은 평가에서 좋은 점수를 얻기 위해 GPT OSS 모델을 미세 조정하는 것입니다.

혹시 이곳에서 아이디어를 함께 '캐내거나'(mining) 전략을 공유하는 것에 관심 있는 분이 계실까요? 이곳 분들이 좋은 강화 학습 노하우(tricks)를 많이 가지고 계실 거라고 생각합니다.

이 모델들은 검증자들이 파레토 최적 해(Pareto frontier)를 선점하는 모델을 찾는 여러 강화 학습 환경들에서 평가됩니다. 저는 특히 코딩 추론 환경(coding deduction environment)과 새로 만들어진 ELR 환경에서의 개선 사항을 살펴보고 싶습니다. 여기에 GPT OSS 모델을 사용하고 싶지만, GRPO 환경에서 이 모델들을 미세 조정하기가 어렵습니다.

Affine에 대해 제가 찾은 정보는 다음과 같습니다:

https://www.reddit.com/r/reinforcementlearning/comments/1mnq6i0/comment/n86sjrk/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button