Programming Notes

인간 피드백 수집

작성자 WIPI 발행일 2026-06-10

RL-Teacher는 직접 설계된 보상 함수(hand-crafted reward functions) 대신, 간헐적인 인간의 피드백을 통해 AI를 학습시키는 인터페이스의 오픈 소스 구현체입니다. 이 기술의 근간은 안전한 AI 시스템을 구축하기 위한 일환으로 개발되었으나, 보상을 명확히 정의하기 어려운 강화 학습 문제에도 적용할 수 있습니다.