인간의 선호로부터 학습하기 | WIPI의 프로그래밍 및 기술 블로그

안전한 AI 시스템을 구축하기 위한 한 단계는 인간이 직접 목표 함수(goal functions)를 작성해야 할 필요성을 없애는 것입니다. 복잡한 목표에 대해 단순한 대리 지표(proxy)를 사용하거나 복잡한 목표를 조금이라도 잘못 설정하면, 바람직하지 않거나 심지어 위험한 행동으로 이어질 수 있기 때문입니다. DeepMind의 안전 팀과의 협업을 통해, 우리는 제시된 두 가지 행동 중 어느 것이 더 나은지 답변을 듣는 것만으로 인간이 무엇을 원하는지 추론할 수 있는 알고리즘을 개발했습니다.