목록으로

Programming Notes

비디오 사전 학습(VPT)을 통한 마인크래프트 플레이 학습하기

저희는 방대한 양의 라벨링되지 않은 인간의 마인크래프트 플레이 비디오 데이터셋과 소량의 라벨링된 데이터를 활용해, 비디오 사전 학습(Video PreTraining, VPT) 방식으로 마인크래프트를 플레이하는 신경망을 훈련시켰습니다. 미세 조정을 거친 이 모델은 숙련된 인간도 보통 20분(약 24,000번의 행동) 이상 소요되는 작업인 다이아몬드 도구 제작법을 익힐 수 있습니다. 저희 모델은 키보드 입력과 마우스 이동이라는 인간 고유의 인터페이스를 그대로 사용하기 때문에 범용성이 매우 뛰어나며, 이는 범용 컴퓨터 활용 에이전트(general computer-using agents)를 향한 중요한 진전이라 할 수 있습니다.