저희는 방대한 양의 라벨링되지 않은 인간의 마인크래프트 플레이 비디오 데이터셋과 소량의 라벨링된 데이터를 활용해, 비디오 사전 학습(Video PreTraining, VPT) 방식으로 마인크래프트를 플레이하는 신경망을 훈련시켰습니다. 미세 조정을 거친 이 모델은 숙련된 인간도 보통 20분(약 24,000번의 행동) 이상 소요되는 작업인 다이아몬드 도구 제작법을 익힐 수 있습니다. 저희 모델은 키보드 입력과 마우스 이동이라는 인간 고유의 인터페이스를 그대로 사용하기 때문에 범용성이 매우 뛰어나며, 이는 범용 컴퓨터 활용 에이전트(general computer-using agents)를 향한 중요한 진전이라 할 수 있습니다.
Programming Notes