비디오 생성 모델, 물리 세계 시뮬레이터로서의 가능성

저희는 비디오 데이터를 활용한 생성 모델의 대규모 훈련을 연구합니다. 구체적으로, 저희는 다양한 길이, 해상도, 화면 비율을 가진 비디오와 이미지를 동시에 사용하여 텍스트 조건부 확산 모델을 훈련합니다. 저희는 비디오 및 이미지 잠재 코드의 시공간 패치를 처리하는 트랜스포머 아키텍처를 활용합니다. 저희의 가장 큰 모델인 Sora는 1분 길이의 고품질 비디오를 생성할 수 있습니다. 저희의 결과는 비디오 생성 모델을 확장하는 것이 물리 세계의 범용 시뮬레이터를 구축하는 유망한 경로임을 시사합니다.