저희는 비디오 데이터를 활용한 생성 모델의 대규모 훈련을 연구합니다. 구체적으로, 저희는 다양한 길이, 해상도, 화면 비율을 가진 비디오와 이미지를 동시에 사용하여 텍스트 조건부 확산 모델을 훈련합니다. 저희는 비디오 및 이미지 잠재 코드의 시공간 패치를 처리하는 트랜스포머 아키텍처를 활용합니다. 저희의 가장 큰 모델인 Sora는 1분 길이의 고품질 비디오를 생성할 수 있습니다. 저희의 결과는 비디오 생성 모델을 확장하는 것이 물리 세계의 범용 시뮬레이터를 구축하는 유망한 경로임을 시사합니다.
Programming Notes