DALL·E는 미국 인공지능 연구 기업인 OpenAI가 개발한 텍스트‑이미지 생성 모델이다. 사용자가 자연어로 기술한 문장을 입력하면, 해당 문장을 시각적으로 표현한 이미지를 자동으로 생성한다. 모델명은 스페인 초현실주의 화가 살바도르 달리(Salvador Dalí)와 픽사·디즈니의 애니메이션 영화 WALL·E의 합성어에서 유래하였다.
개요
- 개발·출시: 2021년 1월, OpenAI가 논문과 함께 공개하였다.
- 핵심 기술: 텍스트와 이미지를 동시에 다루는 변형 트랜스포머(Transformer) 구조와 VQ‑VAE(벡터 양자화 변분 오토인코더)를 결합한 방식으로, 텍스트 프롬프트를 이미지 토큰 시퀀스로 변환한다.
- 학습 데이터: 수억 개의 이미지‑텍스트 쌍으로 구성된 데이터셋을 사용하여 사전 학습하였다. (구체적인 데이터셋 구성은 공개되지 않았다.)
주요 특징
| 특징 | 설명 |
|---|---|
| 텍스트‑이미지 매핑 | 자연어 문장을 입력받아 해당 의미를 반영한 이미지를 생성한다. |
| 다양한 스타일 및 구성 | 동일한 프롬프트에 대해 여러 버전의 이미지를 생성할 수 있다. |
| 제로샷(Zero‑shot) 능력 | 사전에 별도 학습 없이도 새로운 개념을 이해하고 시각화한다. |
버전
-
DALL·E (1세대)
- 12억 파라미터 규모의 트랜스포머 모델을 사용.
- 이미지 해상도는 256 × 256 픽셀.
-
DALL·E 2
- 2022년 4월에 공개.
- 기본 구조는 CLIP(Contrastive Language‑Image Pre‑training)과 Diffusion 모델을 결합한 형태이며, 고해상도(1024 × 1024) 이미지 생성이 가능.
- “프로그레시브 가이드” 방식을 도입해 텍스트와 이미지 사이의 일관성을 향상시켰다.
공개 및 활용
- API 제공: OpenAI는 DALL·E와 DALL·E 2에 대한 API를 유료 서비스 형태로 제공하고 있다.
- 상업적·비상업적 활용: 광고, 디자인, 교육, 예술 창작 등에 활용되며, 저작권 및 윤리적 논쟁이 지속적으로 제기되고 있다.
논란 및 비판
- 저작권 문제: 모델 학습에 사용된 이미지가 저작권이 있는 자료를 포함하고 있는지 여부가 불분명하다는 비판이 있다.
- 편향성: 학습 데이터의 편향으로 인해 특정 인구집단이나 문화에 대한 부정확하거나 스테레오타입적인 이미지가 생성될 수 있다.
- 악용 가능성: 허위 이미지·가짜 뉴스 제작 등에 악용될 위험성을 지적하는 의견이 있다.
관련 연구 및 파생 모델
- Imagen(Google), Stable Diffusion(Stability AI), Midjourney 등과 같이 텍스트‑이미지 생성 기술을 확장하거나 변형한 다양한 모델이 이후에 발표되었다.
- OpenAI는 DALL·E에 대한 지속적인 연구를 통해 이미지 편집, 이미지‑이미지 변환 등 추가 기능을 탐구하고 있다.
참고 사항
- 본 항목에 기술된 내용은 OpenAI가 공개한 공식 발표 및 논문, 그리고 신뢰할 수 있는 보도 자료를 기반으로 작성하였다.
- 모델의 내부 구현 세부 사항이나 최신 업데이트에 관한 구체적인 정보는 공개 범위에 따라 제한될 수 있다.