정의
데이터 레이크(Data Lake)는 다양한 형식과 구조를 가진 원시 데이터를 그대로 저장하고, 필요에 따라 분석·처리할 수 있도록 하는 대규모 저장소를 의미한다. 전통적인 데이터 웨어하우스가 사전에 정형화된 스키마를 적용해 데이터를 저장하는 반면, 데이터 레이크는 스키마‑온‑리드(schema-on-read) 방식을 채택하여, 데이터를 저장할 때는 구조를 지정하지 않고, 추후 분석 시점에 스키마를 적용한다.
역사
데이터 레이크라는 용어는 2010년대 초반 클라우드 기반 빅데이터 플랫폼이 확산되면서 등장하였다. 특히 아마존 웹 서비스(AWS)의 Amazon S3와 같은 객체 저장소가 보급되면서 비용 효율적인 대용량 저장이 가능해졌고, 이를 기반으로 데이터 레이크 개념이 정립되었다. 이후 마이크로소프트 Azure Data Lake, 구글 클라우드 플랫폼(GCP)의 Cloud Storage 등 주요 클라우드 서비스 제공 업체들이 자체 데이터 레이크 솔루션을 발표하였다.
주요 특징
| 특징 | 설명 |
|---|---|
| 다양한 데이터 유형 | 구조화 데이터(예: 관계형 DB), 반구조화 데이터(예: JSON, XML), 비구조화 데이터(예: 로그, 이미지, 비디오) 등을 모두 수용한다. |
| 스키마‑온‑리드 | 데이터 저장 시 스키마를 정의하지 않으며, 분석 시점에 필요한 스키마를 적용한다. |
| 확장성 | 객체 스토리지 기반으로 페타바이트(PB) 수준까지 확장이 가능하며, 용량 증가에 따른 비용이 상대적으로 선형적이다. |
| 저비용 | 저렴한 객체 스토리지를 이용해 대용량 데이터를 장기 보관한다. |
| 통합 접근 | 데이터 과학, 머신러닝, 비즈니스 인텔리전스(BI) 등 다양한 분석 도구와 연동한다. |
구조 및 구성 요소
- 스토리지 레이어 : Amazon S3, Azure Data Lake Storage, Google Cloud Storage 등 객체 스토리지를 사용한다.
- 데이터 카탈로그 : 메타데이터 관리와 데이터 검색을 지원한다. 예: AWS Glue Data Catalog, Azure Purview, Apache Hive Metastore.
- 처리 엔진 : Apache Spark, Presto, Hive, Flink 등 빅데이터 처리 프레임워크와 연동한다.
- 보안·거버넌스 : 접근 제어, 암호화, 데이터 라인리지(lineage) 등을 제공한다.
데이터 웨어하우스와의 비교
| 구분 | 데이터 레이크 | 데이터 웨어하우스 |
|---|---|---|
| 스키마 적용 시점 | 읽기 시점(스키마‑온‑리드) | 저장 시점(스키마‑온‑쓰기) |
| 데이터 형태 | 원시 데이터 포함 모든 형태 | 주로 정형화된 데이터 |
| 비용 | 저비용 객체 스토리지 중심 | 고성능 스토리지·연산에 비용 집중 |
| 활용 목적 | 탐색적 분석, 머신러닝, 원시 데이터 보관 | 정형화된 보고·대시보드, KPI 분석 |
장점
- 유연성: 새로운 데이터 소스가 추가되어도 기존 구조를 변경할 필요가 없다.
- 확장성: 스토리지와 컴퓨팅을 독립적으로 확장할 수 있다.
- 다양한 활용: 데이터 과학, AI/ML, 실시간 스트리밍 분석 등 다양한 워크로드에 적용 가능하다.
단점 및 과제
- 데이터 품질 관리: 스키마가 없기 때문에 비정형 데이터가 누적될 경우 ‘데이터 레이크 허드(Hard)’, ‘데이터 스왐프(Data Swamp)’가 될 위험이 있다.
- 보안·거버넌스: 대규모 원시 데이터를 효과적으로 관리·감시하기 위한 정책과 도구가 필요하다.
- 성능: 고성능 쿼리를 위해서는 데이터 레이크 위에 메타스토어와 인덱싱, 파티셔닝 등의 최적화가 필요하다.
주요 서비스 및 오픈소스 프로젝트
| 제공자/프로젝트 | 주요 특징 |
|---|---|
| Amazon S3 + AWS Lake Formation | 데이터 레이크 구축·보안·관리를 자동화. |
| Azure Data Lake Storage (ADLS) Gen2 | 파일 시스템 인터페이스와 객체 스토리지를 결합. |
| Google Cloud Storage + BigLake | 멀티클라우드·멀티테넌시 지원. |
| Apache Hadoop Ecosystem (Hive, HDFS) | 초기 데이터 레이크 구현 기반. |
| Delta Lake (Databricks) | ACID 트랜잭션, 스키마 진화 등을 제공하는 오픈소스 레이어. |
| Apache Iceberg | 테이블 포맷으로 데이터 레이크에 대한 고성능 쿼리와 관리 기능 제공. |
관련 용어
- 데이터 웨어하우스 : 정형화된 데이터 모델에 기반한 분석용 저장소.
- 데이터 마트 : 특정 비즈니스 라인에 특화된 소규모 데이터 웨어하우스.
- 데이터 파이프라인 : 데이터 레이크에 데이터를 수집·전처리·로드하는 일련의 흐름.
- 데이터 카탈로그 : 메타데이터를 중앙 관리하고 검색을 지원한다.
참고 문헌
- AWS Documentation – Lake Formation. Amazon Web Services, 2023.
- Microsoft Docs – Azure Data Lake Storage Gen2 Overview. Microsoft, 2024.
- “Delta Lake: High-Performance Acidity for Data Lakes”, Databricks, 2022.
- “The Data Lakehouse Architecture”, IEEE Access, vol. 9, 2021.
위 내용은 2026년 현재 공개된 기술 문서와 학술 자료를 바탕으로 작성되었으며, 최신 서비스와 기능은 지속적으로 업데이트될 수 있다.