데이터 레이크

정의
데이터 레이크(Data Lake)는 다양한 형식과 구조를 가진 원시 데이터를 그대로 저장하고, 필요에 따라 분석·처리할 수 있도록 하는 대규모 저장소를 의미한다. 전통적인 데이터 웨어하우스가 사전에 정형화된 스키마를 적용해 데이터를 저장하는 반면, 데이터 레이크는 스키마‑온‑리드(schema-on-read) 방식을 채택하여, 데이터를 저장할 때는 구조를 지정하지 않고, 추후 분석 시점에 스키마를 적용한다.

역사
데이터 레이크라는 용어는 2010년대 초반 클라우드 기반 빅데이터 플랫폼이 확산되면서 등장하였다. 특히 아마존 웹 서비스(AWS)의 Amazon S3와 같은 객체 저장소가 보급되면서 비용 효율적인 대용량 저장이 가능해졌고, 이를 기반으로 데이터 레이크 개념이 정립되었다. 이후 마이크로소프트 Azure Data Lake, 구글 클라우드 플랫폼(GCP)의 Cloud Storage 등 주요 클라우드 서비스 제공 업체들이 자체 데이터 레이크 솔루션을 발표하였다.

주요 특징

특징 설명
다양한 데이터 유형 구조화 데이터(예: 관계형 DB), 반구조화 데이터(예: JSON, XML), 비구조화 데이터(예: 로그, 이미지, 비디오) 등을 모두 수용한다.
스키마‑온‑리드 데이터 저장 시 스키마를 정의하지 않으며, 분석 시점에 필요한 스키마를 적용한다.
확장성 객체 스토리지 기반으로 페타바이트(PB) 수준까지 확장이 가능하며, 용량 증가에 따른 비용이 상대적으로 선형적이다.
저비용 저렴한 객체 스토리지를 이용해 대용량 데이터를 장기 보관한다.
통합 접근 데이터 과학, 머신러닝, 비즈니스 인텔리전스(BI) 등 다양한 분석 도구와 연동한다.

구조 및 구성 요소

  1. 스토리지 레이어 : Amazon S3, Azure Data Lake Storage, Google Cloud Storage 등 객체 스토리지를 사용한다.
  2. 데이터 카탈로그 : 메타데이터 관리와 데이터 검색을 지원한다. 예: AWS Glue Data Catalog, Azure Purview, Apache Hive Metastore.
  3. 처리 엔진 : Apache Spark, Presto, Hive, Flink 등 빅데이터 처리 프레임워크와 연동한다.
  4. 보안·거버넌스 : 접근 제어, 암호화, 데이터 라인리지(lineage) 등을 제공한다.

데이터 웨어하우스와의 비교

구분 데이터 레이크 데이터 웨어하우스
스키마 적용 시점 읽기 시점(스키마‑온‑리드) 저장 시점(스키마‑온‑쓰기)
데이터 형태 원시 데이터 포함 모든 형태 주로 정형화된 데이터
비용 저비용 객체 스토리지 중심 고성능 스토리지·연산에 비용 집중
활용 목적 탐색적 분석, 머신러닝, 원시 데이터 보관 정형화된 보고·대시보드, KPI 분석

장점

  • 유연성: 새로운 데이터 소스가 추가되어도 기존 구조를 변경할 필요가 없다.
  • 확장성: 스토리지와 컴퓨팅을 독립적으로 확장할 수 있다.
  • 다양한 활용: 데이터 과학, AI/ML, 실시간 스트리밍 분석 등 다양한 워크로드에 적용 가능하다.

단점 및 과제

  • 데이터 품질 관리: 스키마가 없기 때문에 비정형 데이터가 누적될 경우 ‘데이터 레이크 허드(Hard)’, ‘데이터 스왐프(Data Swamp)’가 될 위험이 있다.
  • 보안·거버넌스: 대규모 원시 데이터를 효과적으로 관리·감시하기 위한 정책과 도구가 필요하다.
  • 성능: 고성능 쿼리를 위해서는 데이터 레이크 위에 메타스토어와 인덱싱, 파티셔닝 등의 최적화가 필요하다.

주요 서비스 및 오픈소스 프로젝트

제공자/프로젝트 주요 특징
Amazon S3 + AWS Lake Formation 데이터 레이크 구축·보안·관리를 자동화.
Azure Data Lake Storage (ADLS) Gen2 파일 시스템 인터페이스와 객체 스토리지를 결합.
Google Cloud Storage + BigLake 멀티클라우드·멀티테넌시 지원.
Apache Hadoop Ecosystem (Hive, HDFS) 초기 데이터 레이크 구현 기반.
Delta Lake (Databricks) ACID 트랜잭션, 스키마 진화 등을 제공하는 오픈소스 레이어.
Apache Iceberg 테이블 포맷으로 데이터 레이크에 대한 고성능 쿼리와 관리 기능 제공.

관련 용어

  • 데이터 웨어하우스 : 정형화된 데이터 모델에 기반한 분석용 저장소.
  • 데이터 마트 : 특정 비즈니스 라인에 특화된 소규모 데이터 웨어하우스.
  • 데이터 파이프라인 : 데이터 레이크에 데이터를 수집·전처리·로드하는 일련의 흐름.
  • 데이터 카탈로그 : 메타데이터를 중앙 관리하고 검색을 지원한다.

참고 문헌

  1. AWS Documentation – Lake Formation. Amazon Web Services, 2023.
  2. Microsoft Docs – Azure Data Lake Storage Gen2 Overview. Microsoft, 2024.
  3. “Delta Lake: High-Performance Acidity for Data Lakes”, Databricks, 2022.
  4. “The Data Lakehouse Architecture”, IEEE Access, vol. 9, 2021.

위 내용은 2026년 현재 공개된 기술 문서와 학술 자료를 바탕으로 작성되었으며, 최신 서비스와 기능은 지속적으로 업데이트될 수 있다.

둘러보기

더 찾아볼 만한 주제