정의
k-익명성(k‑anonymity)은 개인정보가 포함된 데이터 집합을 공개하거나 공유할 때, 각각의 레코드가 최소 k 개의 레코드와 구분되지 않도록 하는 개인정보 보호 모델이다. 즉, 특정 개인을 식별할 수 있는 모든 조합(준식별자)으로부터 그 개인이 최소 k 명 중 하나로만 인식되도록 보장한다.
개요
k-익명성은 데이터 마이닝·통계 분석·연구 목적으로 개인식별 정보를 포함한 데이터베이스를 외부에 제공해야 할 경우, 개인의 프라이버시를 보호하면서도 데이터의 활용 가치를 유지하기 위한 기법이다. 이를 구현하기 위해 일반적으로 *일반화(generalization)*와 *삭제(suppression)라는 두 가지 방법이 사용된다. 일반화는 특정 속성 값을 보다 포괄적인 범주로 바꾸는 것이고, 삭제는 해당 속성 값을 완전히 제거하거나 “” 등으로 대체하는 것이다. k‑값은 보통 2 이상으로 설정되며, k가 클수록 익명성이 강화되지만 데이터 유용성은 감소한다.
어원/유래
k‑anonymity라는 용어는 2002년 라타냐 스위니(Latanya Sweeney)가 제안한 개념에서 유래한다. 영어 원어인 “k‑anonymity”에서 “k”는 “k‑size anonymity set”(k‑명 집합)이라는 의미로, 각 레코드가 최소 k 개의 레코드와 구분되지 않음을 나타낸다. 한국어 표기 “k‑익명성”은 영어 원어의 직역 형태이며, 학술 논문·전문 서적·정부 가이드라인 등에서 널리 사용된다.
특징
| 구분 | 내용 |
|---|---|
| 목표 | 개인 식별 가능성을 최소 k 명으로 제한하여 프라이버시 보호 |
| 대상 | 데이터베이스 내의 준식별자(예: 연령, 성별, 주소, 직업 등) |
| 구현 기법 | • 일반화: 세부 값을 더 넓은 범주(예: 1990‑1999년 → 1990년대)로 변환 • 삭제: 특정 값 삭제 또는 ‘*’, ‘?’ 등으로 대체 |
| 보장 조건 | 모든 레코드에 대해 동일한 준식별자 조합이 나타나는 레코드 수 ≥ k |
| 제한점 | • 동질성 공격(Homogeneity Attack)·배경지식 공격(Background Knowledge Attack) 등으로 식별 위험이 남을 수 있음 • 데이터 유용성 저하(특히 k가 클 경우) |
| 보완 모델 | • l‑다양성(l‑diversity), t‑근접성(t‑closeness) 등은 k‑익명성의 한계를 보완하기 위해 고안된 확장 모델 • 차등 개인정보 보호(differential privacy)는 전혀 다른 접근법을 제공 |
관련 항목
- l‑다양성: k‑익명성에서 동일한 민감속성 값이 다수 존재하도록 요구하는 모델
- t‑근접성: 민감속성 분포가 전체 집합과 일정 거리 이내가 되도록 하는 모델
- 차등 개인정보 보호: 데이터에 무작위 잡음을 추가해 개인 식별 가능성을 수학적으로 제한하는 기법
- 준식별자(Quasi‑identifier): 직접적으로는 개인을 식별할 수 없지만, 다른 정보와 결합하면 식별이 가능한 속성
- 데이터 비식별화(De‑identification): k‑익명성을 포함한 다양한 기술을 총칭하는 용어
- 개인정보 보호법: 한국의 개인정보 보호 규정에서 비식별화·익명화 기준을 규정함
※ 본 항목은 2024년 현재까지 확인된 학술·산업·법률 자료를 기반으로 작성되었으며, 최신 연구 동향에 따라 내용이 추가·수정될 수 있다.