데이터 법

프라이버시 모델 (k-익명성,ㅣ-다양성, t-근접성)

오현섭 2022. 3. 18. 12:55
반응형

Privacy Model

1.K-익명성

-데이터의 일회성 제공시 제공되는 데이터에 대해 준 식별자에 대한 레코드 연결공격에 대한 위험성을 판단하는 모델

-모든 프라이버시 보호 모델중 직관적인 수치 제공

출처  : KISA

K-익명성에서 준식별자에만 비 식별처리

-분석의 목적이 질병과 관련된 연구의 경우 비식별처리를 하면 분석 목적의 달성이 불가능해짐

-준식별자는 대부분 분석 대상의 분류와 관계가 있고, 집단으로 묶어서 분석 수행

 

K-익명성의 문제점

-배경지식 공격 : 분석자가 가지고 있는 배경지식을 통해 동질집합에 대해 개인을 식별을 막을 수 없음

-동질성 공격 : 공격자가 관심있는 속성값이 모두 동일한 값을 가지고 있어 동질 집합이 가지고 있는

         개인의 속성을 식별할 수 있는 공격에 대해 막을 수 없음

 

2 .L다양성

-속성정보의 취약점을 이용하는 배경지식공격이나 동질성 공격을 막기위한 프라이버시 보호모델

-동질 집합 내의 속성의 값을 L개 이상으로 다양하게 하여 공격을 방어

L-다양성 적용시 고려할 점

-K-익명성을 달리 추가적인 비식별이 필요하다,

 L-다양성을 만족하지 못하는 레코드에 대해 제거처리

 L-다양성을 만족하게 하기 위해 준식별자에 대한 추가적인 비식별 처리 적용

 

L-다양성의 문제점

-L-다댱성을 적용된 테이블에 대해 유사성공격에 취약함

-유사성 공격 : 동질 클래스를 구성하는 레크드의 민감 속성 값이 서로 비슷한 의미를 가지고 개인의 특성 파악

 

3.T 근접성

-유사성 공격을 막기 위해 원본테이블과 동질 클래스의 민감한 속성 값의 분포가 얼마나 가까운지 계산하여

  지정된 값 이상인 경우 사용하는 모델

-일반적으로 Earth Mover's Distance 사용하여 거리를 계산

-조치 전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워졌으며 t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익 명성의 방어가 더 강해지는 경향

- EMD는 분포 질량을 서로 이동하여 하나의 분포를 다른 분포로 변환하는 데 필요한 최소 작업 량을 기반으로 합니다.