본문 바로가기
AI 빅데이터/후려치는 데이터분석과 AI 알고리즘

[데이터보안] LDP ( Local Differential Privacy)

by 마고커 2023. 1. 20.


데이터분석과 밀접하다면 밀접하지만, 딱히 데이터분석을 위한 것만은 아닌 기술 LDP(Local Differential Privacy, 지역 차등 프라이버시?). 이름만으로는 어떤 개념인지 아리송하다.

 

좀 이상하게 들릴 수 있지만, 아래 그림에서 사용자 인식을 위한 학습에서는 마지막 얼굴은 좀 어렵지만, 세번째 정도 노이즈가 섞인 데이터로 학습을 해도 얼굴 인식은 가능하다는 것이다.

그래도, 첫번째 이미지로 학습하는 것이 좋지 않나?라고 생각할 수 있는데, 여기에 데이터보안이라는 이슈가 걸린다. 기존의 모델에 새로운 데이터를 넣어 학습했는데 gradient가 많이 달라졌다면, 학습된 모델만 갖고도 누구의 데이터가 사용되었는지 아는 문제가 발생할 수도 있다는 것이다. 엄청 허황되게 들리지만, 이미 그런 연구가 많이 진행되어 있기도 해서 Federated Learning에서는 LDP 얘기가 심심치 않게 들린다고 한다. 

 

아래 그림에서 누가 AIDS 걸렸어라고 물어보면, 민감한 사항이라 제대로 대답하지 않을 것이다. 사실 물어보는 사람도 누가 걸렸는지 궁금한게 아니라 얼마나 많은 사람들이 AIDS 환자인지 알고싶은건데, 사용자 정보가 특정되어버린다. 

 

여기에 동전 던지기를 통해 데이터를 고의로 왜곡시키기로 하자. 앞면이면 무조건 사실이라고 얘기하고, 뒷면이면 한번 더 던져서 앞면이면 무조건 걸렸다고 하고, 뒷면이면 무조건 아니라고 이야기한다. 동전이 특수해서 무조건 앞면이 나온다면, 사실만을 말할 것이므로 전혀 프라이버시가 보장 되지 않는다. 반대로 무조건 뒷면만 나온다면 랜덤한 대답만 나올 것이므로 정보로써의 가치가 없어진다. 

앞면이 나올 확률을 적절히 조절(epsilon)하면 사용자를 특정하지 않으면서도, 원하는 결과를 얻을 수 있게 된다는 것이다(적절한 입실론 찾는 과정은 본 포스팅 범위를 넘어서고 이해도 잘). 유의할 점은 입실론을 아무리 잘 조절해도, 반복 실험을 통해 사용자 특정이 가능해진다는 것인데, 이를 방지하기 위해 최대 쿼리 숫자(Max Query Number)를 지정하기도 한다.

 

애플, 구글 등 IT 대기업은 LDP를 적극적으로 활용하는 것으로 알려져 있는데, 구글은 크롬에서 이상한 URL접근에 대한 안내를 위해, 애플은 이모지 추천, 단어 추천, Safari의 에너지 소모 사이트 안내 등에 활용하고 있다. 원시데이터를 활용하지 않기 때문에 사용자 동의가 필요없으면서도 사용자가 원하는 서비스를 제공할 수 있게 된다. 아래는 이모지 추천을 위한 데이터 수집과정 예시인데, 해쉬함수에 돌려 데이터를 새로 생성하고 거기에 노이즈를 더한 것에서 랜덤하게 샘플을 수집하여 서버로 보내 학습 시킨다. 

참고 링크

 

Learning with Privacy at Scale

Understanding how people use their devices often helps in improving the user experience. However, accessing the data that provides such…

machinelearning.apple.com

 

혁신과 데이터 보호간의 균형을 위한 차등 프라이버시 - AI타임스

빅데이터와 인공지능 학습 과정에서 개인정보보호의 중요성이 부각되면서 안전한 데이터 활용을 지원하는 차세대 개인정보보호 강화 기술 중 하나로 ‘차등 프라이버시(Differential Privacy)’에

www.aitimes.com

 

Differential Privacy 정리

 

zzaebok.github.io

 

Differential Privacy in APPLE

본문은 애플의 Differential Privacy Overview를 요약한 글입니다.

medium.com

 



댓글