전산 관련 시험/디지털(IT) 시사용어

합성데이터 개념, 장점, 한계

응_비 2022. 10. 30. 19:44

실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용해 추정된 모형에서 새롭게 생성한 모의데이터(Simulated Data)를 말합니다.

더보기

합성 데이터

https://blog.linewalks.com/archives/7456

 

» 합성 데이터(Synthetic Data)의 정의와 실활용사례

라인웍스는 방대한 의료데이터속에 숨겨진 무한한 가치를 발견하는 헬스케어 빅데이터 스타트업입니다.

blog.linewalks.com

원본 데이터의 통계적 변수 분포와 상관관계 등을 모방한 합성 데이터(재현 데이터)는 고질적인 데이터 병목현상을 해소할 수 있다.

 

합성 데이터의 장점은 무엇일까?

AI 모델을 훈련시킬 때는 정확히 레이블(label)된 풍부한 데이터 세트가 필요하다. 더욱 다양한 데이터로 훈련한다면 더 높은 정확도를 달성할 수 있지만 수백만 개의 대규모 데이터를 수집하고 레이블을 지정하는 작업에는 막대한 시간과 비용이 필요하다. 게다가, 실제 데이터(real-world data)는 AI 모델의 훈련에 적합하지 않은 경우도 많다. 직접 관찰하여 얻은 데이터보다 합성 데이터가 가치 있다니 언뜻 보기에 모순적으로 들릴 것이다.

실제 데이터는 물론 좋은 통찰력을 제공하지만, 실제 데이터는 우연에 좌우되는 경우가 많고 현실 세계에서 가능한 모든 조건이나 사건의 순열을 포함하지 않는다. 게다가 실제 데이터는 개인정보 보호 규정으로 인해 데이터 전처리 과정(preprocessing)에 비용이 많이 들고 엉망인 상태(messy)이거나 오염된 경우가 많다.

실제 데이터에는 부정확한 요소들과 편향(bias)까지도 포함되어 있기 때문에 데이터 정제(data cleansing) 과정을 거치지 않으면 신경망에 오히려 악영향을 미칠 수가 있다. 즉, 실제 데이터를 수집한 이후에는 데이터 전처리 과정을 거쳐서 개인 정보를 제거하고, 오류를 걸러내고 서로 다른 데이터 형식들도 통일해야만 한다. 이 과정은 번거롭고 비용을 증가시킨다.

저명한 벤처 투자가 롭 토우(Rob Toews)는 이 문제를 정확히 지적했다. AI 모델을 구축하는 많은 기업들이 이미지 레이블링 작업에 해마다 수천만 달러가 넘는 돈을 쏟아붓고 있지만 그것이 실제로100% 정확하리라는 보장이 없다고 말한다. 반면, 합성 데이터를 사용하여 AI모델을 훈련시킨다면 더욱 더 균일한 데이터 형식과 레이블을 유지할 수 있으므로 실제 데이터의 효과적인 보완책이나 대안으로 여겨지고 있다.  

훈련용 데이터의 공급

합성 데이터는 레이블이 지정된 훈련 데이터를 거의 무제한으로 생성하여 심층 신경망(DNN, Deep Neural Network)에 공급할 수 있다. 또한 합성 데이터를 사용한 심층 신경망 훈련은 실제 데이터로 훈련시키는 경우에 비해 더 적은 비용이 들어간다. 합성 데이터의 확장성도 매력적인 요소이다. 머신러닝 모델을 훈련하고 테스트하는 데 필요한 데이터를 확보하는 일은 까다로운 과정이 요구되지만 합성 데이터는 생성과 사용이 더 간단하다.

예컨대, 간 병변 데이터 이미지만가 적은 분량만 있다면 질병 진단용 AI 모델을 훈련시켜도 예측의 정확도가 떨어지는 문제가 있었다. 그런데 의료용 합성 데이터를 AI 모델의 훈련에 추가적으로 사용하자 진단용 신경망의 분류 성능이 확연히 개선되었다. GAN을 사용하여 실제 데이터와 같은 가상의 의료용 영상 데이터를 생성하게 되자 환자들이 질병의 진단을 위해 방사선 검사를 받을 필요성도 크게 줄어들었다.

의료용 데이터는 민감하므로 신원이 노출되어서는 안되지만 합성 데이터는 개인정보 보호와 데이터 유용한 활용 사이에서 균형을 찾을 수 있는 방법이다. 이러한 맥락에서, 옥스포드대 바이오의료 공학과의 엘리슨 노블(Alison Nobel)은 합성 데이터가 민감한 의료 정보의 공정이용(fair use)을 확대하는 역할을 할 것이라고 전망한다.

 

데이터 프라이버시의 보호

데이터가 증가하면 데이터 거버넌스에 대한 책임도 커지게 된다. 합성 데이터가 주목을 받게 된 것은 실제 데이터 확보 과정이 복잡하고 비용이 많이 들고 개인정보 유출에 대한 우려가 커졌기 때문이다. 실제 데이터를 그대로 사용하면 개인의 민감한 정보(인종, 성별, 정치 성향, 질병 기록)이 드러날 수 있지만 합성 데이터의 경우는 그 확률이 줄어든다.

합성 데이터가 잠재적으로 개인정보를 보호하는 이유는 원본 데이터 세트의 통계적 변수 분포와 상관관계 등을 모방하지만 정확한 데이터 포인트(data points)를 포함하지 않기 때문이다. 만일 어떤 데이터가 누구의 것인지를 추적할 수 없다면 그 데이터는 법적으로 개인 정보도 아니다.

MIT의 Data-To-AI 연구그룹이 개발한 ‘합성 데이터 보관소’(SDV: Synthetic Data Vault)는 개인 정보를 노출할 수 있다는 우려 때문에 데이터를 충분히 활용하지 못하는 문제에 대한 해결책을 제시했다. SDV는 민감 데이터가 포함된 원본 데이터 자체가 아니라 그것과 형식 및 구조가 유사한 합성 데이터를 생성하여 데이터의 활용성을 높여준다.

SDV파이썬 라이브러리가 합성 데이터 세트를 모델링하는 과정  (출처)

신경망 모델에 대한 개인정보 침해 공격이 늘어나자 합성 데이터의 유용성을 유지하면서도 개인 정보의 재식별을 막는 메커니즘을 찾으려는 연구가 계속되고 있다.  예컨대, 신시아 드워크(Cynthia Dwork)가 개발한 차분 프라이버시(differential privacy)란 무작위적으로 잡음을 추가하여 데이터를 변경하거나 수정하는 기법으로서 개인 데이터가 식별될 수 있는 위험을 낮추는 방법이다.

차분 프라이버시 보호를 만족하는 안전한 GAN 기반의 합성 데이터는 가장 이상적 데이터로 여겨진다.  미국 국립표준기술 연구소(NIST)는 합성 데이터 생성 알고리즘이 차등 정보보호 요건까지 충족하도록 하는 설계방법을 도전 과제로 내걸었다.  

 

https://www.technologyreview.kr/%ED%95%A9%EC%84%B1-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%98-%EC%8B%9C%EB%8C%80%EA%B0%80-%EC%98%A4%EA%B3%A0-%EC%9E%88%EB%8B%A4/

 

합성 데이터의 시대가 오고 있다 - MIT Technology Review

신뢰도 높은 AI 시스템을 구축하려면 양질의 데이터가 필요하지만 AI 모델의 훈련에 필요한 데이터를 구하기는 쉽지 않다. 원본 데이터의 통계적 변수 분포와 상관관계 등을 모방한 합성 데이터(

www.technologyreview.kr