ClouderaNOW AI 에이전트, 클라우드 버스팅 및 AI용 데이터 패브릭 소개 | 4월 8일

지금 등록하기
  • Cloudera Cloudera
  • 클라우데라에 문의하기
    | 비즈니스

    개인정보를 보호하고 원천 데이터의 통계적 특성을 유지하는 정형 합성 데이터로 엔터프라이즈 AI 역량 강화

    Andreas Tsiartas headshot
    Robert Hryniewicz headshot

    데이터가 곧 경쟁력이 되는 AI 시대에 기업이 AI 모델을 분석하거나 학습시키기 위해서는 양질의 데이터 세트가 필요합니다. 그러나 개인정보 보호 규제와 윤리적 우려로 인해 실제 데이터를 활용하거나 공유하는 데에는 많은 제약이 따릅니다. 민감한 정보를 지키면서도 혁신을 이어가려면 어떻게 해야 할까요? 

    Cloudera는 이러한 한계를 극복할 수 있는 해법을 개발해 왔습니다. Cloudera AI Studio 도구 모음에 포함된 Cloudera Synthetic Data Studio는 조직의 실제 데이터 패턴을 모방한 완전한 합성 데이터 세트를 생성해 기밀 정보에 대한 위험 없이도 혁신을 가능하게 합니다.

    주요 시사점

    Cloudera의 합성 데이터 생성 방식은 민감한 정형 데이터를 활용하거나 공유하려는 기업에게 명확한 방향성을 제시합니다. 이 접근 방식의 핵심 내용은 다음과 같습니다.

    • 개인정보 보호의 기능화: 합성 데이터는 제약이 많은 영역에서도 혁신을 가능하게 하는 전략적 자산이 됩니다.

    • 통계적 충실도의 중요성: 클러스터링과 기초 명령을 바탕으로 합성 데이터는 모델 성능에 중요한 미묘한 관계 구조를 유지합니다.

    • 엔터프라이즈 AI를 위한 확장성: 자동화된 워크플로를 통해 합성 데이터 생성에 드는 시간과 비용을 줄입니다.

    기업의 당면 과제: 규정 준수를 유지하면서 AI 모델 활용하기

    대출 연체 가능성을 예측하려는 금융 서비스 기업을 예로 들어보겠습니다. 이 분야의 실제 데이터에는 소득 수준, 고용 이력, 신용 점수와 같은 민감한 정보가 다수 포함되어 있습니다. 이러한 데이터를 제3자나 AI 모델과 공유하는 데에는 수많은 규제 및 윤리적 문제가 따릅니다. 

    기존의 합성 데이터 기법은 변수 간의 복잡한 논리적 관계(예: 기존 부채가 상환 행태에 미치는 영향)나 행과 열 전반에서 나타나는 데이터 간 논리적 일관성을 충분히 반영하지 못하는 경우가 많습니다. 기업에는 원본 데이터의 통계적 무결성을 유지하면서도 개인정보 보호 기준을 충족하고, 대규모로 확장 가능한 합성 데이터 솔루션이 필요합니다.  

    Cloudera의 해법: 정형 합성 데이터 생성 

    Cloudera의 솔루션은 이러한 요구를 충족하기 위해 클러스터링 기법과 Cloudera Synthetic Data Studio, 그리고 엄격한 검증을 결합한 4단계 워크플로를 제공합니다.

    1단계: 데이터 프로파일링

    첫 번째 단계에서는 데이터를 분할하고 클러스터링하여 통계적 프로파일을 생성합니다. 예를 들어 차입자를 위험 수준에 따라 구분(예: 고위험군과 저위험군)으로 구분하고, 대출 금액이나 이자율과 같은 수치형 변수를 추가로 클러스터링함으로써 데이터 세트를 ‘기초 명령(seed instructions)’ 형태로 정제합니다. 

    기초 명령에는 각 그룹의 평균, 표준편차, 상관관계와 같은 통계적 특성과 함께 대출 등급이나 대출 상태와 같은 차입자 정보가 포함됩니다. 이를 통해 민감한 세부 정보는 노출하지 않으면서도, 합성 데이터에 원본 데이터의 구조적 특성을 그대로 반영할 수 있습니다.  

    2단계: Cloudera Synthetic Data Studio를 활용한 데이터 생성

    기초 명령이 갖춰지면, 다음 단계에서는 LLM를 기반으로 데이터를 생성합니다. Llama 3.3-70B-Instruct와 같은 고급 모델을 사용해 기초 명령에 담긴 통계적 설계도를 기준으로 새로운 레코드를 합성합니다. 이 과정에서 Cloudera Synthetic Data Studio는 기초 명령에 정의된 관계와 패턴을 유지하면서 데이터를 생성하는 핵심 역할을 합니다.

    이 단계에서 모델은 단순히 임의의 숫자를 생성하는 것이 아니라, 차입자의 소득이 상환 이력에 미치는 논리적 영향과 같은 현실 세계의 복잡성을 반영한 데이터를 구성합니다.  

    3단계: 데이터 필터링

    생성된 모든 데이터가 품질 기준을 충족하는 것은 아닙니다. 충실성을 보장하기 위해 Cloudera는 LLM가 심사자 역할을 하는 독창적인 워크플로를 적용합니다. 

    이 단계에서는 형식 일관성, 논리적 정합성(예: 주택담보대출 계좌가 주택 소유 여부와 일치하는지), 현실성(예: 합리적인 이자율 생성 여부) 등 다양한 기준을 토대로 합성 데이터를 평가합니다. 그리고 10점 만점 기준에서 9점 이상을 획득한 데이터만 유지됩니다. 이 필터링 과정은 최종 데이터 세트의 현실성과 통계적 신뢰성을 보장하는 품질 검증 장치 역할을 합니다.

    4단계: 데이터 검증

    마지막 단계에서는 통계적 및 시각적 검증 작업이 이뤄집니다. 범주형 변수에는 KL 발산을, 연속형 변수에는 평균 및 표준편차 차이를 적용해 합성 데이터와 원본 데이터를 비교함으로써, 합성 데이터가 실제 데이터 분포를 충실히 반영하는지를 확인합니다. 

    결과: 완벽한 개인정보 보호

    Cloudera의 접근 방식을 활용하면 개인식별정보(PII)와 민감한 패턴을 제거하면서도, 정확한 모델 학습에 필요한 통계적 충실도를 갖춘 데이터를 생성할 수 있습니다. 그 결과 기업은 데이터 유출이나 규제 위반에 대한 우려 없이 합성 데이터를 제3자 시스템과 공유하거나 외부 파트너와 협업할 수 있습니다.  

    표 1에 표시된 것처럼, Llama 3.3-70B-Instruct 모델을 사용해 27개 컬럼으로 구성된 구조화 대출 데이터를 생성한 결과, 데이터 형식 일치율은 100%에 달했으며, LLM 평가 기준으로 97.2%가 컬럼 간 논리 오류 없이 생성되었습니다. 또한 평균값은 원본 데이터 대비 12% 차이를 보였고, 컬럼 간 상관관계 차이는 0.24로 나타났습니다. 

    Llama 3.3-70B-Instruct를 이용한 정형 데이터 생성 결과

    데이터 무결성

    형식 정확도 100%

    합성 데이터가 원본 구조와 완벽히 일치함

    통계적 충실도

    평균 편차 12%

    합성된 데이터가 주요 통계적 특성을 정확히 재현함

    컬럼 간 논리적 일관성

    논리 오류 2.8%

    생성된 데이터가 현실 세계의 논리적 관계를 반영함

    컬럼 간 상관관계 보존

    상관관계 차이 0.24

    특성 간 주요 연결 관계가 충실히 유지됨

    표 1: Llama 3.3-70B-Instruct를 이용한 정형 데이터 생성 결과

    결론

    AI 모델이 점점 더 복잡해지고 개인정보 보호 규제가 강화됨에 따라, 규정을 준수하는 고품질 데이터에 대한 수요는 계속 증가할 것입니다. 향후 정형 데이터 생성 기법은 의료, 금융 등 개인정보 보호가 필수적인 산업 전반에서 새로운 표준으로 자리 잡을 가능성이 큽니다. 

    Cloudera의 정형 합성 데이터 접근 방식은 기업이 개인정보 보호나 성능을 포기하지 않으면서도 이러한 요구를 충족할 수 있음을 보여줍니다. 클러스터링, Cloudera Synthetic Data Studio, 그리고 엄격한 평가를 결합함으로써 조직은 정형 데이터의 잠재력을 최대한 활용할 수 있습니다. 

    자세한 내용은 Cloudera AI Studios 제품 투어 *를 확인하시거나, ai_feedback@cloudera.com으로 문의해 주시기 바랍니다. 

    시작할 준비가 되셨나요?

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.