ClouderaNOW AI 에이전트, 클라우드 버스팅 및 AI용 데이터 패브릭 소개 | 4월 8일

지금 등록하기
  • Cloudera Cloudera
  • 클라우데라에 문의하기
    | 비즈니스

    고등교육 기관의 데이터 계보 역량 강화 필요성

    Jeremiah Morrow Headshot
    Hilary Billingslea
    Art Jordan
    청중 중 한 사람이 발언하는 모습

    오늘날 주정부, 지방정부 및 교육(SLED) 환경, 특히 고등교육 분야에서는 예산에 대한 엄격한 검토가 지속되고 있으며 동시에 우수한 데이터에 대한 요구도 점점 증가하고 있습니다. 이는 곧 더 적은 자원으로 더 많은 성과를 내야 한다는 의미입니다. 데이터 워크플로에서 효과적으로 개선할 수 있는 방법 중 하나는 데이터 계보를 자동화하고 문서화하는 것으로, 이를 통해 비용을 절감하면서 데이터와 AI의 품질을 동시에 높일 수 있습니다.

    고등교육 기관은 데이터 복잡성이라는 구조적 문제에 직면해 있습니다. 핵심 데이터가 온프레미스 데이터베이스, 클라우드 환경, 엣지 디바이스 등 상호 연동을 고려하지 않고 구축된 다양한 시스템에 분산되어 있기 때문입니다. 학생 ID, 연구비 ID, 연초 대비 기금 운용 성과와 같은 데이터를 여러 소스와 팀에 걸쳐 관리하는 일은 필수적이지만, 어렵고 수작업 의존도가 높으며 오류도 발생하기 쉽습니다. 

    신뢰할 수 있는 고품질 데이터가 먼저 확보되지 않으면 영향력 있는 분석 및 AI 활용 사례는 실현되기 어렵습니다. 반면, 시스템 전반에 걸쳐 데이터 계보를 통합적으로 파악할 수 있다면, 교육 과정 개발, 학생 모집, 학생 유지, 캠퍼스 운영 효율화, 클라우드 전환 등 다양한 영역에서 AI 기반 인사이트와 실행을 효과적으로 활용할 수 있습니다.

    Cloudera Data Lineage *는 데이터가 생성되는 시점(소스)부터 최종적으로 활용되는 단계(BI 또는 AI)까지의 흐름을 자동화되고 일관된 방식으로 추적할 수 있도록 지원합니다. 메타데이터를 신속하게 수집하고 해석하여, 데이터가 어떻게 생성되고 변환되며 활용되는지를 한눈에 파악할 수 있는 포괄적인 지식 그래프를 구축하도록 돕습니다. 이 과정에서 데이터 흐름 전반을 빠짐없이 일관되게 연결해 보여줍니다.

    Cloudera Data Lineage로 데이터 품질 고도화

    최근 Cloudera와 파트너사 Carahsoft가 공동으로 진행한 웨비나 SLED 조직의 신뢰 구축 및 규정 준수(Building Trust and Compliance in SLED Organizations)에서 Cloudera Data Lineage의 데이터 인텔리전스 제품 영업 전략 책임자인 Art Jordan은 “데이터 계보는 수십억 달러가 달린 문제”라고 강조했습니다. 수작업 프로세스에 의존하고 데이터 매핑을 완전히 파악하지 못하면 비효율과 지연이 불가피해지며, 그 결과 설명 가능한 AI, 개인 식별 정보(PII) 보호, 규정 준수와 관련한 중대한 문제가 발생합니다.

    Cloudera Data Lineage는 전체 데이터 흐름에 걸쳐 의존성과 변환 과정을 포함한 상세한 계보 정보를 일관되게 제공함으로써 이러한 문제를 해결합니다.

    • 시스템 간 계보: 데이터 유입 지점부터 리포팅, 분석, 최종 데이터 소비 단계에 이르기까지 시스템 수준의 계보를 제공합니다.

    • 시스템 내부 계보: ETL(추출·변환·적재) 과정, 리포트, 데이터베이스 객체 내부에서 자산 수준의 계보를 상세하게 보여줍니다. 여기에는 파이프라인이나 리포지토리 내부에서 특정 필드가 어떻게 생성되거나 계산되는지 확인하는 기능도 포함됩니다.

    • 엔드투엔드 계보: 시스템 간 자산 수준의 엔드투엔드 계보를 제공합니다. 이는 하나의 필드가 여러 시스템으로 전달되거나 여러 소스에서 유입될 수 있는 복잡한 관계(일대다 및 다대일)까지 반영합니다.

    데이터 계보를 체계적으로 활용하면 고등교육 기관은 상류 및 하류 데이터 흐름에 대한 분석과 매핑을 신속하게 수행할 수 있습니다. 또한 전 과정에 걸친 가시성과 거버넌스를 제공함하여 조직이 데이터의 이동 경로와 출처, 그리고 생성·도출 과정을 명확히 파악할 수 있게 합니다. 이러한 투명성과 데이터 무결성을 보장할 수 있는 역량은 AI 모델에 활용되는 데이터는 물론, 경영진과 외부 파트너에게 제공되는 데이터까지 신뢰할 수 있는 고품질 상태로 유지하는 데 필수적입니다.

    성공 사례: Cloudera Data Lineage로 효율성을 높이고 비용을 절감한 애리조나 대학교

    미국의 대표적인 연구 중심 대학인 애리조나 대학교(The University of Arizona)는 대학 분석 및 기관 연구 부서에 Cloudera Data Lineage를 도입했습니다. 해당 환경에서는 매일 밤 1만 건의 ETL(추출·변환·적재) 작업이 실행되었고, 데이터 웨어하우스에는 약 4만 개에 달하는 컬럼이 포함되어 있었습니다. 이러한 방대한 규모로 인해 수작업으로 데이터 문서화를 수행하는 것은 매우 어려운 일이었습니다.

    애리조나 대학교는 다음과 같은 방식으로 효율성과 비용 절감 효과를 달성했습니다.

    • ETL 영향도 분석 수행: PeopleSoft의 주요 업데이트(데이터 타입 및 길이 변경, 컬럼 삭제 등)가 발생할 경우, 기존에는 데이터 엔지니어링 팀이 영향도를 분석하는 데 일주일 이상이 소요되었습니다. Cloudera Data Lineage 도입 이후에는 이 작업을 며칠 이내로 단축할 수 있었습니다.

    • 아티팩트 통합: 각 ETL 작업은 컴퓨팅, 스토리지, 로그 리소스를 소비합니다. Cloudera의 엔드투엔드 메타데이터 가시성을 활용해 애리조나 대학교는 아티팩트를 통합하고, ETL 작업 수를 1만 건에서 8천 건으로 줄였습니다. 이러한 20% 감소는 인프라 비용 절감, 파이프라인 복잡도 감소, 운영 부담 완화로 이어졌으며, 동시에 데이터 일관성과 거버넌스 수준도 향상되었습니다.  

    • 빠른 탐색 기능 활용: Cloudera Data Lineage의 탐색 모듈을 통해 특정 주석 처리된 SQL을 포함한 모든 ETL 작업 목록을 신속하게 식별할 수 있었습니다. 이 작업은 대규모 시스템 업그레이드를 위해 반드시 필요한 과정이었습니다. 기존에는 상당한 수작업 시간이 소요되었지만 자동화를 통해 즉시 수행할 수 있었습니다.

    특히 Cloudera Data Lineage는 데이터가 파이프라인, 저장소, BI 리포트 전반에서 어떻게 흐르는지를 명확하게 보여줌으로써 감사 대응 역량과 데이터 정확성을 크게 강화했습니다. 기존에는 데이터 엔지니어링 팀이 데이터의 출처와 변환 과정을 수작업으로 추적해야 했지만 이제는 규정 준수, 기관 연구, 재무 부서에서도 데이터의 출처와 계산 방식을 독립적으로 검증할 수 있게 되었습니다. 그 결과 보고 오류 위험이 줄어들고, 규제 및 인증 관련 질의에 대한 대응 속도가 빨라졌으며, 동시에 제한된 IT 예산과 자원에 대한 부담도 완화되었습니다.

    이제 다음 단계로

    예산 압박이나 급격한 운영 변화 상황에서도, 조직의 규정 준수와 데이터 정확성을 명확히 입증할 수 있는 준비가 되어 있으신가요? 다음 주에 자동으로 문서화하고 매핑하고 싶은 가장 복잡한 데이터 파이프라인은 무엇인가요? 

    Cloudera Data Lineage를 통해 데이터 품질 고도화를 어떻게 실현할 수 있는지 함께 논의해 보시기 바랍니다. 

    시작할 준비가 되셨나요?

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.