포괄적인 데이터 계보 솔루션 없이 거버넌스를 관리하려 하면, 데이터가 끊임없이 통제 범위를 벗어나는 듯한 느낌을 받을 수 있습니다. 이동하는 데이터와 메타데이터를 지속적으로 추적하는 일은 결코 쉽지 않습니다. 성공적인 거버넌스 담당자와 데이터 스튜어드는 데이터 계보 도구를 활용해 데이터 거버넌스를 비약적으로 개선합니다. 아래에서는 데이터 계보 도구가 데이터 거버넌스를 개선하는 네 가지 핵심 방식을 살펴봅니다.
데이터 거버넌스의 핵심 목표 중 하나는 데이터 품질을 유지하는 것입니다. 경영진과 비즈니스 사용자가 정확한 정보를 기반으로 중요한 의사결정을 내릴 수 있도록 보장하는 것은 담당자의 책임입니다.
오류가 있는 데이터를 발견했다면 가능한 한 신속하게 제거하고 교체해야 합니다. 그러나 오류의 근원을 해결하지 않은 채 사후적으로 수정만 반복한다면, 데이터 밭에서 잡초를 계속 뽑는 것과 다르지 않습니다. 장기적으로는 오류가 시스템의 어느 지점에서 발생했는지를 식별하고, 그 출발점에서 문제를 해결하는 것이 훨씬 효과적입니다.
포괄적인 데이터 계보 도구를 사용하면 특정 데이터 포인트가 업스트림의 출처에서 다운스트림의 대상에 이르기까지 어떤 경로를 거쳤는지 추적할 수 있으며, 그 과정에서 데이터를 변환한 모든 프로세스를 점검할 수 있습니다.
데이터에 결함이 있는 경우, 데이터 계보를 활용해 오류가 최초로 발생한 지점부터 역추적하는 근본 원인 분석을 신속하게 수행하고 데이터가 정확한 상태에서 오류가 발생한 상태로 바뀐 단계나 프로세스를 식별할 수 있습니다. 그런 다음 근본 원인을 바로잡아 불량 데이터의 확산을 차단하고, 환경 전반에 걸쳐 해당 데이터를 일일이 수정해야 하는 수고를 없앨 수 있습니다.
변화가 느린 산업에서 일하고 싶다면 고생물학을 선택하는 편이 나을지도 모릅니다. 데이터 거버넌스 영역에서는 변화가 지속적이며 매우 빠르게 일어납니다. 기술은 진화하고, 소스 시스템은 발전하며, 데이터에 대한 새로운 비즈니스 요구사항을 반영해 데이터 세트 구조가 변경되고, 계산 방식 역시 수시로 바뀝니다.
이처럼 끊임없이 발생하는 사소한 변경 사항이 데이터 거버넌스 플랫폼에 반영되지 않으면, 거버넌스가 적용되지 않은 데이터가 순식간에 산더미처럼 쌓이게 됩니다. 이러한 업데이트를 사람의 수작업에 맡기면, 변경 사항이 누락되기 쉽습니다.
반면 데이터 거버넌스를 위한 자동화된 데이터 계보 도구는 주기적으로 모든 메타데이터를 자동 점검하여 추가, 삭제 또는 변경 사항을 식별합니다. 이후 새로운 필드, 계산식 또는 기타 메타데이터를 데이터 거버넌스 플랫폼에 자동으로 반영합니다.
자동화된 데이터 계보 솔루션을 도입하면, 데이터를 쫓아다니는 데 시간을 소비하는 대신 데이터 관리와 거버넌스의 본질적인 업무에 집중할 수 있습니다.
인수합병, 마이그레이션, 전환까지. 생각만 해도 머리가 아픕니다. 대부분의 데이터 전문가는 커리어 전반에 걸쳐 이러한 중대한 변화를 최소 한 번 이상 경험하거나 직접 주도하게 됩니다.
이러한 전환은 대부분 피할 수 없습니다. 그리고 새로운 시스템을 수용하기 위해 이루어지는 변경 사항이 기존 워크플로에 어디에서, 어떻게 영향을 미칠지를 사전에 예측하지 못한다면 거버넌스부터 BI, 비즈니스 전반에 이르기까지 데이터와 그 결과물을 다루는 모든 업무에 불가피하게 심각한 혼란을 초래하게 됩니다.
미래를 내다보는 수정 구슬이 없는 이상, 이러한 선제적 통찰은 현재 시스템과 데이터 흐름을 완전하게 시각화한 뒤, 이를 새 시스템이 지향하는 구조와 프로세스와 비교하고, 하나의 환경에서 다른 환경으로 어떻게 원활하게 전환할 것인지에 대한 구체적인 계획을 수립할 때만 확보할 수 있습니다.
이 과정에는 일반적으로 여러 부서 간의 광범위한 커뮤니케이션이 수반됩니다. 예정된 변경 사항을 공유하고, 해당 변경이 각 부서의 데이터와 프로세스에 어떤 영향을 미칠지를 확인해야 합니다(그리고 각 부서가 실제로 제때 회신해 주기를 기대해야 합니다). 이러한 작업을 수작업으로 수행할 경우, 보통 데이터 부서 전체가 수개월 동안 이 작업에 매달리게 됩니다.
더 나아가, 예정된 대규모 전환은 데이터 거버넌스를 한층 더 효율적으로 개선할 수 있는 중요한 기회가 될 수도 있습니다. 사용되지 않는 필드를 정리하고, 중복된 정의를 통합하며, 프로세스 결과의 일관성을 점검할 수 있기 때문입니다. 그러나 이러한 기회를 실제 성과로 연결하려면 데이터 관리 체계를 본격적으로 정비하기에 앞서 수개월에 달하는 수작업 매핑 작업이 선행되어야 하는 경우가 많습니다.
자동화된 데이터 계보 도구를 사용하면 이러한 수개월 분량의 영향 분석 작업을 며칠, 경우에 따라서는 단 하루 만에 완료할 수 있습니다. 이것이 바로 효율성의 차이입니다. 자동화된 데이터 계보 도구에게는 작은 한 걸음이지만, 데이터 거버넌스에는 커다란 도약이 됩니다.
회사가 새로운 전사 데이터 거버넌스 플랫폼을 도입하던 날을 떠올려 보십시오. 축하드립니다 이 플랫폼은 설정만 완료되면 회사에 큰 가치를 제공할 것입니다. 다만, 실제 설정 과정은 말처럼 쉽지 않습니다.
데이터 거버넌스 플랫폼에는 일반적으로 데이터 카탈로그가 포함되어 있으며, 설정 과정이란 관리 대상이 되는 모든 메타데이터로 해당 카탈로그를 채우는 작업을 의미합니다. 이 과정은 보통 수개월이 소요됩니다. 그러나 자동화된 데이터 계보 도구를 활용하면 점심시간 동안 전체 데이터 카탈로그를 구축할 수 있습니다.
앞서 언급했듯이, 포괄적인 데이터 계보 솔루션은 초기 정비 이후에도 역할을 멈추지 않습니다. 메타데이터 변경이나 추가 사항을 주기적으로 감지하고 반영하여, 데이터 거버넌스 플랫폼을 지속적으로 최신 상태로 유지합니다. 이를 통해 필드, 프로세스, 보고서가 변경될 때마다 다른 부서에 일일이 연락해 업데이트를 요청해야 하는 부담을 줄일 수 있습니다.
‘데이터 계보’라는 이름을 사용하는 모든 솔루션이 위에서 설명한 기능을 모두 수행할 수 있는 것은 아닙니다. 일부 도구는 자동화된 계보 기능을 제공한다고 주장하지만, 실제로는 상당한 수준의 수작업과 추가적인 노력을 요구합니다. 따라서 도입에 앞서 필요한 기능과 메타데이터 관리 역량을 온전히 제공하는지 면밀히 검토하는 것이 중요합니다.
이러한 요구를 충족하는 자동화된 계보 솔루션인 Cloudera Octopai Data Lineage의 데모를 신청해 보시고, 데이터 거버넌스를 어떻게 즉시 개선할 수 있는지 직접 확인해 보시기 바랍니다.
This may have been caused by one of the following: