누군가에게 달을 따다 주겠다고 약속한 적이 있으신가요? 그렇다면 그 비용을 미리 계산해 두고 약속했을 가능성은 높지 않을 것입니다.
하지만 클라우드를 제공하겠다고 약속하는 경우에는 비용을 소수점 넷째 자리까지도 정확히 산정할 수 있습니다.
Amazon, Azure, Google은 매우 정교한 클라우드 데이터 스토리지 비용 계산기를 제공합니다. 예를 들어 Google BigQuery에서 스트리밍 읽기를 수행하려면 몇 TiB의 데이터가 필요한지, Amazon Redshift에서는 ra3.4xlarge 인스턴스를 선택할지 ra3.xlplus 인스턴스를 선택할지, 또 노드는 몇 개가 필요한지까지 모두 계산해야 합니다.
클라우드 데이터 스토리지는 온프레미스 스토리지보다 비용 효율적이라고 흔히 알려져 있지만, 실제로 클라우드 스토리지 비용을 줄이기 위해서는 단순한 이전 외에도 조사, 제거, 최적화라는 체계적인 과정을 거쳐야 합니다. 이 과정을 단계별로 살펴보겠습니다.
데이터 스토리지 비용을 줄이는 가장 단순한 방법 중 하나는 저장하는 데이터의 양을 줄이는 것입니다. 말로는 쉽지만, 실행에 옮기기는 쉽지 않습니다.
모든 데이터에는 나름의 이유가 있습니다. 운영, 행정, 비즈니스 프로세스를 위해 반드시 필요한 경우도 있지만, 단순히 “아직 정리하지 않았기 때문”이라는 다소 막연한 이유로 남아 있는 데이터도 적지 않습니다.
모든 데이터 환경에는 오래된 데이터, 중복 데이터, 품질이 낮은 데이터가 존재하며, 이러한 데이터는 제거할 수 있고 또 제거해야 합니다. 문제는 이러한 데이터를 어떻게 정확히 찾아내느냐입니다.
자동화된 데이터 계보는 이에 대한 해답을 제공합니다. 데이터 정리를 담당하는 관리자의 가장 든든한 조력자라고 할 수 있습니다.
집안 대청소를 돕는 마법 지팡이를 떠올려 보십시오. 이 지팡이는 집안의 각 물건이 어디서 왔는지, 마지막으로 언제 사용되었는지, 현재 상태는 어떤지, 동일한 기능을 하는 다른 물건이 있는지까지 모두 알려줍니다.
자동화된 데이터 계보는 데이터 생태계에서 동일한 역할을 수행합니다. 이 도구를 사용하면 몇 분 안에 전체 데이터 흐름을 한눈에 파악할 수 있습니다. 어떤 데이터 자산이 어떤 보고서로 이어지는지, 그리고 해당 데이터가 어떤 소스 시스템에서 비롯되었는지를 명확히 추적할 수 있습니다. 포괄적인 데이터 계보는 소스 시스템 수준의 거시적인 관점뿐 아니라, 컬럼 간 연결 관계와 같은 미시적인 수준까지 보여줍니다. 나아가 ETL 프로세스에까지 들어가 데이터 이동 과정에서 수행된 변환 내용까지 정확히 확인할 수 있습니다.
이처럼 전체 구조를 명확히 파악했다면, 다음 단계인 제거로 넘어갈 수 있습니다.
이제 데이터 계보를 면밀히 살펴보며 다음 질문을 던져야 합니다.
이 질문에 “예”라고 답할 수 있다면, 해당 데이터는 오프로딩 대상으로 분류할 수 있으며, 이는 클라우드 스토리지 비용을 직접적으로 줄이는 결과로 이어집니다. 다만 제거 과정에서는 각별한 주의가 필요합니다. 실질적으로 동일한 데이터 자산이라 하더라도, 두 자산이 모두 하위 보고서에서 사용되고 있다면 대체 방안을 마련하기 전에는 어느 하나도 성급히 삭제해서는 안 됩니다.
데이터 계보를 활용한 영향도 분석은 비즈니스 프로세스를 변경할 때 발생할 수 있는 영향을 사전에 예측하고, 문제를 방지하기 위한 적절한 조치를 취할 수 있도록 해줍니다.
더 이상 필요 없는 데이터(오래된 데이터, 중복 데이터, 품질이 낮은 데이터)를 식별하고 제거했다면, 다음 단계로 넘어갈 수 되었습니다. 바로 반드시 유지해야 하지만, 보다 효율적인 방식으로 저장할 수 있는 데이터를 다루는 단계입니다.
데이터 계보 맵을 다시 한 번 검토하면서, 현재 저장 중인 데이터에 대해 다음과 같은 질문을 따져보아야 합니다.
클라우드 기반 데이터 스토리지 제공업체는 일반적으로 접근성 수준에 따라 다양한 스토리지 계층을 제공합니다. 예를 들어 Amazon S3는 자주 액세스하는 데이터를 위한 Standard 스토리지(GB당 $0.023), 드물게 액세스하지만 필요 시 밀리초 단위로 조회되어야 하는 데이터를 위한 Standard – Infrequent Access 스토리지(GB당 $0.0125), 1분에서 최대 12시간 이내에 조회되는 아카이브 및 백업 데이터를 위한 Glacier Flexible Retrieval 스토리지(GB당 $0.0036), 연 1~2회만 액세스하며 조회에 12시간이 소요되는 아카이브 데이터를 위한 Glacier Deep Archive 스토리지(GB당 $0.00099)와 같은 다양한 옵션을 제공합니다.
1TB의 데이터를 Standard 스토리지에 저장하면 월 $23의 비용이 발생합니다. 동일한 1TB 데이터를 Glacier Deep Archive 스토리지에 저장할 경우 월 비용은 $0.99에 불과합니다. 현재 조직이 액세스 빈도나 사용 목적을 구분하지 않고 모든 데이터를 표준 클라우드 스토리지에 저장하고 있다면, 스토리지 최적화만으로도 비용을 크게 절감할 수 있습니다.
데이터 계보는 다음 두 가지 측면에서 데이터 스토리지 비용 절감을 지원합니다.
그러나 데이터 계보의 효과는 이뿐만이 아닙니다! 저장 데이터가 줄어들면 클라우드 스토리지 비용뿐만 아니라 컴퓨팅 비용 역시 함께 감소합니다. Snowflake나 Amazon Redshift와 같은 클라우드 기반 데이터 웨어하우스는 일반적으로 사용량 기반 과금 모델을 적용합니다. 즉, 데이터 세트에 대해 쿼리를 실행하는 데 소요된 시간만큼 컴퓨팅 비용이 청구됩니다. 쿼리에 포함되는 데이터가 많을수록 실행 시간은 길어지고, 그만큼 비용도 증가합니다.
따라서 저장하는 데이터의 양을 줄이거나 표준 스토리지에 보관되는 데이터를 최소화하면 쿼리에 포함되는 데이터 역시 감소하여 컴퓨팅 비용을 간접적으로 절감할 수 있습니다. 여기에 더해 데이터 계보는 컴퓨팅 비용을 직접적으로 줄일 수 있는 방법도 제공합니다. 바로 탐색 쿼리를 제한하는 것입니다.
탐색 쿼리는 일반적으로 많은 컴퓨팅 자원을 소모합니다. 그러나 명확한 데이터 계보 맵이 있다면, 데이터 팀은 필요한 데이터가 정확히 어디에 있는지를 즉시 파악할 수 있어, 플랫폼 전반을 대상으로 한 포괄적인 탐색 쿼리 대신 보다 정밀하고 목적 지향적인 쿼리를 실행할 수 있습니다. 그 결과 불필요한 탐색 쿼리를 제거하거나 줄일 수 있습니다.
클라우드 데이터 스토리지 비용이 부담으로 느껴진다면 이제는 상황을 바꿀 때입니다. 자동화된 데이터 계보라는 마법 지팡이를 꺼내 다음 세 단계를 실행해 보십시오. 조사! 제거! 최적화!
데이터 스토리지 비용이 눈에 띄게 줄어드는 모습을 보게 될 것입니다. 물론 실제로는 이보다 약간 더 많은 노력이 필요할 수도 있습니다. 하지만 다음번 클라우드 데이터 서비스 제공업체로부터 요금이 낮아진 청구서를 받게 된다면 그 변화는 충분히 마법처럼 느껴질 것입니다.
더 자세한 내용이 궁금하신가요? Cloudera Octopai Data Lineage 데모를 신청해 보세요. 이 자동화된 데이터 계보 솔루션은 이러한 단계를 실제로 구현하고, 오늘부터 클라우드 스토리지 비용 절감을 시작할 수 있도록 지원합니다.
This may have been caused by one of the following: