상호운용성은 오랫동안 주요 화두로 논의되어 왔지만, 실제 현장에서는 여전히 기업들이 구현하기 어려운 과제로 남아 있습니다. 그 결과 데이터 아키텍트는 많은 경우 파편화된 시스템을 인위적으로 연결해야 하는 상황에 놓이고, 최고 데이터 책임자(CDO)는 사일로화된 거버넌스로 인한 높은 리스크와 벤더 종속성에 직면하게 됩니다. 플랫폼 리더 역시 팀 전반에 일관된 데이터 뷰를 제공하는 데 한계를 겪습니다. 이러한 문제는 인수합병, 멀티 클라우드 전략, 외부 파트너십 등 다양한 요인으로 인해 반복적으로 나타나며, 비용이 증가하고, 혁신 속도는 느려지며, 확신을 AI를 가지고 확장할 수 있는 역량은 제한되는 결과를 낳습니다.
Cloudera는 메타데이터 계층 간 단절, 중복된 데이터 파이프라인, 도구 전반으로 확장되지 못하는 거버넌스 모델 등 고객이 겪는 문제를 해결해 왔습니다. 이를 통해 대규모 환경에서도 상호운용성을 확보하고, AI 활용에 최적화된 개방형 엔터프라이즈를 구현할 수 있도록 지원하고 있습니다.
AI 워크로드를 확장하려면 이를 뒷받침하는 데이터를 명확히 파악하고 통제할 수 있어야 합니다. 이 과정에서 메타데이터 인텔리전스는 핵심적인 역할을 합니다. 조직이 데이터가 어디에 있는지, 어떤 구조인지, 여러 팀과 도구에서 어떻게 사용되는지 파악할 수 있게 해주기 때문입니다.
기업은 Apache Iceberg와 Iceberg REST Catalog와 같은 개방형 표준을 도입해 제로 ETL 기반 데이터 공유를 지원하고, 거버넌스를 적용하며, 분석 및 AI 엔진 전반에서 안전한 상호운용성을 제공하는 통합 메타데이터 계층을 구축할 수 있습니다. 이러한 기반은 파편화된 인프라를 매끄럽게 연결된 AI 기반 데이터 아키텍처로 전환하며, 이 과정에서 메타데이터는 신뢰를 유지하면서 인사이트에 대한 액세스를 가속하는 핵심 요소가 됩니다.
Cloudera Iceberg REST Catalog *는 개방형 데이터 레이크하우스의 핵심 기반으로서, 조직이 아키텍처를 간소화하고 데이터 중복을 줄이며, 필요한 모든 환경에서 안전한 데이터 액세스를 확장할 수 있도록 지원합니다.
이 솔루션은 범용적이고 상호운용 가능한 메타데이터 계층으로 작동하며, 도구, 클라우드, 팀 전반에서 Iceberg 테이블에 대한 제로 카피 액세스를 제공해 오픈 소스 및 타사 도구가 동일한 데이터에 액세스할 수 있도록 합니다. 주요 기능과 이점은 다음과 같습니다.
그림 1. Cloudera Iceberg REST Catalog는 상호운용 가능한 범용 메타데이터 계층을 제공하여 오픈 소스 및 타사 도구가 동일한 데이터에 액세스할 수 있도록 합니다.
다음의 실제 사례들은 조직이 Iceberg REST Catalog를 활용해 데이터의 위치를 그대로 유지하면서 데이터 스택을 간소화하고, 총소유비용(TCO)을 절감하며, 가치 실현 시간을 단축하는 방법을 보여줍니다.
이 사례들을 통해 Cloudera의 개방적이고 상호운용 가능한 접근 방식이 어떻게 AI 성과를 가속화하고, 엔터프라이즈 규모에서 운영 효율성을 높이며, 보안 및 규정 준수를 실현하는지 확인할 수 있습니다.
한 고급 자동차 제조업체는 Databricks를 사용하는 외부 파트너와 데이터를 안전하게 공유하는 데 많은 어려움을 겪었습니다. 기존 방식에서는 데이터를 중복 저장해야 했고, 이는 비용 증가, 복잡성 심화, 아키텍처 유연성 부족이라는 문제를 초래했습니다.
고객은 Iceberg REST Catalog를 도입해 내부 시스템과 외부 플랫폼 모두에서 안전한 제로-ETL 데이터 공유 환경을 구축했습니다. 이러한 개방적이고 표준에 기반한 접근 방식을 통해 고객은 Spark를 사용해 복잡한 데이터 파이프라인을 처리하고, Impala를 활용해 빠른 SQL 분석을 수행하는 등 업무에 최적화된 도구를 자유롭게 선택할 수 있었습니다. 이를 기반으로 회사는 3,000명 이상의 사용자를 대상으로 AI 애플리케이션을 확장하면서도 데이터 액세스에 대한 완전한 거버넌스와 제어를 유지할 수 있었습니다.
한 글로벌 위성 회사는 합병 이후 독점 시스템에 묶여 있는 파편화된 데이터를 통합하는 과정에서 심각한 난관에 직면했습니다. 일관되고 상호운용 가능한 데이터 계층이 없었기 때문에 AI 및 분석 이니셔티브는 확장 속도가 느리고 관리하기 어려웠습니다.
고객은 Iceberg REST Catalog 기반의 Cloudera 개방형 데이터 레이크하우스 아키텍처를 통해 이러한 사일로를 통합하고 모든 AI 및 분석 워크로드에 대한 단일 정보원을 구축할 수 있었습니다. S3에서 관리형 Iceberg 테이블을 직접 쿼리한 결과, 중복 데이터 파이프라인과 재플랫폼 작업을 수행할 필요가 없어져 데이터 이동 비용을 74%나 절감할 수 있었습니다.
이 대화형 데모 *에서는 금융 서비스 시나리오를 통해 Iceberg REST Catalog의 기능을 확인할 수 있습니다. 가상의 기업인 Parent Bank에서는 Snowflake, AWS Athena 등 팀별로 선호하는 도구를 사용해 복잡한 ETL이나 높은 데이터 이동 비용 없이 단일 거버넌스가 적용된 데이터 소스에 안전하게 액세스합니다.
다음 자료를 통해 이 솔루션이 조직에 어떻게 도움이 되는지 자세히 알아보세요.
This may have been caused by one of the following: