Apache Iceberg Open Table Format (OTF) | 오픈 소스

개요

왜 Apache Iceberg인가요?

Apache Iceberg는 대규모 분석을 위해 설계된 개방형 테이블 형식입니다. SQL 테이블의 안정성과 단순성을 제공하며 데이터 레이크 저장소에서 직접 Data Warehouse 수준의 기능을 구현합니다.

Apache Iceberg는 스토리지도, 데이터베이스도, 컴퓨팅 엔진도 아닙니다. 데이터 파일에 위치하여 원하는 곳에 저장되는 메타데이터 관리 계층입니다. 데이터를 여러 컴퓨팅 엔진에서 동시에 액세스할 수 있도록 지원하면서도 데이터의 안정성과 일관성을 보장합니다.

Iceberg의 도입 이유

개방성

Iceberg는 완전히 개방되어 있으며 벤더와 엔진에 구애받지 않습니다. 벤더와 비벤더 모두로부터 가장 폭넓은 커뮤니티 지원을 받고 있기 때문에 편향 없는 혁신을 가속화합니다.

페타바이트 규모의 분석

Iceberg는 처음부터 자체 메타데이터 계층을 유지하여 이전 테이블 형식이 가진 병목 현상을 제거하도록 구축되었습니다.

Cloudera의 Apache Iceberg

Iceberg를 핵심 구성 요소로 Data Lakehouse에 바로 통합합니다.

고성능 분석, 데이터 엔지니어링, 데이터 과학, AI 작업을 수행하는 동시에 작업에 적합한 엔진을 데이터에 제공해 데이터 이동과 복사를 최소화합니다.

저장소를 컴퓨팅에서 분리합니다. 데이터 레이크하우스에서 정형, 반정형, 비정형 데이터를 통합적으로 액세스합니다. 내장된 AI 챗봇으로 모든 데이터를 탐색하고 활용합니다.

왜 Cloudera에서 Apache Iceberg를 실행해야 하나요?

다이어그램: 최상단에는 5개의 Cloudera Data Services가 표시되어 있습니다. 두 번째 계층에는 SDX가 포함되며, 메타데이터, 데이터 카탈로그, 보안, 거버넌스, 관측 가능성, 복제로 구성됩니다. 세 번째 계층은 Iceberg Tables입니다. 가장 아래의 네 번째 계층은 온프레미스, 프라이빗 클라우드, Azure, Google, AWS를 포함한 클라우드로 구성된 하이브리드 모델을 보여줍니다.

Iceberg 기반의 유일한 하이브리드 개방형 데이터 레이크하우스

클라우드, 데이터 센터 등 데이터가 있는 곳이라면 어디든 배포합니다.

멀티 엔진 지원

수집, 처리, 분석, AI를 위한 가장 광범위한 사전 통합 데이터 서비스 및 기능으로 전체 데이터 라이프사이클을 지원합니다.

최대 75%까지 TCO 절감

통합 보안 및 거버넌스를 갖춘 데이터 공통 표준으로 ETL, 데이터 사일로, 데이터 사본을 제거하여 TCO를 최대 75%까지 절감합니다.

Apache Iceberg 기반의 Cloudera 개방형 데이터 레이크하우스가 가진 이점

데이터 대중화: 자연어를 통해 누구나 데이터 기반 통찰력에 접근할 수 있도록 지원

분석 및 AI 가속화: 데이터에 생성형 AI 애플리케이션 및 대시보드 배포

데이터 개방성 및 상호 운용성 유지: 데이터 소유 및 원하는 도구 활용

다이어그램: 기존 방식은 HDFS의 데이터에 Hive SQL을 사용하는 구조인 반면, Iceberg는 모든 데이터에 대해 다기능 분석을 지원하는 구조로 운영됩니다.

상호 운용성을 통해 미래에 유연하게 대응할 수 있는 데이터 레이크 구축

Apache® Iceberg로의 마이그레이션 입문서

고객

데이터에 대한 완전한 소유권을 보장하는 Apache Iceberg

Cloudera의 Iceberg 기반 개방형 데이터 레이크하우스는 다양한 고급 기능을 갖춘 개방형 테이블 형식을 제공하기 때문에 데이터 사용과 유지 관리가 더욱 쉽습니다. 개방형 테이블 형식은 많은 사용자가 다양한 도구를 사용하여 데이터에 쉽게 액세스할 수 있다는 점에서 중요한 의미를 갖습니다. 또한 기업 데이터는 특정 벤더가 아닌 그 기업만의 자산이기 때문에 개방형 테이블 형식이 꼭 필요합니다. 따라서 개방형 테이블 형식은 향후 기술이 변하더라도 데이터에 대한 완전한 소유권을 보장합니다.

—Matteo Carucci, Eutelsat Group 데이터 및 분석 책임자