2026 데이터 준비도 지수: 성공적인 AI를 위한 핵심 기반 이해하기

2025년 7월 14일 | 비즈니스

Iceberg 열풍: 오픈 포맷은 어떻게 기업 표준이 되었는가

9 분 읽기 • 작성자: Navita Sood

Cloudera 플랫폼 고객 분석 Data Lakehouse

Iceberg 도입을 촉진하는 Cloudera의 혁신

Apache Iceberg는 대규모 정형 데이터, 반정형 데이터, 그리고 변화하는 데이터를 관리하기 위한 사실상의 개방형 표준으로 자리매김했습니다. 이 포맷은 2017년 Netflix가 Apache Hive와 Spark에서 페타바이트(PB) 규모의 안정적인 분석을 제공하는 데 따른 어려움을 해결하기 위해 처음 개발했으며, 이후 여러 워크로드를 동시에 실행할 수 있는 강력한 오픈 테이블 포맷으로 성장했습니다.

Iceberg는 데이터를 통합하고 SQL 기능을 제공하여 데이터를 손쉽게 액세스할 수 있도록 지원합니다. Iceberg는 더욱 풍부한 SQL 기능과 단순화된 데이터 운영을 통해 지속적으로 발전하면서 데이터 엔지니어뿐만 아니라 빠르고 안정적인 데이터 액세스를 필요로 하는 데이터 소비자(데이터 과학자, 분석가, 애플리케이션 개발자) 사이에서도 널리 활용되고 있습니다.

Iceberg를 활용하면 컴퓨팅과 스토리지를 완전히 분리할 수 있어 뛰어난 유연성을 확보할 수 있습니다. 멀티 기능 분석, AI 활용 가능성, 벤더 독립성을 고려할 때, Iceberg에 필적할 만한 테이블 포맷은 없습니다.

활기차게 성장하는 커뮤니티

Iceberg는 10년이 채 되지 않는 짧은 기간에 신흥 기술에서 기업 표준으로 성장했습니다. 이처럼 빠른 성장에 기여한 요소로 아키텍처 측면의 강점과 활발한 개방형 커뮤니티를 꼽을 수 있습니다.

특히 중요한 점은 Iceberg 커뮤니티가 단일 벤더가 아니라 사용자 중심으로 운영된다는 것입니다. 이러한 사용자 중심의 거버넌스 모델 덕분에 프로젝트가 실제 현장의 다양한 요구를 충족하는 방향으로 발전할 수 있었고, 이는 Iceberg가 큰 인기를 끄는 주요 이유 중 하나입니다.

Iceberg Summit 주요 내용 정리

2025년 샌프란시스코에서 열린 Iceberg Summit에서는 Iceberg가 기업 환경에서 주류 기술로 자리 잡았음을 확인할 수 있었습니다. 이번 행사에는 스타트업, Fortune 500대 기업과 대표적인 클라우드 제공업체 3곳(AWS, Microsoft, Google)이 참여했으며, 전 세계 참가자들이 직접 방문하거나 온라인을 통해 함께하며 배우고, 지식이나 경험을 공유하며, 에코시스템을 발전시키는 데 동참했습니다.

이번 서밋에서 특히 주목받은 주제는 상호 운용성과 Iceberg의 성장세(에코시스템과 자동화를 포함한 기능의 확장)였습니다.

상호 운용성

Netflix, Apple, Bloomberg 등 많은 기업들이 Iceberg를 통해 단일 신뢰 데이터 소스를 관리하고, 이를 기반으로 여러 워크로드를 동시에 운영할 수 있는 사례를 공유했습니다. 이를 통해 데이터 중복을 줄이고, 시스템 간 불필요한 데이터 이동을 최소화할 수 있습니다. 또한 Iceberg의 신뢰 데이터 계층을 활용해 세분화, 개인화, 이탈 및 재발 예측, 추천, 최적화된 고객 경험 등 다양한 워크로드를 지원하는 방법도 논의되었습니다.

에코시스템의 폭발적인 성장

주목할 만한 또 다른 점은 Iceberg 에코시스템 내에서 Comet, Polaris, Lance와 같은 새로운 오픈소스 도구들이 등장했다는 것입니다. 이 도구들은 성능을 향상시키고 다중 모드 분석 및 AI를 지원하도록 설계되었습니다.

Iceberg V3와 V4에서 선보일 업데이트

행사에서는 Iceberg V3와 V4에서 앞으로 제공될 기능들에 대한 기대감이 매우 높았습니다. V3에서는 데이터 거버넌스, 성능 최적화, Variant나 Geospatial 같은 보다 복잡한 데이터 타입에 대한 지원이 크게 강화될 예정입니다. Variant는 컬럼형 포맷의 원리를 활용하여, 반정형 데이터에 대해서도 복잡한 변환 없이 필터링 및 집계와 같은 고급 쿼리 기능을 제공합니다. Geospatial 지원은 조직이 위치 기반 데이터를 효율적으로 관리할 수 있게 하여 새로운 활용 기회를 제공할 것입니다. 또한 V4에서 소개된 적응형 메타데이터 레이아웃은 소규모 파일의 성능을 향상시킬 것으로 기대됩니다.

자동화된 데이터 관리

또 다른 주요 논의 주제는 파티셔닝, 정렬, 컴팩션과 같은 일상적인 유지보수 작업을 정책 기반의 DevOps 스타일 인터페이스를 통해 자동화하여 수작업을 줄이는 것이었습니다. 조직에서 Iceberg 테이블로 더 많은 데이터를 가져올수록 이러한 유지보수 작업을 수행할 전문가를 채용해야 하므로 기업의 부담이 커집니다.

또한 Iceberg 테이블의 데이터에 액세스하는 엔진이 늘면서 거버넌스, 보안, 데이터 계보 관리의 중요성이 커지고 있습니다. 데이터 신뢰성을 확보하기 위해서는 데이터 흐름과 변환에 대한 가시성을 확보하는 것이 중요합니다. 이는 Iceberg 테이블 전반의 가시성을 높이기 위한 카탈로그 페더레이션과 거버넌스 필요성에 대한 논의로 이어졌습니다.

Cloudera의 Iceberg 도입

Cloudera는 2021년 퍼블릭 클라우드 레이크하우스 플랫폼에서 Apache Iceberg의 네이티브 통합을 선보였으며, 2022년에는 온프레미스 환경에도 적용했습니다. 현재 대다수의 Cloudera 고객이 Iceberg에서 새로운 워크로드를 실행하거나 테스트하고 있으며, 대부분 PB 단위의 데이터를 Iceberg에서 관리하고 있습니다.

Iceberg는 Cloudera의 성장 동력입니다. 많은 고객이 Hive 워크로드를 Iceberg로 이전하여 데이터 플랫폼을 현대화하고 미래 경쟁력을 높이고 있습니다.” - Venkat Rajaji, Cloudera 제품 관리 수석 부사장

기업은 Iceberg 도입을 위한 여정을 시작하는 순간부터 Iceberg 테이블의 데이터 규모 증가, 워크로드 확장, 새로운 활용 사례의 등장 등 점점 더 많은 이점을 누릴 수 있습니다. 도입 사유로는 빠른 성능이 가장 많이 꼽히며, 그 다음으로 상호 운용성과 워크로드 유연성을 통한 민첩성도 주된 동기로 작용합니다. Iceberg로 전환하면 스토리지, ETL, 운영 비용을 최대 75%까지 절감할 수 있습니다. 또한 타임 트래블, 스냅샷, 작성-감사-게시(Write-Audit-Publish), 히든 파티셔닝과 같은 기능이 효율성을 더욱 높이기 때문에 Iceberg는 새로운 활용 사례를 구현하기에 최적의 선택입니다.

Cloudera에서 가장 인기 있는 Iceberg 활용 사례 는 다음과 같습니다.

조직 내 여러 비즈니스 부서나 신뢰할 수 있는 파트너 및 공급업체처럼 신뢰할 수 있는 주체가 소유한 다양한 벤더 시스템 간의 데이터 공유
대규모 데이터 준비와 최적의 가성비를 위한 데이터 엔지니어링
스트리밍 데이터를 레이크하우스로 수집하여 거의 실시간으로 분석 및 의사결정 수행
Iceberg의 타임 트래블 기능과 Cloudera의 거버넌스, 계보, 감사 기능을 활용한 규제 준수 보고 및 지속적인 리스크 완화
Iceberg 내 데이터를 활용하고 Cloudera의 강력한 데이터 수집 및 처리 기능을 통해 분석용 클라우드 비용 최적화
Spark와 NiFi로 데이터 처리 속도를 높여 AI를 위한 데이터 준비 시간 단축
더 낮은 컴퓨팅 및 스토리지 사용량으로 여러 데이터 버전에서 효율적인 모델 학습 수행
Iceberg와 HBase를 결합한 다중 계층 피처 스토어로 AI의 저지연 처리 지원
온프레미스에 저장된 민감한 데이터에서 퍼블릭 클라우드 컴퓨팅을 활용하는 하이브리드 워크로드 실행

Illumina 와 LY Corporation 이 Apache Iceberg를 도입해 데이터 및 분석 측면의 대규모 과제를 어떻게 극복해 나가고 있는지 확인해 보세요.

일반적인 문제 해결을 위한 Cloudera의 혁신

Lakehouse와 Iceberg는 모든 데이터를 통합하고 분석 속도를 높이는 등 상당한 이점을 제공하지만 고객들은 Iceberg 도입 과정에서 공통적으로 몇 가지 문제를 경험했다고 밝혔습니다. 첫째, 고객들의 데이터가 여러 클라우드, 온프레미스, 에지 시스템에 분산되어 있기 때문에 이 모든 데이터를 클라우드로 이동시켜 Iceberg를 활용하기가 사실상 불가능합니다. 따라서 온프레미스와 클라우드 모두에서 동일한 Iceberg 지원이 필요합니다. 둘째, 여러 벤더의 엔진과 통합해야 하며 이를 통해 신뢰성과 계보, 추적 가능성을 확보하면서 시스템 전반의 데이터를 손쉽게 공유할 수 있어야 합니다. 데이터가 커질수록 Iceberg 테이블을 최적 상태로 유지하기 위한 수동 최적화 작업에 많은 비용이 들고, 전문 인력과 컴퓨팅 리소스가 필요합니다. 마지막으로, Iceberg는 데이터 활용도를 높이지만 다양한 도구를 자유롭게 사용할 수 있는 개방성은 리스크를 수반합니다. 따라서 액세스 제어 기능과 감사, 계보, 가시성을 위한 메타데이터 관리 기능을 제공할 수 있는 효과적인 거버넌스 및 보안 도구가 필요하며 이를 통해 데이터를 보다 명확히 이해하고 활용성을 극대화해야 합니다.

Cloudera는 고객이 직면한 다양한 문제를 해결하기 위해 지속적인 혁신을 이어가고 있으며, 위와 같은 공통적인 문제를 해소하기 위해 다음과 같이 여러 플랫폼 개선 작업을 진행했습니다.

하이브리드 레이크하우스를 통해 모든 환경에서 Iceberg 활용: 온프레미스 환경과 다수의 퍼블릭 클라우드에서 Iceberg를 네이티브로 지원하며 동일한 데이터와 환경에서 Impala, Spark, NiFi, Flink, Hive를 활용할 수 있도록 애플리케이션과 코드를 포팅할 수 있습니다. 이를 통해 고객은 클라우드 네이티브 기능으로 데이터 센터를 현대화할 수 있습니다. 또한 Ozone 기반의 Iceberg는 온프레미스 환경에서도 S3 호환 오브젝트 스토리지를 제공합니다. Cloudera는 세분화된 액세스 제어, 버전 관리 메타데이터, 공유 카탈로그를 기반으로 조직이 클라우드와 온프레미스 데이터를 단일 거버넌스 및 보안 모델에 따라 통합할 수 있도록 지원합니다.
실시간 애플리케이션 구축: 실시간 CDC 파이프라인을 구축하고, 스트리밍 파이프라인을 위한 Data in Motion(NiFi+Kafka+Flink-on-Iceberg)을 활용하여 배치 및 스트리밍 데이터를 원활하게 수집하고 통합합니다.
REST 카탈로그 통합을 통한 완전한 상호 운용성: 단일한 보안 및 거버넌스 체계를 기반으로 외부 엔진과 오픈 에코시스템 간의 상호 운용성을 강화합니다.
Cloudera Lakehouse Optimizer 를 통한 비용 절감과 성능 향상: 내장된 AI가 컴팩, 스냅샷 만료, 레이아웃을 자동으로 조정하므로 수동 조정 작업이 필요하지 않습니다.
데이터 소스와 대상에 대한 완벽한 이해: Cloudera의 Octopai는 모든 데이터 흐름에 대한 지능형 메타데이터 자동화와 전체 라이프사이클 데이터 계보를 지원하며 Cloudera 외부의 데이터까지도 보다 명확하게 파악할 수 있습니다.
애플리케이션 전반의 HA/DR 및 짧은 지연 시간: Iceberg 테이블 복제를 통해 HA 데이터 아키텍처의 회복력과 유연성을 제공합니다.
스마트 마이그레이션 도구를 활용한 안전하고 빠른 도입: Cloudera의 “Hive Tables to Apache Iceberg” 청사진 은 온보딩 작업을 간소화합니다.

Cloudera는 Apache Iceberg가 모든 플랫폼에서 데이터와 AI를 강화하는 기반이자 핵심 축이 되는 미래를 상상하며 모든 기업이 전례 없는 민첩성과 지능을 실현할 수 있도록 Iceberg의 기능을 끊임없이 강화하고 있습니다.” Bill Zhang, Cloudera 제품 전략 부사장

향후 전망

Cloudera는 Iceberg가 오픈 테이블 포맷의 기업 표준으로서 독보적인 입지를 계속 유지할 것으로 전망합니다. 자동 최적화, 멀티모달 지원, 메타데이터 관리, Python 통합과 같은 새로운 혁신 기능은 Iceberg 채택을 더욱 가속화할 것입니다. 다른 개방형 테이블 형식들은 Iceberg를 보완하는 형태로 특정 워크로드나 환경에 적합한 보다 전문화된 접근 방식을 취할 가능성이 높습니다.

Cloudera의 목표는 고객이 Iceberg를 기반으로 한 오픈 데이터 레이크하우스를 보다 단순하고 유연하게 구축하면서 더 큰 효과를 누릴 수 있도록 지원하는 것입니다. Cloudera는 엔터프라이즈 수준의 보안 및 거버넌스를 제공하고, 추가 최적화와 계층형 스토리지 메커니즘, 그리고 상호 운용성과 협업을 강화하는 ‘카탈로그 오브 카탈로그’를 지원하는 데 주력하고 있습니다. Cloudera Lakehouse 5일 평가판 을 이용하거나 사용 방법 가이드 를 참고하여 지금 바로 시작할 수 있습니다.

Navita Sood

Director Product Marketing, Modern Data Architectures

이 작성자의 다른 콘텐츠 ›

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.