2026 데이터 준비도 지수: 성공적인 AI를 위한 핵심 기반 이해하기

2025년 11월 24일 | 기술

주요 데이터 팀들이 Apache Iceberg와 Spark로 AI 기반 파이프라인을 구축하는 방법

7 분 읽기 • 작성자: Pamela Pan , Ying Chen , 및 Akshat Mathur

확장 가능한 AI를 위해 데이터 엔지니어링을 현대화한 두 글로벌 기업의 사례

모든 기업은 예측 분석부터 생성형 AI에 이르기까지 다양한 기술을 활용해 데이터를 가치로 전환하고자 합니다. 하지만 대부분의 팀은 AI 모델이 아니라, 데이터를 신뢰할 수 있고 확장 가능하게 만드는 데이터 엔지니어링 단계에서 가장 큰 난관에 봉착합니다. 복잡한 환경 속에서 엔지니어들은 여전히 레거시 테이블 형식을 통해 파이프라인을 이어 붙이고, 여러 도구에서 동일한 로직을 반복하며, 거버넌스를 뒤늦게 적용하고 있습니다. 이러한 비효율은 모든 단계에서 장애물이 되어 결과를 지연시키고, 첨단 AI와 분석 프로젝트의 효과마저 제한합니다.

데이터 엔지니어링 스택을 간소화하고 미래에 대비하고자 하는 엔터프라이즈 환경에서 개방형 테이블 형식인 Apache Iceberg *와 개방형 엔진인 Apache Spark *는 이미 검증된 조합입니다. 두 기술은 거버넌스, 유연성 및 성능을 저해하지 않으면서도 페타바이트(PB) 규모의 데이터를 처리하고 관리할 수 있는 개방적이고 확장 가능하며 표준화된 기반을 제공합니다.

이 블로그에서는 Cloudera 데이터 및 AI 플랫폼을 기반으로 Spark와 Iceberg를 활용해 데이터 파이프라인을 혁신한 두 글로벌 기업의 사례를 자세히 살펴봅니다. 이 기업들이 쿼리 시간을 80% 단축하고, 팀 전반의 워크플로를 표준화하며, 원시 데이터를 AI에 활용 가능한 인사이트로 전환하는 과정을 어떻게 가속화했는지 구체적으로 소개합니다.

Vodafone Idea가 쿼리 시간을 80% 단축한 비결

Vodafone Idea *는 인도에서 2억 2천만 명의 고객을 보유한 3대 통신사 중 하나입니다. 이 회사는 확장성 문제로 어려움을 겪고 있었습니다. Hive 기반 데이터 레이크의 규모가 17PB를 넘어설 정도로 급격히 커졌고, 성능 병목 현상으로 인해 핵심 비즈니스 운영이 위협받는 상황이었습니다. 일부 보고용 쿼리는 처리하는 데 70시간이 넘게 걸리기도 했습니다! 이로 인해 규정 준수, 분석, 그리고 규제 보고 일정에 지연이 발생했습니다.

Vodafone Idea는 단순한 인프라 업그레이드 대신 데이터 플랫폼을 전면적으로 재설계하는 방식을 선택했습니다. Cloudera와의 협력을 기반으로 Iceberg를 도입해 메타데이터 최적화와 스키마 진화를 통해 쿼리 처리 속도를 높였고, Spark 기반으로 처리 워크플로를 재구성해 분산 컴퓨팅을 활용한 효율적인 대규모 데이터 처리를 구현했습니다.

규제 보고 부문에서는 Iceberg와 대화형 쿼리 엔진인 Apache Impala *를 함께 활용하여 PB 규모의 데이터 세트에 빠르고 안정적으로 액세스할 수 있도록 했습니다. Impala가 보고용 쿼리를 처리하는 동안, Iceberg는 백엔드에서 핵심적인 역할을 수행했습니다. Iceberg의 ACID 트랜잭션 지원(원자성, 일관성, 격리성, 지속성—데이터베이스 트랜잭션을 안정적이고 일관되게 처리하도록 보장하는 속성), 유연한 스키마 진화 기능, 풍부한 메타데이터 덕분에 데이터가 변경되는 상황에서도 보고 워크플로의 일관성을 유지할 수 있었습니다.

또한 Vodafone Idea 팀은 Cloudera Shared Data Experience(SDX)를 통합해 역할 기반 및 속성 기반 액세스 제어를 포함한 세분화된 거버넌스를 확보했으며, 이를 통해 적절한 권한을 가진 사용자만 해당 데이터에 액세스할 수 있도록 했습니다. 이러한 기반을 통해 Vodafone Idea는 강화되는 규제 요구 사항을 충족하는 동시에 감사 가능한 보고서를 적시에 제공할 수 있었습니다.

데이터 기반 효율성으로 통신 업계 혁신

Vodafone Idea *는 Cloudera와의 협력을 통해 전체 데이터 스택을 재구축하지 않고도 유연성을 유지하고, 거버넌스를 강화하며, 대규모 환경에서도 인사이트를 신속하게 제공할 수 있었습니다 Spark로 데이터를 수집하고, Iceberg로 테이블을 통합 관리하며, Impala로 보고를 수행하는 구조를 통해 기존 로직과 워크플로를 그대로 활용하면서 데이터 플랫폼을 현대화했습니다.

그 결과, 이러한 아키텍처를 통해 다음과 같은 가시적인 성과를 달성할 수 있었습니다.

쿼리 처리 시간 80% 단축
Spark의 대규모 복원력과 Iceberg의 강력한 테이블 관리 기능을 통해 파이프라인 장애 감소
규제 보고 기능 개선(보고 속도 및 신뢰도 향상)

제약 회사의 확장을 위한 통합 전략: 하나의 기술 스택, 10,000개 작업

PB 규모의 임상 연구 데이터를 관리하는 한 글로벌 제약 회사는 한 가지 심각한 문제에 직면해 있었습니다. 너무 많은 도구를 사용하다 보니 데이터 신뢰성 문제가 발생했고, 규정 준수 기준을 충족하는 데 어려움이 있었으며, 동시에 AI 및 분석 지원 속도를 향상해야 한다는 압박도 안고 있었습니다. 데이터 엔지니어링 팀은 하루 1만 개가 넘는 ETL 작업을 실행해야 했지만 팀 전반에 걸쳐 파이프라인을 일관되게 구축, 관리 및 검증할 수 있는 표준화된 방식이 부재했습니다.

이 회사는 AWS 기반 Cloudera를 도입하면서 명확한 방향을 설정했습니다. 팀은 Cloudera Data Engineering에서 Spark를 활용해 모든 데이터 파이프라인을 표준화함으로써 배치, 스트리밍, 머신러닝 워크로드 전반에 걸쳐 처리 방식을 통합하고 확장했습니다. 동시에 Iceberg를 기본 개방형 테이블 형식으로 채택해 스키마 진화, 기본 제공 버전 관리, 그리고 엔터프라이즈 수준의 거버넌스를 팀과 환경 전반에 걸쳐 일관되게 구현했습니다.

이 기업은 Cloudera 환경에서 Spark와 Iceberg를 도입함으로써 깔끔하고 확장 가능한 DataOps 기반을 구축했습니다. 이를 통해 데이터 파이프라인을 표준화하고, 팀과 도구 간 안전한 데이터 공유를 지원했으며, 더 빠르고 고도화된 AI 및 분석을 위한 토대를 마련했습니다. 이 기반은 현재 규제 감사 워크플로부터 임상 시험 발굴과 신약 개발을 가속화하는 AI 모델에 이르기까지 폭넓게 활용되고 있으며, 향후 새로운 기술이나 엔진도 유연하게 통합할 수 있습니다.

통합 데이터 플랫폼으로 제약 업계 혁신

이 글로벌 제약 회사는 Cloudera 플랫폼을 표준으로 채택함으로써 운영 전반에서 새로운 차원의 일관성을 확보할 수 있었습니다.

중단 없는 거버넌스: 업스트림 팀은 Iceberg의 Write-Audit-Publish(WAP) 패턴을 통해 하위 단계 워크플로에 영향을 미치지 않으면서 운영 환경 배포 전에 데이터를 검증할 수 있습니다.
추적성을 위한 타임 트래블: 규제 담당 팀은 과거 데이터 스냅샷에 즉시 액세스할 수 있어 롤백과 감사 대응을 보다 원활하게 수행할 수 있습니다.
파이프라인 로직 공유: Spark를 통합 엔진으로 사용하면서 데이터 엔지니어부터 데이터 과학자에 이르기까지 다양한 팀이 손쉽게 협업하고 작업 및 환경 전반에서 핵심 변환 로직을 재사용할 수 있어, 중복을 줄이고 유지보수를 간소화할 수 있습니다.

데이터 엔지니어링과 AI를 위한 현대적 기반 구축

이 두 사례에는 공통점이 있습니다. 두 조직 모두 데이터 워크플로에서 파편화된 데이터 환경, 확장성에 대한 압박, 그리고 복잡성 심화라는 과제에 직면해 있었습니다. 이들은 Cloudera 환경에서 Apache Spark와 Apache Iceberg를 표준 기술로 채택하여 개방적이고 확장 가능하며 신뢰할 수 있는 구성 요소 기반으로 파이프라인을 재구축했고, 그 결과 거버넌스 강화, 성능 향상, AI 및 분석을 위한 효율적인 데이터 흐름을 실현할 수 있었습니다.

Cloudera Data Engineering은 하이브리드 및 멀티 클라우드 환경 전반에서 실행 가능한 엔드투엔드 솔루션을 제공합니다. Spark, Iceberg 및 Airflow 기반의 통합 오케스트레이션을 하나로 결합해 기업이 다음과 같은 작업을 수행할 수 있도록 지원합니다.

한 번 구축하면 데이터 센터와 클라우드 어디서나 실행 가능한 파이프라인
개방형 데이터 레이크하우스 환경에서 대규모로 신뢰성과 거버넌스 유지

이 대화형 데모를 통해 Spark와 Iceberg가 Cloudera에서 어떻게 신뢰할 수 있고 확장 가능한 파이프라인을 구현하는지 알아보세요. Cloudera Data Engineering 5일 평가판 *을 통해 직접 사용해 보고 지금 바로 AI 기반 데이터 워크플로를 구축해 보세요.

Pamela Pan

Product Marketing Analyst

이 작성자의 다른 콘텐츠 ›

Ying Chen

Product Manager, Cloudera

이 작성자의 다른 콘텐츠 ›

Akshat Mathur

Product Manager, Cloudera

이 작성자의 다른 콘텐츠 ›

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.

주요 데이터 팀들이 Apache Iceberg와 Spark로 AI 기반 파이프라인을 구축하는 방법

Vodafone Idea가 쿼리 시간을 80% 단축한 비결

데이터 기반 효율성으로 통신 업계 혁신

제약 회사의 확장을 위한 통합 전략: 하나의 기술 스택, 10,000개 작업

통합 데이터 플랫폼으로 제약 업계 혁신

데이터 엔지니어링과 AI를 위한 현대적 기반 구축

Pamela Pan

Ying Chen

Akshat Mathur

문의하기

Your form submission has failed.