2026 데이터 준비도 지수: 성공적인 AI를 위한 핵심 기반 이해하기

2025년 11월 21일 | 비즈니스

미래를 현실로 만드는 AI 기반 데이터 레이크하우스

13 분 읽기 • 작성자: Dipankar Mazumdar

Cloudera의 개방형 기반은 데이터의 위치와 관계없이 기업이 모든 데이터를 자유롭게 활용할 수 있도록 지원합니다.

업계를 불문하고 데이터 팀은 단순히 정보를 저장하는 수준을 넘어 데이터를 지능으로 전환할 수 있는 시스템을 어떻게 구축하고 운영할지 고민하고 있습니다. 이와 함께 시스템 간 상호운용성도 중요한 요구 사항으로 부상하고 있습니다. AI 모델, 기능 파이프라인, 비즈니스 인텔리전스(BI) 보고서, 배치 작업은 여러 팀과 여러 엔진에 걸쳐 실행되는 경우가 많습니다. 따라서 이제는 데이터를 복제하거나 리팩토링하지 않고도 이러한 경계를 넘어 데이터를 공유할 수 있어야 합니다.

전통적으로 조직은 두 계층 구조의 아키텍처에 의존해 왔습니다. 데이터 웨어하우스는 BI와 보고에 최적화되었고, 데이터 레이크는 대규모 AI와 머신 러닝(ML)을 담당했습니다. 하지만 이처럼 분리된 구조는 복잡한 데이터 이동, 별도의 엔지니어링 작업, 거의 동기화되지 않는 시스템 간 중복 저장이라는 문제를 낳았습니다.

Cloudera의 개방형 레이크하우스 아키텍처는 분석 워크로드(BI, 애드혹 쿼리)와 AI 워크로드(예측 AI 및 생성형 AI)를 거버넌스가 적용된 단일 데이터 기반에서 함께 운영할 수 있도록 통합하여 이러한 문제를 해결합니다. Apache Iceberg와 같은 개방형 테이블 형식을 사용하는 이 통합 데이터 아키텍처는 데이터를 이동시키는 대신 컴퓨팅을 데이터가 있는 위치로 가져오는 구조를 구현하여, AI 워크로드를 데이터에 더 가까운 위치에서 실행할 수 있는 기반을 제공합니다. 그 결과 레이크하우스의 AI 워크로드는 거버넌스가 적용되고 버전 관리가 되며 품질이 검증된 데이터에서 직접 실행될 수 있습니다.

Cloudera *는 어떤 환경에나 데이터를 기반으로 AI를 구현할 수 있는 유일한 데이터 및 AI 플랫폼 기업입니다. Cloudera는 검증된 오픈 소스 기반을 활용해 퍼블릭 클라우드와 온프레미스 데이터 센터, 엣지 환경을 하나로 통합하는 일관된 클라우드 경험을 제공합니다.

AI 워크로드 실행을 위한 개방형 기반의 중요성

지난 10여 년간 기업들은 더 이상 성능과 확장성만으로는 경쟁력을 유지할 수 없으며, 장기적인 성공은 유연성과 상호운용성에 달려 있다는 점을 인식하게 되었습니다. 특히 AI 워크로드는 특정 벤더의 형식이나 시스템에 제약받지 않고 다양한 데이터 소스, 프레임워크 및 도구를 활용할 수 있는 역량이 매우 중요합니다.

이러한 요구 속에서 Apache Iceberg와 같은 개방형 테이블 형식 *은 데이터 플랫폼 아키텍처의 구조를 근본적으로 변화시켜 왔습니다. Iceberg는 테이블의 논리적 구조와 물리적 저장 방식을 분리해, 여러 엔진과 프레임워크가 동일한 데이터를 안정적인 트랜잭션 보장 하에 동시에 활용할 수 있도록 합니다. 이러한 개방성 덕분에 파이프라인을 다시 작성하지 않고도 인프라를 고도화하고, 새로운 컴퓨팅 엔진을 도입할 수 있습니다.

프로덕션 수준의 파이프라인을 운영하려면 AI 라이프사이클 전반에 걸쳐 데이터, 모델, 거버넌스를 연결하는 통합 플랫폼이 필요합니다. 그 중심에는 원시 정형 데이터, 반정형 데이터, 비정형 데이터를 지속적으로 AI에 활용 가능한 기능으로 변환하면서 모델 학습 및 평가를 위한 계보와 재현성을 유지하는 데이터 및 피처 엔지니어링 파이프라인이 있습니다.

생성형 AI(GenAI)는 전통적인 ML을 넘어 새로운 운영 요건을 제시합니다. 기업은 검색 증강 생성 *(RAG), 비공개 데이터 기반 대규모 언어 모델 *(LLM) 미세 조정, 도메인별 작업을 해결하는 에이전트 기반 워크플로(모델, 프롬프트, 모델 컨텍스트 프로토콜(MCP) *(API)을 결합) 구축을 위한 인프라와 데이터 액세스를 필요로 합니다. 이러한 워크로드는 테이블 데이터뿐 아니라 비정형 데이터(텍스트, 문서, 이미지, 임베딩 등)까지 활용하며, 이 모든 데이터가 단일 데이터 및 메타데이터 계층에서 통합 관리됩니다. 또한 모델을 안전하고 효율적으로 배포 및 제공하기 위해서는 확장 가능한 추론 계층도 반드시 뒷받침되어야 합니다.

AI 워크로드가 점차 멀티모달화되고 에이전트형으로 진화함에 따라 카탈로그 *와 메타데이터 액세스의 중요성도 커지고 있습니다. AI 파이프라인, 검색 시스템, 자율 에이전트는 모두 메타데이터를 이용해 데이터 세트를 검색하고, 학습 상태를 재현하며, 계보를 유지합니다. 개방형 카탈로그는 데이터의 위치나 처리 방식에 상관없이, 이러한 시스템이 데이터 세트를 조회하고 등록하며 관리할 수 있는 공통된 방식을 제공합니다.

기업은 Cloudera의 이러한 개방형 기반을 통해 분석, 예측, 생성형 AI를 아우르는 전체 워크로드를 지원할 수 있습니다.

Cloudera 통합 데이터 및 AI 플랫폼

Cloudera의 개방형 데이터 레이크하우스* 는 Apache Iceberg와 REST 카탈로그와 같은 개방형 기반을 토대로 데이터 엔지니어링, 분석, AI를 단일 거버넌스 아키텍처에서 통합합니다. 이 플랫폼은 분석 워크로드 또는 AI 워크로드에 관계없이 모든 워크로드가 이미 데이터가 존재하는 위치에서 수행되어야 한다는 원칙을 중심으로 설계되었습니다. 따라서 팀은 데이터 이동이나 중복으로 발생하는 마찰을 제거해 수집, 변환, 분석 및 모델 운영에 이르는 전 과정을 계보와 거버넌스를 유지한 상태로 연결하는 연속적인 파이프라인을 구축할 수 있습니다.

그림 1: 개방형 기반(Apache Iceberg) 위에 구축된 Cloudera 데이터 및 AI 플랫폼

이제 Cloudera 플랫폼(그림 1)의 서로 다른 구성 요소가 머신 러닝 파이프라인과 생성형 AI 애플리케이션 구축을 지원하는 방법, 그리고 데이터 수집부터 추론에 이르기까지 데이터 및 AI 라이프사이클의 다양한 단계를 하나의 상호운용 플랫폼으로 통합하는 방법을 살펴보겠습니다. 각 구성 요소는 개방형 표준을 기반으로 설계되어 다양한 환경에서 유연성과 상호운용성을 보장합니다.

스토리지: Apache Iceberg

Apache Iceberg는 Cloudera 레이크하우스 아키텍처의 기반이 되는 개방형 테이블 형식으로 버전 관리와 트랜잭션 기능을 제공합니다. Iceberg는 스키마 진화, 타임 트래블, 원자적 연산을 지원해 분석 워크로드와 AI 워크로드가 동일한 거버넌스 데이터 위에서 일관되게 실행되도록 합니다. Cloudera는 모든 모델, 프롬프트, 검색 작업이 일관되고 추적 가능한 데이터 뷰를 참조하도록 하는 거버넌스 및 버전 관리 기반을 제공합니다.

Iceberg의 스키마 진화 *와 같은 네이티브 기능은 AI 데이터 세트가 변화하는 방식과도 자연스럽게 맞아떨어집니다. 피처 스토어, 학습 데이터 세트, 검색용 코퍼스는 모두 Cloudera 레이크하우스 내에서 동일한 Iceberg 테이블을 공유할 수 있으며, 스냅샷으로 학습에 필요한 시점의 데이터를 고정하는 동시에 추론을 위한 신규 데이터를 계속 반영할 수 있습니다. 따라서 분석용 테이블과 AI용 스토리지를 나누어 관리할 필요가 없어집니다.

수집: Cloudera Data in Motion

Cloudera DataFlow* 는 Apache NiFi를 기반으로 작동하며 레이크하우스로의 지속적인 데이터 유입을 책임집니다. 데이터베이스, API, IoT 장치, 이벤트 로그 등 다양한 엔터프라이즈 소스로부터 데이터를 빠르게 수집해 배치와 스트리밍 워크로드를 모두 지원합니다. 최근 NiFi의 Apache Iceberg 네이티브 통합 *이 고도화되면서 중간 스테이징 없이 데이터를 개방형 레이크하우스에 직접 기록할 수 있게 되었습니다. 이처럼 NiFi와 Iceberg가 긴밀하게 연결되면서 파이프라인 복잡성이 줄어들고, 데이터 수집 과정이 개방형 테이블 형식과 더욱 가까워졌습니다.

실시간 활용 사례에서는 NiFi, Apache Kafka, Apache Flink가 하나의 이벤트 기반 수집 패브릭을 구성합니다. NiFi는 데이터 오케스트레이션과 라우팅을 담당하고, Kafka는 안정적인 스트리밍을 제공하며, Flink는 데이터가 Iceberg에 저장되기 전에 실시간 보강을 수행합니다. 이러한 구조 덕분에 모든 다운스트림 소비자가 거버넌스가 적용된 최신 데이터에 액세스할 수 있습니다. 이러한 멀티모달 데이터의 연속적인 유입은 레이크하우스 기반 AI 워크로드의 핵심 동력이 됩니다. 기업은 Iceberg 테이블에 실시간 데이터를 지속적으로 제공하고 일관된 거버넌스를 유지함으로써 생성형 AI 시스템에 도메인별 최신 정보를 공급하고 RAG 파이프라인과 에이전트 기반 워크플로를 더 정확하고 컨텍스트에 적합하며 신뢰도 높게 만들 수 있습니다.

카탈로그: Cloudera Iceberg REST Catalog

Cloudera Iceberg REST Catalog *는 개방형 REST 사양을 기반으로 한 중앙화되고 상호운용 가능한 메타데이터 서비스를 제공합니다. 이를 통해 Snowflake, Redshift, Databricks 등 개방형 사양을 지원하는 모든 타사 엔진은 데이터 복사 없이 Iceberg 테이블에 액세스할 수 있습니다. 이는 특정 플랫폼이 제공하는 단일 컴퓨팅 엔진에 종속되지 않고, 작업에 가장 적합한 컴퓨팅을 유연하게 선택할 수 있다는 점에서 조직에게 매우 중요한 특징입니다. 사용자는 선호하는 도구를 사용할 수 있으며, Cloudera가 제공하는 동일한 보안 및 거버넌스 정책이 데이터를 따라 모든 위치에 적용되어 환경 전반의 일관성을 보장합니다.

그림 2: 타사 엔진과의 상호운용성을 제공하는 Cloudera Iceberg REST Catalog

이 카탈로그 계층은 피처 엔지니어링 파이프라인, 에이전트 기반 워크플로, 검색 시스템이 거버넌스가 적용된 데이터 세트를 동적으로 탐색하고 액세스하는 데 핵심적인 역할을 합니다. AI 에이전트는 REST Catalog를 이용해 엔터프라이즈 데이터에 대한 지식 그래프처럼Iceberg 테이블을 쿼리할 수 있습니다. AI 에이전트는 사용 가능한 테이블을 발견하고, 스키마를 해석하며, 파티셔닝, 스냅샷, 계보와 같은 메타데이터를 기반으로 어떤 데이터 세트를 활용할지 판단할 수 있습니다.

보안 및 거버넌스: Cloudera SDX

Cloudera Shared Data Experience(SDX) *는 수집부터 추론까지 모든 서비스를 아우르는 통합 보안 및 거버넌스 프레임워크입니다. SDX는 데이터 계보, 감사, 액세스 제어, 정책 집행을 위한 단일하고 일관된 계층을 제공해 워크로드가 실행되는 위치와 관계없이 동일한 보안 모델을 상속받도록 합니다. 또한 SDX는 엔터프라이즈 ID 시스템(LDAP, SSO, OAuth)과 통합되며 정형 및 비정형 데이터에 대한 역할 기반 및 속성 기반의 세분화된 액세스 제어를 지원합니다.

Cloudera는 SDX를 개방형 레이크하우스 기반과 연결해 데이터, 모델 및 AI 에이전트가 동일한 거버넌스 경계 안에서 작동하도록 합니다. 이를 통해 분석 워크로드와 생성형 AI 워크로드 모두에 대해 투명성, 재현성 및 신뢰성을 보장합니다.

Cloudera 데이터 및 AI 서비스

통합 서비스 계층은 팀이 AI를 변환, 분석 및 운영화하는 데 필요한 모든 기능을 통합적으로 제공하며, 이 모든 작업이 동일한 거버넌스가 적용된 데이터에서 이루어지도록 합니다.

Data Engineering

오픈 소스 Apache Spark와 Apache Airflow를 기반으로 한 Cloudera Data Engineering은 Iceberg 테이블에서 직접 데이터 파이프라인을 구축, 오케스트레이션 및 확장할 수 있는 서버리스 서비스를 제공합니다. 이를 통해 하이브리드 환경 전반에서 분석 및 AI 워크로드를 위한 신뢰성과 재현성을 갖춘 ETL 및 피처 파이프라인을 구현할 수 있습니다.

AI 서비스

Cloudera AI 서비스 계층은 모델 학습과 미세 조정부터 보안이 적용된 배포에 이르기까지 AI의 전체 라이프사이클을 실제 운영 환경에 적용하며, 모든 작업이 Iceberg 기반의 동일한 거버넌스 데이터 토대 위에서 네이티브로 실행됩니다. 이 계층은 모델 개발, 레지스트리, 추론을 데이터 엔지니어링과 AI 운영을 유기적으로 연결하는 단일 워크플로로 통합합니다.

그림 3: AI Workbench와 Inference Service로 구성된 Cloudera AI 서비스

Cloudera AI Workbench

Cloudera AI Workbench *는 데이터 과학자, 분석가, 엔지니어가 모델을 개발, 미세 조정 및 테스트하는 협업 환경입니다. 이 환경은 노트북, 로우코드 애플리케이션 빌더(AMP), 그리고 AI 개발 전 단계에 특화된 스튜디오를 통합적으로 제공합니다. Cloudera AI Workbench는 AI 개발 및 배포 속도를 높이기 위해 비즈니스 팀과 기술 팀 간의 격차를 해소하고 AI 프로젝트 협업을 촉진하는 네 가지 AI 스튜디오 *를 기반으로 작동합니다.

Synthetic Data Studio: 실제 데이터가 부족하거나 사용이 제한된 경우, 테스트와 모델 학습을 위한 합성 데이터 세트를 생성합니다.
Fine-Tuning Studio: 기업 고유의 데이터 세트를 활용해 개방형 기반 모델을 조정함으로써 관련성과 정확도를 높입니다.
RAG Studio: OpenAI, Anthropic, Amazon Bedrock 등의 LLM을 관련 내부 데이터와 연결하는 RAG 파이프라인을 구축해 보다 정확하고 컨텍스트에 기반한 결과를 제공합니다.
Agent Studio: 모델, MCP, API, 내부 데이터 소스를 결합한 다단계 에이전트 기반 워크플로를 생성해 도메인별 작업을 자동화합니다.

이 모든 기능은 Iceberg 기반의 개방형 레이크하우스 위에서 실행되며, 팀은 특정 작업에 필요한 데이터에 거버넌스가 적용된 제로카피 방식으로 액세스할 수 있습니다.

Cloudera MCP Server

Cloudera는 MCP 서비스를 통해 AI 플랫폼의 개방성을 한 단계 더 확장하고 있으며, 오픈 소스 Cloudera AI Workbench MCP Server는 그 출발점입니다. 이 서비스는 AI 시스템 통합을 목적으로 설계되었으며, AI Workbench 내에서 에이전트 기반 기능과 도구 호출 기능을 지원합니다. 또한 LLM이 Cloudera AI Workbench의 기능과 구성 요소와 안전하게 상호작용할 수 있는 프레임워크를 제공해 모델, 데이터 및 애플리케이션을 자동화된 엔터프라이즈 워크플로로 연결합니다. 이 아키텍처를 통해 지능형 에이전트는 규정 준수가 요구되는 산업 환경에서도 보안, 통제 및 감사 가능성을 유지하면서, 신뢰할 수 있고 거버넌스가 적용된 Cloudera 환경 전반에서 추론하고, 행동하며, 작업을 자동화할 수 있습니다.

Cloudera AI Inference Service

Cloudera AI Inference Service *는 자동 확장, 고가용성, 엔드투엔드 가시성을 갖춘 환경에서 모델을 프로덕션에 배포할 수 있도록 지원합니다. 이 서비스는 전통적인 ML 모델과 대규모 언어 모델(LLM)을 모두 지원하며, 짧은 지연 시간으로 예측 및 응답을 제공합니다. 모델은 엔터프라이즈급 보안이 적용된 REST 또는 gRPC 엔드포인트로 배포할 수 있으며, 애플리케이션과 에이전트에서 안정적이고 일관된 액세스를 보장합니다.

추론 계층에 통합된 Cloudera AI Registry는 MLflow 호환 API를 기반으로 모델 추적, 버전 관리, 아티팩트 저장, 계보 관리를 지원하는 중앙 집중형 모델 라이프사이클 관리 기능을 제공합니다. 사용자는 LLaMA, Cohere, Gemma, Mistral 등 다양한 개방형 및 엔터프라이즈 언어 모델 중에서 선택할 수 있습니다.

추론 계층에는 모니터링과 가시성 기능도 기본으로 포함되어 있어 팀이 지연 시간, 처리량, 모델 드리프트를 지속적으로 추적할 수 있습니다. 이와 동시에 SDX 거버넌스를 통해 전체 계보와 규정 준수를 유지합니다. 따라서 모델 예측의 설명 가능성 및 추적 가능성을 보장할 수 있습니다. 이는 엔터프라이즈 환경에서 AI를 운영하기 위한 핵심 요건입니다.

AI가 이끄는 미래, 모든 데이터를 활용하는 AI

AI 성공은 모델이나 에이전트 기능만으로 결정되지 않습니다. 이를 뒷받침하는 데이터 아키텍처 역시 매우 중요합니다. 레이크하우스는 분석, 운영, AI 워크로드를 하나의 거버넌스 데이터 플레인으로 통합해 이러한 기반을 제공합니다. 개방형 표준 위에 구축된 레이크하우스는 데이터, 메타데이터, 모델이 도구와 클라우드, 팀 전반에서 마찰 없이 상호운용되도록 합니다.

Cloudera AI Workbench, AI Inference Service, 그리고 통합된 AI Registry는 개방형 레이크하우스 기반 위에서 데이터에서 AI로 이어지는 전체 여정을 완성합니다. 이 스택은 거버넌스가 적용된 Iceberg 테이블과 개방형 메타데이터 액세스를 기반으로 구축되어 모든 모델, 프롬프트 및 에이전트가 신뢰할 수 있고 버전 관리된 데이터에서 작동하도록 합니다.

엔터프라이즈 AI의 미래는 특정 벤더에 종속된 스택이 아니라 공통 표준과 투명한 상호운용성을 통해 데이터, 거버넌스, 지능을 통합하는 개방형 기반에 의해 결정될 것입니다.

Cloudera를 통해 대규모 환경에서 데이터를 안전하게 준비, 통합 및 분석하는 방법을 더 알아보려면 제품 데모를 확인 *하거나 5일 무료 평가판을 신청해 보시기 바랍니다.

Dipankar Mazumdar

Director of Product Evangelism

이 작성자의 다른 콘텐츠 ›

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.