Cloudera Data Hub: 클라우드 기반 분석 서비스

개요

퍼블릭 클라우드에서 쉽고 빠르게 배포하는 광범위한 분석

Cloudera Data Hub는 클라우드에서의 Cloudera 를 위한 강력한 분석 서비스로, 클라우드 내 익숙한 클러스터 모델에서 높은 가치를 가진 Edge-to-AI 분석을 보다 쉽고 빠르게 수행할 수 있도록 지원합니다. 스트리밍, ETL, 데이터 마트, 데이터베이스, AI 등 가장 광범위한 분석 워크로드를 지원하는 Data Hub를 통해 기존 워크로드를 온프레미스에서 클라우드로 손쉽게 이동하거나 클라우드에서 직접 구축할 수 있습니다.

클라우드 기반의 포괄적인 솔루션은 통합된 오픈 소스 기술 제품군인 Cloudera Runtime으로 구동되며 SDX를 기반으로 구축됩니다. 또한 클러스터 형태, 워크로드 유형, 사전 구축된 템플릿, 구성 옵션 등에 대한 광범위한 선택을 가능하게 하여 기존 아키텍처가 익숙한 사용자에게 직관적이고 사용자 지정 가능한 환경을 제공합니다.

Data Hub 사용 사례

쉬워진 클라우드로의 여정

퍼블릭 및 프라이빗 클라우드를 모두 아우르면서도 다음과 같은 사항을 제공하는 플랫폼 덕분에 온프레미스 Cloudera 워크로드를 퍼블릭 클라우드로 손쉽게 그대로 이동시킬 수 있습니다.

퍼블릭 클라우드 가용성, 강력한 거버넌스 및 향상된 성능
두 가지 배포 모델 모두에서 워크로드를 최적화할 수 있는 유연성
클라우드로의 이동을 편리하게 하는 기존 클러스터 모델과 익숙한 폼 팩터의 이점
Cloudera의 컨테이너화된 경험으로의 원활한 마이그레이션

복잡한 다중 분석 워크로드의 신속한 배포

데이터 라이프사이클 전반에 걸쳐 퍼블릭 클라우드에서 복잡한 워크로드의 배포 속도를 다음을 통해 높일 수 있습니다.

다양하고 유연한 사용자 지정 분석 워크로드를 배포할 수 있는 클라우드 기반의 아키텍처
템플릿 방식을 선택하든 자체 워크로드를 구축하든 관계없이 익숙한 노드 기반의 클러스터를 사용한 직관적인 경험
특정 비즈니스 요구 사항에 맞춘 워크로드의 배포가 가능한 높은 수준의 사용자 지정

워크로드 선택

실시간 데이터 마트
복잡한 파이프라인을 위한 데이터 엔지니어링
하이브리드 클라우드에서의 스트리밍
운영 데이터베이스

실시간 데이터 마트

빠르게 도착하는 대량의 데이터에 대한 분석이 가능합니다.

Data Hub의 실시간 데이터 마트 템플릿을 사용하면 필요 시 내부 업데이트를 통해 초당 수백만 개의 레코드를 수집할 수 있습니다. 데이터는 쿼리에 최적화된 형식으로 빠르게 제공됩니다. 이러한 패턴은 시계열 애플리케이션, 이벤트 분석, CDC 조정 및 실시간 데이터 처리 파이프라인에 매우 적합합니다. 템플릿에는 Apache Kudu 분석 스토리지 엔진, 고속 SQL 실행을 위한 Apache Impala, SQL 개발 및 분석을 위한 Cloudera Data Explorer(이전 Hue), 스트림 분석을 위한 Apache Spark Streaming이 포함되어 있습니다.

복잡한 파이프라인을 위한 데이터 엔지니어링

데이터를 강화, 변환 및 로드합니다.

Data Hub를 사용하면 데이터를 강화, 변환 및 정리하여 매우 유연하고 맞춤화된 엔드 투 엔드 데이터 파이프라인을 생성, 실행 및 관리할 수 있습니다. Data Engineering 템플릿을 사용하면 Apache Spark와 Hive를 통해 배치 및 실시간 스트림 처리를 비롯한 광범위한 데이터 처리 워크로드를 실행할 수 있습니다.

하이브리드 클라우드에서의 스트리밍

실시간 분석을 수집, 처리 및 구축합니다.

Data Hub용 DataFlow 는 포괄적인 엣지 투 클라우드 스트리밍 데이터 플랫폼으로, Apache NiFi 및 Kafka를 통해 하이브리드 환경에서 발생하는 스트리밍 데이터 문제를 해결합니다. 이를 통해 사용자는 개발, 구성, 유지 관리에 막대한 자원을 투입하지 않고도 동일한 Cloudera DataFlow 의 온프레미스 스트리밍 경험을 클라우드로 확장할 수 있습니다.

DataFlow 클라우드 서비스 자세히 알아보기

운영 데이터베이스

매우 안정적인 엔터프라이즈급 애플리케이션을 구축합니다.

Data Hub를 사용하면 ANSI SQL을 지원하는 고성능 NoSQL 데이터베이스를 실행할 수 있습니다. 이는 Apache Hbase를 통해 비즈니스 크리티컬 운영 애플리케이션에 탁월한 규모와 성능을 제공합니다. Operational Database 는 개발자가 애플리케이션 설계 시 유연성을 유지하면서 동시에 데이터가 가진 힘을 활용할 수 있도록 진화하는 스키마를 지원합니다. 또한 클러스터의 워크로드 활용도에 따라 자동 확장 기능을 제공하여 인프라 활용도와 비용을 최적화합니다.

주요 특징

Data Hub는 유연성, 확장성 및 사용 편의성을 원하는 사용자를 대상으로 합니다. 이를 통해 작업자 역할 재배치, GPU 지원 구성, 리소스 관리 설정 조정, 클러스터 조정 등을 수행하여 복잡한 다기능 분석 사용 사례를 대규모로 구현할 수 있습니다.

Data Hub 클러스터는 인프라를 위한 사전 구축 또는 사용자 지정 구성 옵션을 통해 신속하게 프로비저닝되고 처리될 수 있습니다. 클라우드 공급자별 설정 기반의 사전 구성 클러스터 정의와 Cloudera 런타임 서비스 구성 기반의 클러스터 템플릿을 통해 규범적 사용 사례를 위한 워크로드 클러스터를 신속하게 프로비저닝할 수 있습니다. 또한 향후 재사용을 위해 자체 클러스터 정의와 템플릿을 저장할 수도 있습니다.

Data Hub를 통해 익숙한 폼 팩터의 레거시 워크로드를 클라우드 모델로 쉽게 이동할 수 있습니다. 클라우드 기반 아키텍처는 컴퓨팅 인프라에서 데이터를 분리하며 데이터 전송 계층은 원시 데이터로부터 추상화됩니다. 이렇게 분리된 아키텍처는 유연성, 민첩성, 데이터 보호 및 확장성을 크게 향상시킵니다.

공유 데이터에서 여러 클러스터를 쉽게 프로비저닝할 수 있기 때문에 고객은 기존 프로덕션 애플리케이션을 중단하지 않으면서도 올바른 보안 및 거버넌스를 기반으로 완전히 격리할 수 있는 새로운 애플리케이션을 시작할 수 있습니다.

Data Hub는 Cloudera SDX를 기반으로 하기 때문에 플랫폼 데이터와 메타데이터에 대한 보안과 거버넌스를 갖추고 있으며 전용 통합 인터페이스로 기능을 제어하여 관리합니다. 데이터 보안, 거버넌스 및 제어 정책은 한번 설정되면 어디서나 일관성 있게 적용되기 때문에 운영 비용과 비즈니스 리스크를 줄이면서도 완벽한 인프라 선택의 자유와 유연성을 가능하게 합니다.

Data Hub는 50여 개의 오픈 소스 프로젝트가 포함된 Cloudera 플랫폼 내 핵심 오픈 소스 소프트웨어 배포판인 Cloudera Runtime에 구축되어 있습니다. Runtime을 통해 적합한 오픈 소스 도구 세트를 활용하여 워크로드와 애플리케이션을 구축합니다.