개요
퍼블릭 클라우드에서 쉽고 빠르게 배포하는 광범위한 분석
Cloudera Data Hub는 클라우드에서의 Cloudera 를 위한 강력한 분석 서비스로, 클라우드 내 익숙한 클러스터 모델에서 높은 가치를 가진 Edge-to-AI 분석을 보다 쉽고 빠르게 수행할 수 있도록 지원합니다. 스트리밍, ETL, 데이터 마트, 데이터베이스, 머신 러닝 등 가장 광범위한 분석 워크로드를 지원하는 Data Hub를 통해 기존 워크로드를 온프레미스에서 클라우드로 손쉽게 이동하거나 클라우드에서 직접 구축할 수 있습니다.
클라우드 기반의 포괄적인 솔루션은 통합된 오픈 소스 기술 제품군인 Cloudera Runtime으로 구동되며 SDX를 기반으로 구축됩니다. 또한 클러스터 형태, 워크로드 유형, 사전 구축된 템플릿, 구성 옵션 등에 대한 광범위한 선택을 가능하게 하여 기존 아키텍처가 익숙한 사용자에게 직관적이고 사용자 지정 가능한 환경을 제공합니다.
Data Hub 사용 사례
쉬워진 클라우드로의 여정
퍼블릭 및 프라이빗 클라우드를 모두 아우르면서도 다음과 같은 사항을 제공하는 플랫폼 덕분에 온프레미스 Cloudera 워크로드를 퍼블릭 클라우드로 손쉽게 그대로 이동시킬 수 있습니다.
- 퍼블릭 클라우드 가용성, 강력한 거버넌스 및 향상된 성능
- 두 가지 배포 모델 모두에서 워크로드를 최적화할 수 있는 유연성
- 클라우드로의 이동을 편리하게 하는 기존 클러스터 모델과 익숙한 폼 팩터의 이점
- Cloudera의 컨테이너화된 경험으로의 원활한 마이그레이션
복잡한 다중 분석 워크로드의 신속한 배포
데이터 라이프사이클 전반에 걸쳐 퍼블릭 클라우드에서 복잡한 워크로드의 배포 속도를 다음을 통해 높일 수 있습니다.
- 다양하고 유연한 사용자 지정 분석 워크로드를 배포할 수 있는 클라우드 기반의 아키텍처
- 템플릿 방식을 선택하든 자체 워크로드를 구축하든 관계없이 익숙한 노드 기반의 클러스터를 사용한 직관적인 경험
- 특정 비즈니스 요구 사항에 맞춘 워크로드의 배포가 가능한 높은 수준의 사용자 지정
워크로드 선택
실시간 데이터 마트
복잡한 파이프라인을 위한 데이터 엔지니어링
하이브리드 클라우드에서의 스트리밍
운영 데이터베이스
실시간 데이터 마트
빠르게 도착하는 대량의 데이터에 대한 분석이 가능합니다.
Data Hub의 실시간 데이터 마트 템플릿을 사용하면 필요에 따라 내부 업데이트를 통해 초당 수백만 개의 레코드를 수집할 수 있습니다. 데이터는 쿼리에 최적화된 형식으로 즉시 사용할 수 있습니다. 이러한 패턴은 시계열 애플리케이션, 이벤트 분석, CDC 조정 및 실시간 데이터 처리 파이프라인에 이상적입니다. 템플릿에는 Apache Kudu 분석 스토리지 엔진, 빠른 SQL 실행을 위한 Apache Impala, SQL 개발 및 분석을 위한 HUE, 스트림 처리/분석을 위한 Apache Spark Streaming이 있습니다.
복잡한 파이프라인을 위한 데이터 엔지니어링
데이터를 강화, 변환 및 로드합니다.
Data Hub를 사용하면 데이터를 강화, 변환 및 정리하여 매우 유연하고 맞춤화된 엔드 투 엔드 데이터 파이프라인을 생성, 실행 및 관리할 수 있습니다. Data Engineering 템플릿을 사용하면 Apache Spark와 Hive를 통해 배치 및 실시간 스트림 처리를 비롯한 광범위한 데이터 처리 워크로드를 실행할 수 있습니다.
하이브리드 클라우드에서의 스트리밍
실시간 분석을 수집, 처리 및 구축합니다.
Data Hub용 DataFlow 는 포괄적인 엣지 투 클라우드 스트리밍 데이터 플랫폼으로, Apache NiFi 및 Kafka를 통해 하이브리드 환경에서 발생하는 스트리밍 데이터 문제를 해결합니다. 이를 통해 사용자는 개발, 구성, 유지 관리에 막대한 자원을 투입하지 않고도 동일한 Cloudera DataFlow 의 온프레미스 스트리밍 경험을 클라우드로 확장할 수 있습니다.
운영 데이터베이스
매우 안정적인 엔터프라이즈급 애플리케이션을 구축합니다.
Data Hub를 사용하면 ANSI SQL을 지원하는 고성능 NoSQL 데이터베이스를 실행할 수 있습니다. 이는 Apache Hbase를 통해 비즈니스 크리티컬 운영 애플리케이션에 탁월한 규모와 성능을 제공합니다. Operational Database 는 개발자가 애플리케이션 설계 시 유연성을 유지하면서 동시에 데이터가 가진 힘을 활용할 수 있도록 진화하는 스키마를 지원합니다. 또한 클러스터의 워크로드 활용도에 따라 자동 확장 기능을 제공하여 인프라 활용도와 비용을 최적화합니다.