새로운 Cloudera 연구: 엔터프라이즈 AI 및 최신 데이터 아키텍처의 현황

보고서 보기
개요

안전하게 간소화되고 운영되는 모든 규모의 데이터 파이프라인

CDP Data Engineering은 엔터프라이즈 데이터 엔지니어링 팀을 위해 특별히 개발된 유일한 클라우드 네이티브 서비스입니다. Apache Spark를 기반으로 구축된 올 인클루시브 데이터 엔지니어링 도구 세트로서 Apache Airflow를 통한 조정 자동화, 고급 파이프라인 모니터링, 시각적 문제 해결, 포괄적 관리 도구로 엔터프라이즈 분석 팀 전반의 ETL 프로세스 간소화 등을 지원합니다.

Data Engineering은 Cloudera Data Platform과 완전히 통합되어 SDX 로 엔드 투 엔드 가시성 및 보안을 지원하고 CDP Data WarehouseCDP Machine Learning과 같은 CDP 서비스와의 원활한 통합도 지원합니다. 또한 어디서나 하이브리드 클라우드 플랫폼에서 일관되고 반복 가능하며 자동화된 데이터 엔지니어링 워크플로를 지원합니다.

CDP Data Engineering 사용 사례

  • 모든 곳에서의 데이터 파이프라인 자동화
  • ETL 가시성 및 제어 확보하기
  • 처음부터 끝까지 데이터 무결성 유지하기

모든 곳에서의 데이터 파이프라인 자동화


품질 데이터 세트를 CDP Data Warehouse, CDP Machine Learning 또는 기타 분석 도구에 안전하게 제공하세요.

Data Engineering은 머신러닝에서 데이터 웨어하우징 및 그 이상에 이르기까지 분석 팀에 대한 데이터 파이프라인을 간소화합니다. 션별된 고품질 데이터 세트를 어디에서나 안전하고 투명하게 제공하기 위해 파이프라인을 조정하고 자동화하여 가치 창출을 위한 시간을 단축합니다.

확인하기

ETL 가시성 및 제어 확보하기


데이터 라이프사이클을 전체적으로 투명하게 관리하세요.

기업 전반에 모든 규모의 데이터 파이프라인을 운영하려고 할 때 데이터 라이프사이클을 관리하고 비용을 제어하는 일이 점점 더 복잡해지고 있습니다.

Data Engineering은 용량 계획, 파이프라인 자동화, 자동 계보 저장, 비즈니스 사용 사례 전반의 문제 해결 등을 위한 일련의 운영 제어 및 가시성 기능을 제공합니다.

블로그 게시물 보기

CDP Data Engineering 도구 스크린샷 | Cloudera

처음부터 끝까지 데이터 무결성 유지하기


전체 데이터 파이프라인 가시성을 통해 비즈니스를 보호하세요.

데이터의 양과 복잡성이 증가하면서 비즈니스 전반에 분석 워크로드를 확장하기 위한 정확성과 충실성을 지속적으로 보장하기가 어려워질 수 있습니다.

Data Engineering은 네이티브 데이터 파이프라인 모니터링 및 경고를 제공하여 문제를 조기에 포착하고, 시각적 문제 해결을 제공하여 문제가 비즈니스에 영향을 미치기 전에 신속하게 해결합니다.

 

CDP Data Engineering - 데이터 파이프라인 문제 해결 스크린샷 | Cloudera

CDP Data Engineering 주요 기능

Apache Airflow가 지원하는 복잡한 데이터 변환 워크플로를 수백 명의 운영자와 함께 조정하여 미션 크리티컬 분석 요구 사항을 충족합니다.

Data Engineering은 격리된 워크로드 환경 및 가드레일을 통해 컨테이너화되고 확장 가능하며 이식 가능하기 때문에 온디맨드의 탄력적 컴퓨팅으로 안전한 파이프라인 관리를 구현하며 이를 통해 비용 효율적으로 비즈니스 SLA를 충족합니다.

Spark 작업의 모든 단계에서 CPU, 메모리, I/O 등을 포함한 성능 메트릭을 시각화하여 성능 병목 현상을 정확하게 파악하고 문제 해결 과정에서 찾기 어려운 아주 작은 문제도 식별합니다.

CLI와 Rest API를 통해 풍부한 작업 관리 인터페이스를 활용하여 CI/CD 파이프라인 및 서드파티 도구와 같은 기존 워크플로를 손쉽게 통합하고 자동화합니다.

Data Engineering은 아티팩트 관리, 보안, 자원 스케줄링 등을 자동화하고 간소화하는 Kubernetes 서비스에서 완전히 통합된 Spark를 제공하며, 특히 자원 스케줄링에서는 Apache Yunikorn를 활용하여 FIFO 및 GANG 스케줄링을 제공합니다.

플랫폼 관리자는 중앙 집중식 인터페이스에서 액세스 및 보안을 관리한 후 새로운 워크로드를 신속하게 프로비저닝하는 동시에 시간에 따른 자원 사용량을 시각화하고 용량을 손쉽게 모니터링합니다. 또한 SDX를 통해 전체 라이프사이클 계보를 추적하여 데이터의 출처와 이동 위치를 파악합니다.

조금 더 자세히 살펴볼까요?


Cloudera Data Platform에서 Data Engineering을 직접 경험해 보세요

Ebook

CDP Data Engineering: 한 단계 더 업그레이드되는 데이터 라이프사이클

Webinar

Cognilytica 웨비나: 데이터 엔지니어링 파이프라인의 최적화

Whitepaper

AI 데이터 엔지니어링 라이프사이클 체크리스트

Webinar

엔터프라이즈의 Data Engineering: 데이터 파이프라인을 가속화하고 확장하는 방법

세계적인 수준의 교육, 지원 및 서비스

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.