개요
스트림 처리란 무엇인가요?
CSP(Cloudera Stream Processing)를 사용하면 스트리밍 데이터에서 복잡한 패턴을 분석하고 실행 가능한 인텔리전스를 얻을 수 있는 기능을 제공하여 스트림을 데이터 제품으로 바꿀 수 있습니다.
Apache Flink와 Kafka에 기반한 CSP는 완전한 엔터프라이즈급 스트림 관리와 상태 저장 처리 솔루션을 제공합니다. 스토리지 스트리밍 기반인 Kafka, 핵심 인스트림 처리 엔진인 Flink, SQL이나 REST와 같은 업계 표준 인터페이스에 대한 최고의 지원 등이 결합되어 개발자, 데이터 분석가, 데이터 과학자 등이 실시간 데이터 제품, 대시보드, 비즈니스 인텔리전스 앱, 마이크로서비스 및 데이터 과학 노트북을 구동하는 하이브리드 스트리밍 데이터 파이프라인을 쉽게 구축할 수 있습니다.
사기 탐지, 네트워크 위협 분석, 제조 인텔리전스, 상거래 최적화, 실시간 제안, 즉각적인 대출 승인 등과 같은 사용 사례는 이러한 실시간 요구 사항을 해결하기 위해 데이터 처리 구성 요소를 스트림으로 이동시킴으로써 이제 가능하게 되었습니다.
Cloudera Stream Processing 기반의
하이브리드 스트리밍 데이터 파이프라인

사용사례
사기 탐지
고객 분석
시장 모니터링
로그 분석
기능
-
Apache Flink 기반 Streaming Analytics
-
Apache Kafka 기반 Streams Messaging
SSB(SQL Stream Builder)는 포괄적인 인터랙티브 사용자 인터페이스로, 최적화된 Flink 작업으로 변환되는 SQL을 사용하여 상태 저장 스트림 처리 작업을 생성합니다. SQL을 사용하면 데이터 스트림을 필터링, 집계, 라우팅 또는 변형하는 표현식을 쉽고 간단하게 선언할 수 있습니다. SSB는 스트림에서 SQL을 작성 및 실행하고 결과를 위해 내구성 있는 데이터 API를 생성하는 데 사용할 수 있는 작업 관리 인터페이스입니다.
오류 및 재시도 중에도 데이터가 항상 정확히 한 번 처리되도록 보장합니다. 예를 들어 금융 서비스 기업은 소비자가 주택 모기지를 상환할 때 스트림 처리를 사용하여 수백 개의 백오피스 거래 시스템을 조정합니다.
순서가 맞지 않은 스트리밍 이벤트를 감지하고 처리합니다. 예를 들어 실시간 부정행위 감지 서비스에서는 데이터가 늦게 도착하더라도 올바른 순서에 맞게 처리되어야 합니다.
인메모리이며 한번에 하나씩인 스트림 처리 성능을 달성합니다. 예를 들어 신용카드 결제, 송금, 잔액 조회 등을 수행하는 3천만 명의 활성 사용자 요청 사항을 밀리초 대기 시간 내에 처리합니다.
수백 개의 스트리밍 소스와 스트림당 1초에 수백만 개의 이벤트를 처리할 때 이벤트를 트리거합니다. 예를 들어 환자가 응급실에 들어오면 시스템이 외부 시스템에 접근하여 수백 가지 소스에서 환자별 데이터를 가져와 환자가 검사실에 도착할 때 EMR에서 이를 사용할 수 있도록 합니다.
이러한 스트림을 웨어하우스, 관계형 데이터베이스, 데이터 레이크 등 기타 저장 데이터 소스와 손쉽게 통합, 결합 및 메시하지 못한다면 스트리밍 데이터가 가지는 가치는 거의 없다고 볼 수 있습니다. 즉시 사용 가능한 커넥터 또는 모든 데이터 소스에 대한 자체 커넥터를 사용하여 데이터 공급자를 구성합니다. 데이터 공급자가 생성되면 사용자는 DDL을 사용하여 가상 테이블을 쉽게 생성할 수 있습니다. 조인 및 집계와 같이 잘 알려진 SQL 구문을 사용하면 여러 스트림과 배치 데이터 소스 간의 복잡한 통합이 보다 용이해집니다.
짧은 대기 시간과 높은 처리량으로 초당 수백만 개의 메시지를 지원하여 가동 중단 시간 없이 탄력적이고 투명하게 확장할 수 있습니다. 광범위한 스트리밍 데이터 이니셔티브를 해결하여 기업이 고객의 요구에 부응하고 더 나은 서비스를 제공하며 위험을 사전에 관리할 수 있도록 지원합니다.
Streams Messaging Manager는 엔드 투 엔드 가시성을 기반으로 하는 단일 창 뷰를 제공하며, 이를 통해 생산자, 브로커, 토픽, 소비자 등 Kafka 클러스터 전반에서 데이터가 이동하는 방식을 확인하고 엣지에서 클라우드에 이르는 데이터 계보 및 거버넌스를 추적할 수 있습니다. 또한 지능형 필터링 및 정렬을 통해 Kafka 환경에서의 문제 해결을 단순화합니다.
Mirrormaker 2를 기반으로 하는 Streams Replication Manager는 내결함성과 확장성을 가진 강력한 교차 클러스터 Kafka 토픽 복제를 제공하며 클러스터 및 토픽 수준에서의 복제 모니터링과 메트릭도 제공합니다. 또한 고가용성, 재해 복구, 클라우드 마이그레이션, 지리적 근접성 등도 제공합니다.
Schema Registry를 사용하면 공유 스키마 저장소에서 모든 작성자 및 고객 스키마의 진화를 관리, 공유 및 지원할 수 있으며, 이를 통해 Kafka 환경에서 애플리케이션이 유연하게 상호 작용할 수 있습니다. 또한 스키마 불일치로 인해 발생하는 중단을 완화합니다.
Cruise Control을 사용하면 대규모 Kafka 설치를 관리 및 로드밸런싱할 수 있으며 이상 항목 자동으로 감지하고 수정할 수 있습니다. 또한 빈번한 하드웨어/가상 머신 장애, 클러스터 확장/축소, 브로커 간에 발생하는 워크로드 차이와 같은 문제를 해결할 수 있습니다.
Cloudera SDX 는 모든 구성 요소에 중앙 집중식 보안, 제어 정책, 거버넌스 및 데이터 계보를 제공합니다. 이는 한번 설정되면 자동적으로 적용되며 벤더의 영향을 받지 않기 때문에 멀티 클라우드 및 하이브리드 클라우드 전략을 확실하게 수용할 수 있습니다. 또한 보안의 네 가지 핵심 요소인 ID, 액세스, 데이터 보호 및 가시성을 지원합니다.
클라우드에서의 Stream Processing
완벽하게 보호되고 관리되는 탄력적인 클러스터로 클라우드 구성 및 인프라 설정의 복잡성을 제거하면서도 AWS, Azure, GCP에서 10분 이내에 스핀업됩니다.
Data Hub를 위한 Streaming Analytics
Data Hub를 위한 Streaming Analytics는 퍼블릭 클라우드에서 Apache Flink 및 SQL Stream Builder를 스핀업하여 SQL 또는 애플리케이션 코드를 통해 실시간 데이터 스트림 처리를 하이브리드 클라우드 환경으로 가져옵니다.
Data Hub를 위한 Streams Messaging
Data Hub를 위한 Streams Messaging은 스키마 거버넌스, 모니터링, 재해 복구, 지능형 재조정, 강력한 액세스 제어 및 감사 등을 처리하는 포괄적인 엔터프라이즈 관리 기능 세트를 통해 퍼블릭 클라우드에서 Kafka 클러스터를 스핀업하여 온프레미스 Apache Kafka에 대한 투자를 확대합니다.