ClouderaNOW AI 에이전트, 클라우드 버스팅 및 AI용 데이터 패브릭 소개 | 4월 8일

지금 등록하기
  • Cloudera Cloudera
  • 클라우데라에 문의하기

    Impact

    행 단위 데이터를 수정, 삭제할 수 있는 기능을 통해 전체 파티션을 다시 작성할 필요 없이 데이터 업데이트에 대한 법적 요구 사항 준수

    스냅샷 기능을 통해 데이터를 실수로 삭제한 경우의 데이터 복구 능력 향상

    클라우데라 오픈 데이터 레이크하우스를 통해 쿼리 성능을 대폭 향상시켜 데이터 처리 시간 약 30% 단축

    Solutions
    Data Architecture

    아파치 Iceberg를 통한 클라우데라 오픈 데이터 레이크하우스

    Industry

    금융 서비스

    Country

    대한민국

    카카오페이는 데이터 품질 향상, 데이터 분석 역량 강화, 데이터 기반의 의사결정 촉진, 데이터 보안 강화와 같이 데이터를 효과적으로 활용하기 위한 여러가지 전략을 추구하고 있다.

    카카오페이는 카카오톡을 기반으로 모바일 결제 및 금융 서비스를 제공하는 기업이다. 2014년 9월 대한민국에서 가장 강력한 커뮤니케이션 플랫폼 카카오톡이 대한민국 최초로 출시한 간편 결제 서비스는 카카오페이의 기점이 됐다. 간편 결제 서비스 이후 카카오페이는 송금, 해외 결제, 대출비교 서비스를 출시하고 증권, 펀드, 보험 상품도 출시하면서 자산관리 서비스를 확대했다. 카카오페이는 핀테크 기업으로 더 많은 사람이 편하게 금융 서비스를 사용할 수 있도록 돕고 있다.

    결과적으로 카카오페이는 이러한 전략을 통해 데이터 플랫폼을 구축하고 다양한 데이터를 통합하며, 원활한 대규모 데이터 분석과 활용으로 사용자에게 더 나은 금융 경험을 제공하고 지속적인 성장을 꾀하고 있다.

    카카오페이의 데이터 플랫폼은 실시간 데이터, 배치 데이터를 수집하고 처리하며, 데이터를 저장, 제공하는 역할을 한다. 또한, 수집 데이터를 분석하고 BI 도구를 통해 시각화해서 보여주며, 핵심 플랫폼을 구축, 운영하며 데이터 거버넌스를 수립해 안정적으로 데이터 분석 환경을 제공하는 역할도 맡고 있다.

    카카오페이의 데이터 관리 강화를 위한 클라우데라와 협력: 분석 개선, 실시간 처리, 원활한 처리

    기존에 카카오페이는 오래된 클라우데라 버전을 사용했지만 최신 버전 업그레이드, 마이그레이션을 통해 혁신을 꾀하고 현대화를 이뤄냈다.

    카카오페이의 배포는 세 단계로 구성돼 있으며, 이들은 서로 연동해 원활한 관리 및 분석 기능을 제공한다.

    첫 번째는 분석 클러스터로, 데이터 분석을 위한 주요 클러스터다. 이는 온프레미스에 배포된 Cloudera BASE 클러스터와 Cloudera Data Service 클러스터로 구성되어 있다. 이 클러스터에는 HDFS, 쿠두(Kudu), 레인저(Ranger), 우지(Oozie), 임팔라(Impala), 하이브(Hive), 스파크(Spark), 아이스버그(Iceberg)가 포함되어 있다. 각 요소의 역할은 다음과 같다.

    • Apache HDFS, Apache Kudu: 데이터 저장

    • Apache Ranger: 권한 감사 및 감사 로그 관리

    • Apache Oozie: 워크플로우 관리 및 스케줄링

    • Apache Impala, Hive, Spark: 데이터 처리

    • Apache Iceberg: 행 단위의 데이터 업데이트, 삭제, 스냅샷 관리를 위한 오픈 데이터 형식

    두 번째는 실시간 데이터 서비스 클러스터다. 피닉스 클러스터와 여러 인터넷 데이터 센터(IDC) 간의 재해 복구(DR) 클러스터로 구성돼 있다. 카카오페이는 비정상 클러스터를 감지하고 다른 정상 클러스터를 활성화해 전환하는 HBase Connection Manager 시스템을 자체적으로 개발했다. 이 클러스터에서는 실시간성 데이터도 저장하는데 이를 위해 나이파이(Nifi) 클러스터를 이용한다.

    세 번째는 이종 쿼리 클러스터로, 쿠버네티스(Kubernetes) 위에 트리노(Trino)를 올려서 사용하고 있다. 트리노 클러스터는 데이터 수집 없이 여러 소스에 있는 데이터를 쿼리해 분석을 할 수 있어, 데이터를 수집하기 전 분석 적합성을 판단하기 위해 사용하고 있다.

    과도한 리소스와 시간이 소요되는 법적 요구 준수

    카카오페이는 핀테크 회사로, 금융 서비스를 제공하고 있기 때문에 법적 요구를 잘 준수해야 한다. 법적 요구 중에는 탈퇴자의 데이터를 주기적으로 삭제해야 하는 요건이 있다. 하지만, HDFS에 들어간 데이터는 대부분 삭제가 불가능해, HDFS 위에 임팔라를 두고 쿼리 분석을 진행하는 카카오페이도 행 단위 데이터에 대한 수정, 삭제가 어려웠다. 결과적으로 데이터 갱신을 해야 할 때에 파티션 전체를 전부 다시 적재하는 방식을 사용해야 했는데, 이는 너무 많은 리소스와 시간이 소요됐다.

    이에 대한 해결책으로 쿠두 사용을 고려했으나, 쿠두 클러스터는 준 실시간성 데이터를 처리하기 위한 클러스터로 쓰고 있어 단순 탈퇴자 데이터 삭제를 위한 용도로 쓰기에는 맞지 않고, 쿠두 테이블에 데이터가 너무 많아질 경우 로딩에 많은 시간이 소요되기 때문에 선택하지 않았다.

    또 다른 어려움은 사용자의 실수로 삭제된 데이터 복구다. 기존에는 삭제된 데이터 디렉토리를 조사해서 TTL이 지나지 않은 데이터라면 다시 복구하는 형태로 진행했는데, TTL이 지난 경우에는 복구가 불가능했고 ETL부터 다시 수집을 해야 했다.

    클라우데라를 통해 행 수준 데이터 수정 및 삭제 구현

    카카오페이는 클라우데라를 통해 아파치 아이스버그를 도입할 수 있었다. 도입 이후에는 임팔라를 통해서 아파치 아이스버그 테이블에 데이터를 조회하고 삭제하고 업데이트할 수 있는 기능이 추가된 것을 알게 됐다.

    이를 통해 아파치 아이스버그 기능을 통해 행 단위 데이터에 대한 수정, 삭제가 가능하게 됐다. 이와 더불어, 아파치 아이스버그에서 제공해주는 스냅샷 기능을 이용해 사용자가 실수로 데이터를 삭제하더라도, 과거 스냅샷을 확인해 롤백 하는 것으로 데이터 리커버리를 매우 쉽고 편리하게 할 수 있게 됐다.

    윤성환 카카오페이 시니어 데이터 엔지니어는 “아파치 아이스버그 아키텍처는 데이터를 읽어오기 전에 메타데이터를 조회하고 필터링을 거치다 보니, 쿼리를 처리하기 위해 읽어야 하는 데이터 양이 대폭 감소했다”며, “이는 결국 쿼리 성능 향상으로 이어졌고, 사용자로부터 쿼리 성능이 약 30% 향상됐다는 피드백을 받았다”고 밝혔다.

    윤 시니어 데이터 엔지니어는 “과거에는 컴퓨팅 리소스와 저장 리소스 모두를 단일 서버에서 사용해 컴퓨팅 리소스가 부족하면, 스토리지 리소스가 충분하더라도 두 리소스 모두 추가했어야 했다. 하지만 클라우데라 플랫폼 환경에서는 컴퓨팅 리소스가 더 필요한 경우, 컴퓨팅 리소스를 중심으로 추가할 수 있다. 효율적인 리소스 관리와 하드웨어 비용 절감이 있었다”고 덧붙였다.

    클라우데라와의 미래 데이터 전략

    윤 시니어 데이터 엔지니어는 “오픈소스 데이터 사용에는 어려움이 따른다. 하지만 클라우데라는 사전에 검증된 패킹을 제공해 오픈 소스를 활용하면서 겪게 되는 어려움을 해결해준다”며, “클라우데라에 속한 다수의 데이터 전문가 또한 문제 상황을 분석해 솔루션, 관련 문서, 테스트 결과를 제공해 많은 도움이 됐다”고 밝혔다.

    카카오페이는 향후 필요에 따라 클라우드에도 데이터를 로드해 분석을 진행하는 하이브리드 환경 구축을 고려하고 있다. 카카오페이는 클라우데라를 사용할 경우, 현재 사용하고 있는 현재 환경 그대로 클라우드 환경까지 활용할 수 있다는 점이 다른 서비스와 차별화되는 가장 큰 경쟁력이자 장점이라고 밝혔다. 또한, 카카오페이는 클라우데라가 제공하는 LLM을 통해 카카오페이의 니즈를 충족할 수 있는지에 대해서도 검토하고 있다.

    오픈소스 기술을 활용하는 것은 어려울 수 있습니다. 하지만 클라우데라는 오픈소스를 활용할 때 겪는 어려움에 대해 사전 검증된 패키징을 제공하고 있습니다. 또한 클라우데라의 많은 데이터 전문가들이 문제를 분석하고, 해결 방안과 관련 문서, 테스트 결과 등을 제공해주어 많은 도움이 되었습니다.

    스티븐 윤, 카카오페이 시니어 데이터 엔지니어

    시작할 준비가 되셨나요?

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.