세 명의 업계 전문가가 전하는 2025 데이터 및 AI 트렌드 

지금 보기

임팩트

데이터 플랫폼의 성능과 확장성을 향상시켜 중앙 데이터 관리 시스템에 대한 부담 없이 데이터를 10~12배 더 빠르게 전송합니다.

중앙 집중식 데이터 레이크하우스에서 10만 개 이상의 데이터세트를 관리하여 핵심 비즈니스 수익과 의사 결정을 개선하고 비즈니스 인텔리전스와 맞춤형 추천 기능을 강화합니다.

효율적인 데이터 처리 도구를 통해 데이터 과학자와 ML 엔지니어의 생산성이 향상되어 셀프 서비스 데이터 관리가 가능하고 규제 요건 및 정책 업데이트에 더 빠르게 대응할 수 있습니다.

솔루션

 

온프레미스에서의 Cloudera

 

Cloudera Professional Services

 

Cloudera DataFlow

 

Kubernetes에서의 Cloudera

 

Apache Spark

 

Apache Flink 

 

Apache Kyuubi

 

Trino 

 

Apache Kafka

데이터 아키텍처

Apache Iceberg 기반 Cloudera Open Data Lakehouse

산업

통신

국가

일본

웹사이트

LY Corporation: Cloudera를 통한 데이터 관리의 혁신

LY Corporation은 일본을 대표하는 디지털 서비스 기업입니다. 아시아 전역 3억 2천만 명 이상의 고객에게 다양한 웹 및 모바일 서비스를 제공합니다. 혁신적인 접근 방식과 우수성에 대한 노력으로 인정받고 있으며 사용자에게 뛰어난 편리성을 제공함으로써 빠르게 명성을 쌓아왔습니다. 

LY Corporation은 데이터 관리 방식을 현대화하기 위해 Cloudera와 함께 최첨단 기술을 활용하여 성능과 확장성을 향상하는 여정을 시작하였습니다.

데이터 병목 현상 해결 및 규정 준수 강화

LY Corporation의 데이터 플랫폼은 Cloudera 기반으로 구축되었으며 여러 개의 Hadoop Distributed File System(HDFS) 클러스터를 활용합니다. 이는 데이터 엔지니어링 및 머신러닝 프로젝트를 위한 중앙 집중식 데이터 레이크하우스로 기능하여 핵심 비즈니스 수익과 의사 결정 프로세스를 크게 향상시킵니다.

본 플랫폼은 10만 개 이상의 테이블 및 데이터세트와 총 1.1 엑사바이트를 초과하는 모든 클러스터의 디스크 용량을 갖추었기 때문에 방대한 데이터 로드, 처리, 관리 등의 작업을 동시에 수행합니다. 이러한 작업은 비즈니스 인텔리전스, 분류, 고객 맞춤형 추천 기능 등에 매우 중요합니다.

이처럼 강력한 기능을 갖춘 LY Corporation의 플랫폼도 몇 가지 문제를 경험하였습니다. 기존 시스템은 많은 수의 테이블 파티션으로 인해 병목 현상이 발생하여 확장성 및 성능에 영향을 받았습니다. 동시 데이터 액세스 및 수정이 이루어지는 환경에서 데이터 무결성 및 파이프라인 가용성의 보장은 필수적이었습니다. 또한 LY Corporation은 복잡한 개인정보 보호 정책과 엄격한 데이터 보호 규정을 준수해야 했습니다.

독립적인 데이터 관리를 통한 팀의 역량 강화

이러한 과제를 해결하기 위해 LY Corporation은 Cloudera와 협력하여 기존 데이터 플랫폼을 현대화하였습니다. 첫 번째 단계는 데이터 수집 프로세스의 개선이었습니다. LY Corporation은 데이터 플랫폼에 Apache Iceberg를 도입함으로써 데이터를 5분마다 업데이트할 수 있게 되어 기존 방식을 크게 개선하였습니다. 새로운 형식으로 인한 작은 파일 문제를 해결하기 위해 사용자에게 영향을 주지 않고도 테이블을 최적화하는 백그라운드 서비스를 개발하였습니다. 

이 Iceberg 형식은 주로 사용자 행동 및 시스템 이벤트 추적을 위해 8,000개 이상의 테이블에 적용되었습니다. 이러한 변화로 인해 대량의 데이터 관리가 간소화되는 동시에 무결성이 보장되었습니다.

또한 LY Corporation은 Cloudera의 여러 구성 요소를 비롯한 데이터 관련 시스템을 Kubernetes에 배포하여 보다 현대적인 접근 방식을 도입하였습니다. 이러한 시스템은 Spark SQL, Flink, Trino도 통합하여 자원을 보다 효율적으로 사용하고 확장성을 개선하며 데이터 처리 작업 성능을 향상시키고 있습니다. 

이러한 마이그레이션을 지원하기 위해 LY Corporation은 Cloudera Professional Services와 협력하여 데이터 쿼리 간소화 서비스인 Apache Kyuubi를 구현하였습니다. Cloudera는 전문 가이드를 제공하여 Kyuubi를 플랫폼과 안정적으로 통합하고 기존 시스템 지원을 강화하며 업그레이드된 인프라로의 원활하고 효율적인 전환을 보장하였습니다.

마지막으로 LY Corporation은 데이터 관리 최적화에 집중하였습니다. 더 빠른 데이터 업데이트와 소형 파일 처리가 가능한 시스템을 도입하였습니다. 이 시스템을 통해 각 팀은 진행 중인 분석 및 머신 러닝 작업을 중단하지 않고도 독립적으로 데이터를 관리할 수 있어 효율성이 향상되고 팀원들이 데이터 소유권을 가질 수 있게 되었습니다.

효율적인 데이터 처리 도구를 통한 생산성 및 성능 향상

새로운 기술과 프로세스의 도입으로 LY Corporation의 데이터 플랫폼 성능 및 확장성이 눈에 띄게 향상되었습니다. 이제 중앙 데이터 관리 시스템에 대한 부담을 늘리지 않고도 데이터를 10~12배 더 빠르게 전송할 수 있습니다. 

새로운 데이터 형식의 특성 덕분에 연중무휴 운영되는 프로덕션 분석 및 머신러닝(ML) 파이프라인에 영향을 주지 않으면서도 데이터 관리 작업을 데이터 소유자와 제품 팀에 분산할 수 있게 되었습니다. 보다 효율적인 데이터 처리 도구로의 마이그레이션을 통해 전반적인 성능이 향상되고 새로운 기능이 추가되어 데이터 과학자 및 ML 엔지니어의 생산성을 향상시켰습니다. 

셀프서비스 데이터 관리 기능의 향상으로 제품 팀은 새로운 규제 요건, 정책 업데이트, 비활성 또는 미등록 사용자에 대한 잊혀질 권리(RTBF) 요청에 더욱 신속하게 대응할 수 있게 되었습니다.

앞으로 LY Corporation은 새로운 데이터 형식을 모든 주요 데이터세트에 확장하고 중요한 데이터 처리 작업을 Kubernetes에서 실행하여 사내 데이터 도구 및 GPU 지원과의 통합을 강화할 것입니다. 또한 새로운 데이터 포맷의 고급 기능을 활용하여 성능과 확장성을 더욱 향상시키는 방안도 검토하고 있습니다.

Cloudera와의 협력은 LY Corporation에 혁신적인 변화를 가져왔습니다. Cloudera의 전문성과 혁신적인 솔루션 덕분에 데이터 플랫폼을 현대화할 수 있었고 이를 통해 성능과 확장성이 크게 향상되었습니다. 이제는 데이터를 보다 빠르고 효율적으로 제공하여 각 팀이 고객 가치를 창출하는 데 집중할 수 있게 되었습니다.

Tasuku Okuda, LY Corporation 데이터 엔지니어링 그룹 수석 엔지니어링 매니저

시작할 준비가 되셨나요? 함께 시작합시다.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.