생명과학 분야의 팀들은 그 어느 때보다 많은 데이터, 모델, 그리고 규제 검토를 동시에 다루고 있습니다. 또한 오믹스 데이터, 의료 영상, 전자의무기록, 임상 시험 프로토콜, 실제 임상 근거 등 데이터의 상당수가 비정형 형태로 저장되어 있어 검색과 거버넌스에 어려움이 있습니다.
AI는 생명과학 분야의 가능성을 다시 써 내려갈 잠재력을 지니고 있습니다. 서로 분절되어 있는 방대한 양의 생물학 및 임상 데이터를 실행 가능한 인사이트로 전환함으로써 발견 속도를 높이고 의사결정을 정교화하며, 궁극적으로는 생명을 살리는 혁신을 환자에게 더 빠르게 전달할 수 있습니다. 그러나 이를 위해서는 먼저 AI 기반 의사결정이 설명 가능하고, 안정적이며, 규정을 준수한다는 점을 입증해야 합니다.
이러한 환경에서는 단발성 개념 검증(POC)만으로는 충분하지 않습니다. AI 기반 인사이트에 대해 수용 가능한 수준의 거버넌스와 신뢰를 확보하려면 신뢰할 수 있는 데이터와 컴퓨팅 기반을 모델과 워크플로를 대규모로 오케스트레이션할 수 있는 인텔리전스 계층과 결합해야 합니다.
Cloudera와 Salt AI는 생명과학 분야를 위해 강력한 참조 아키텍처 조합을 공동으로 제공하고 있습니다.
Cloudera *는 SDX를 통해 통합된 보안 및 거버넌스 계층을 기반으로 데이터 스트리밍, 데이터 엔지니어링, 데이터 웨어하우징, ML/생성형 AI를 대규모로 통합하는 개방형 데이터 레이크하우스 및 엔터프라이즈 AI 플랫폼을 제공합니다. 이 프레임워크는 속성 기반 데이터 액세스 제어, 데이터 계보, 활성 메타데이터 강화 및 카탈로그 기능을 포함합니다.
Salt AI *는 이러한 기본 보안 체계를 활용하여 AI 모델과 데이터 전반에 오케스트레이션 계층을 추가로 제공합니다. 확장 가능한 인프라는 프롬프트, 시스템 프롬프트, 워크플로 설계, 실행 성능, 사용자 역할, 데이터 소스 등 다양한 컨텍스트를 지속적으로 수집합니다. 이를 통해 특화된 AI 모델과 범용 AI 모델 모두의 가치를 최대한 끌어내는 복잡한 활용 사례를 지원합니다. 또한 에이전트 기반 작업을 위한 도구 호출은 Salt의 txt2 어시스턴트를 통해 손쉽게 실행할 수 있으며 파이프라인이 캔버스 상에서 시각적으로 구현되어 데이터 흐름을 정확히 확인할 수 있습니다.
이러한 협력을 통해 생명과학 조직은 온프레미스, 퍼블릭 클라우드, 하이브리드 환경 전반에 걸쳐 세분화된 제어를 적용할 수 있으며, 특정 업무에 적합한 모델을 유연하게 활용하고, AI 시스템의 의사결정 과정을 감사 가능하고 시각적인 형태로 기록할 수 있습니다.
또한 Cloudera와 Salt AI는 데이터 수명 주기 전반에 걸쳐 컴퓨팅 및 운영 효율을 높여줍니다. Cloudera는 GPU 가속 프레임워크를 활용해 데이터 엔지니어링과 LLM 추론 워크로드에서 각각 최대 20배, 36배의 성능 향상을 제공합니다. Salt AI 역시 CPU와 GPU를 균형 있게 활용하는 분리형 컴퓨팅 아키텍처, 정교한 캐싱 시스템, 다양한 AI 모델을 교체, 혼합 및 결합해 워크플로에 적용할 수 있는 기능 등을 통해 최적화 *를 지원합니다. 파이프라인이 복잡해지고 실행 횟수가 늘어날수록 Salt에서 얻을 수 있는 컴퓨팅 효율은 더욱 커집니다.
Cloudera와 Salt AI 솔루션은 각 고객이 기존에 사용하던 클라우드, 데이터 플랫폼, AI 도구 에코시스템과 원활하게 연동되도록 설계되었습니다. 이 솔루션은 외부로의 데이터 전송 없이 고객의 가상 프라이빗 클라우드(VPC)에 배포할 수 있으며 다양한 모델 제공업체, 벡터 저장소, 데이터 시스템과도 연동됩니다.
Apache Iceberg를 기반으로 구축된 Cloudera의 개방형 데이터 레이크하우스는 다기능 분석과 자동화된 데이터 관리 기능(예: 스키마 및 파티션 진화)을 결합한 유연하고 우수한 성능의 테이블 형식을 제공합니다. 이러한 접근 방식을 통해 서로 다른 다양한 데이터 소스 간 피처 엔지니어링 워크플로를 표준화할 수 있으며, 생명과학 분야에서 요구되는 GxP 규정 준수 *에도 효과적으로 대응할 수 있습니다.
또한 Cloudera의 Iceberg REST 카탈로그 *는 Apache Iceberg 테이블을 지원하는 다른 퍼블릭 클라우드 데이터 플랫폼(예: Databricks, Snowflake)과의 데이터 공유를 지원합니다. Salt AI는 텍스트 쿼리를 LLM, 그래프 데이터베이스, 모델링 도구, 내부 시스템을 통합적으로 오케스트레이션하는 연구개발(R&D) 워크플로로 변환하는 메커니즘을 제공합니다. 또한 연구자들이 코드(예: Python 스크립트)를 시각적 워크플로로 전환할 수 있도록 지원해 연구팀 간 협업을 강화합니다. 이러한 기능은 사일로화된 연구 이니셔티브에 대한 접근성을 높이고, 맞춤형 통합 및 오케스트레이션 로직을 직접 구축하는 수고 없이 복잡한 시스템 통합을 자동화함으로써 혁신 주기를 가속합니다.
Cloudera를 표준 플랫폼으로 채택한 조직이라면 이 파트너십을 통해 빠르게 활용 기반을 확보할 수 있습니다. 거버넌스가 적용된 데이터와 컨텍스트 기반 오케스트레이션을 결합해 분자 설계, 약물 재창출, 중개 의학, 프로토콜 작성, 의학 및 학술 업무 지원 등의 활용 사례에 바로 적용할 수 있습니다. 다른 조직에게는 기존 데이터 플랫폼을 컨텍스트 중심의 AI 오케스트레이션 계층과 결합하기 위한 청사진 역할을 합니다.
그림 1. Cloudera와 Salt AI의 협력이 생명과학 분야 혁신을 가속하는 방식
엔터프라이즈 배포 환경에서 Cloudera와 Salt AI를 함께 배포한 사례들을 보면 조직은 전례 없는 수준의 확장성을 구현했습니다. 시간당 수천 건의 데이터 엔지니어링 작업을 처리할 수 있었고, 복잡한 R&D 워크플로의 프로토타이핑도 더 빠르게 진행할 수 있었습니다. 또한 AlphaFold2와 같은 머신러닝 워크로드에서는 성능과 비용 측면에서 획기적인 개선이 이루어졌습니다. 예를 들어 Salt AI는 AlphaFold2 처리 시간을 기존 대비 22배 단축* 했습니다. 또한 이러한 성과는 모든 워크플로 실행에 대한 원격 계측 신호, 거버넌스 상속, 그리고 명확한 감사 추적이 함께 확보된 상태에서 이루어집니다. 이를 통해 팀은 데이터와 기술 솔루션을 통합하는 데 시간을 들이는 대신 과학적 성과 도출에 집중할 수 있습니다.
Salt AI는 앞으로도 다양한 클라우드, 데이터 플랫폼, AI 모델 에코시스템과의 상호 운용성을 지속적으로 강화해 나갈 예정입니다. 이와 동시에 Cloudera와 같은 파트너와 협력해 규제가 엄격한 산업에서도 채택 및 조정할 수 있는 구체적인 활용 패턴을 제시할 계획입니다. 생명과학 분야 팀에게 이는 AI 실험을 지속 가능하고 신뢰할 수 있는 시스템으로 발전시키기 위한 더 많은 선택지와 더 명확한 사례가 제공될 것임을 의미합니다. Cloudera 기능 *과 Salt AI 플랫폼에 대해 더 자세히 알아보시기 바랍니다.
This may have been caused by one of the following: