ClouderaNOW AI 에이전트, 클라우드 버스팅 및 AI용 데이터 패브릭 소개 | 4월 8일

지금 등록하기
  • Cloudera Cloudera
  • 클라우데라에 문의하기
    | 기술

    고성능 컴퓨팅과 주권 기반 AI 간 격차 해소 - 제1부(총 3부)

    Gabriele Folchi headshot
    Lama Itani headshot
    현대 건축물 사이의 다리를 건너는 사람들

    전통적으로 고성능 컴퓨팅 기반 데이터 분석은 주로 엔지니어링 및 제조 산업의 연구개발에 집중되어 왔습니다. 반면 유사한 빅데이터 시스템을 활용하는 운영 중심의 데이터 분석은 별도의 영역에서 분리된 채 운영되는 경우가 많았습니다. 

    오늘날 생성형 AI(GenAI)와 머신러닝(ML)의 부상은 이 두 영역을 연결할 수 있는 중요한 기회를 제공합니다. 두 부문을 모두 갖춘 기업은 이러한 시너지를 통해 각 부문이 축적한 전문성과 인프라 투자 성과를 함께 활용할 수 있으며, 이는 생산성 향상과 R&D 조직의 경쟁력 강화로 이어집니다. 특히 고성능 컴퓨팅을 활용하는 기계 엔지니어는 빅데이터 플랫폼에서 학습된 지능형 AI 기반 압축 기법(예: 차수 축소 모델)을 적용하여 제품 개발 속도를 눈에 띄게 높이고 운영에 대한 심층적인 인사이트를 확보할 수 있습니다.

    총 3부로 구성된 이 블로그 시리즈에서는 인프라 제공자의 관할권이 아니라 고객의 주권 아래에서 운영될 수 있는 개방형 데이터 레이크하우스, 즉 주권 기반 데이터 레이크하우스가 실험 물리학 및 AI 워크플로를 강력한 엔터프라이즈급 역량으로 확장하는 데 필요한 아키텍처인 이유와 그 방법을 설명합니다. 또한 엔지니어링의 정밀성과 최신 데이터 분석의 민첩성을 결합하려는 조직에게 Cloudera가 최적의 대안 *인 이유도 함께 알아봅니다.


    고성능 컴퓨팅과 차수 축소 솔버의 기본 개념 


    전체 차수 모델

    시뮬레이션이 작동 원리를 알면 엔지니어링 분야에서 AI가 어떤 변화를 만들어내는지 보다 명확하게 판단할 수 있습니다. 유한 요소 해석 *(실제 구조물의 안정성을 검증하는 데 사용)이나 전산 유체 역학 *(공기나 유체의 흐름을 모델링하는 데 사용)과 같은 전통적인 다중 물리 시뮬레이션은 물리적 구조(예: 교량)를 수백만 개의 작은 요소로 구성된 ‘메시(mesh)’로 분할하여 계산을 수행합니다. 이러한 요소는 수학적으로 상호작용하는 텐서의 집합으로 표현됩니다. 텐서는 힘, 압력, 온도, 운동 등 다양한 물리적 요소가 시스템 전반에서 어떻게 상호작용하는지를 모델링하는 데 사용되는 구조화된 수치 집합입니다.

    전체 차수 모델은 이러한 시스템을 가장 상세하고 물리적으로 정확하게 표현한 모델입니다. 이 모델의 물리적 특성은 OpenFOAM과 같은 솔버에 의해 시뮬레이션되며, 솔버는 복잡한 방정식을 지속적으로 계산해 이를 재현합니다. 이 과정에서는 단일 요소의 반응이 인접 요소와 전체 시스템에 미치는 영향을 포함하여, 물리 법칙에 기반한 텐서의 변화를 계산합니다. 이와 같은 방식은 매우 높은 정밀도를 제공하지만, 상당한 계산 비용을 수반합니다. 일반적으로 하나의 시나리오를 분석하는 데에도 슈퍼컴퓨터 클러스터를 며칠간 가동해야 할 만큼 계산 부담이 크기 때문에, 팀이 반복 실험을 수행하거나 대안을 검토하고 제품을 시장에 출시하는 속도에 제약이 생깁니다.

    차수 축소 모델

    차수 축소 모델은 복잡한 시뮬레이션을 대폭 단순화하는 AI 기반 기법입니다. 이 모델은 특이값 분해 *와 같은 고전적 방법부터 오토인코더(autoencoder)와 같은 최신 인공신경망 구조에 이르기까지 다양한 고급 수학 기법을 활용해 매우 복잡한 비선형 시스템을 근사합니다. 

    차수 축소 모델은 전체 차수 모델에서 생성된 방대한 양의 시뮬레이션 텐서 데이터에서 시스템을 규정하는 핵심 패턴을 식별하고 포착합니다.

    차수 축소 모델은 이렇게 문제를 정제하여 거대한 계산 공간을 훨씬 작은 '잠재 공간(latent space)'으로 효과적으로 축소합니다. 이는 시스템을 단순화한 수학적 표현으로, 일종의 디지털 트윈에 해당합니다. 그 결과 기존 솔버가 수백만 개의 복잡한 방정식을 처리해야 하는 것과 달리 차수 축소 모델은 약 50개의 잠재 변수만 계산해도 기반이 되는 물리 현상의 99%를 설명할 수 있습니다.

    제품 성능, 신뢰성, 비용을 최적화하는 것이 핵심인 기계 엔지니어의 업무는 형상, 소재, 두께, 무게 등 수많은 변수 조합을 반복적으로 검토하는 과정으로 이루어집니다. 이러한 맥락에서 차수 축소 모델의 기능은 혁신의 속도를 크게 변화시킬 수 있습니다. 기계 엔지니어의 워크플로는 본질적으로 다양한 가정 시나리오를 지속적으로 검토하는 과정이며, 여기에는 물리 기반 솔버에서 도출된 시뮬레이션 결과와 실제 운영 데이터가 함께 활용됩니다. 이 과정에 차수 축소 모델을 통합하면 다음과 같은 중요한 전략적 이점들을 확보할 수 있습니다.
      

    차수 축소 모델의 주요 전략적 활용

    설명

    비즈니스 영향

    빠른 반복

    수천 개의 설계 변경 및 가정 반기시 나리오를 몇 초 만에 실행

    제품 개발 기간을 몇 개월에서 며칠로 단축

    엣지 컴퓨팅 배포

    차수 축소 모델은 경량화되고 처리 속도가 빨라 현장에 배치된 임베디드 컨트롤러나 IoT 디바이스에서도 직접 실행 가능

    클라우드 연결 여부와 관계없이 실시간 의사결정 및 자동 제어 가능

    실시간 디지털 트윈

    실제 장비와 함께 작동하는 물리 기반 신경망(PINN)을 통해 실시간 센서 데이터를 바탕으로 시스템의 동작과 이상을 미리 예측

    유지보수 방식이 사후 대응에서 사전 예방 중심으로 전환되며, 다운타임을 줄이고 자산 수명 연장 가능


    차수 축소 모델 개발: 이론에서 실제 운영까지

    차수 축소 모델은 엔지니어링 워크플로를 가속화하여 높은 가치를 제공하지만, 성공적인 배포를 위해서는 조직이 구체적인 기술 제약과 운영상의 현실을 함께 고려해야 합니다.

    학습 데이터 요구 사항

    정확한 차수 축소 모델을 구축하기 위해서는 전체 차수 모델로부터 생성된 대량의 데이터가 필요합니다. 예를 들어, 신뢰할 수 있는 자동차 충돌 해석용 차수 축소 모델을 구축하려면 다양한 소재와 형상 조건에 대해 500~2000회에 이르는 전체 차수 모델 시뮬레이션이 필요하며, 이는 고성능 컴퓨팅 클러스터를 기준으로 몇 주에 달하는 연산 시간입니다. 학습 데이터가 충분하지 않을 경우, 차수 축소 모델은 검증되지 않은 조건에서 심각한 오류를 발생시킬 수 있습니다. 자동화된 실험 설계 도구를 활용하면 어떤 시뮬레이션을 실행할지 최적화해 정확도를 유지하면서 필요한 전체 차수 모델 시뮬레이션 수를 30~40% 줄일 수 있습니다.

    정확도 한계

    차수 축소 모델은 학습된 범위를 벗어날 경우 성능이 저하됩니다. 예를 들어, 800~1200°C 범위에서 학습된 터빈 블레이드용 차수 축소 모델은 1250°C 조건에서 15~20% 수준의 오차를 보일 수 있습니다. 이러한 문제는 앙상블 모델링 기법과 불확실성 정량화 방법을 통해 해결할 수 있습니다. 또한 모델 신뢰도가 사전에 정의된 임계값 이하로 떨어질 경우, 원래의 전체 차수 모델을 활용한 검증 시뮬레이션을 자동으로 수행하도록 설정할 수 있습니다.

    검증 부담

    자동차, 항공우주, 에너지 등 안전이 중요한 환경에서 차수 축소 모델을 적용하려면 전체 차수 모델과의 엄격한 검증이 필요합니다. 이 과정은 광범위한 상관성 분석 등 상당한 노력을 수반하는 경우가 많습니다. 이는 규제 기관이 차수 축소 모델의 사용을 승인하기 전에 전체 차수 모델과의 동등성을 문서로 입증할 것을 요구하기 때문입니다. 

    검증 과정은 부담이 클 수 있지만, 일단 검증이 완료되면 차수 축소 모델을 통해 기존의 전체 차수 모델만으로는 불가능했던 수천 번의 빠른 반복 실험을 수행할 수 있습니다.

    기술 격차

    효과적인 차수 축소 모델 개발을 위해서는 머신러닝 엔지니어링과 도메인 물리 분야 모두에 대해 전문적인 지식을 갖추고 있어야 합니다. 데이터 과학자가 단독으로 작업할 경우 수학적으로는 정교하지만 물리적 해석 가능성이 부족한 모델이 개발될 수 있습니다. 반대로 기계 엔지니어가 단독으로 작업할 경우에는 하이퍼파라미터 최적화(예: 모델 아키텍처 선택 및 모델 스케일링)에 한계가 있을 수 있습니다. 이러한 이유로 여러 부서의 전문성을 결합한 소규모 협업 팀이 사일로화된 조직보다 더 나은 성과를 내는 경우가 많습니다. 또한 엔지니어가 최신 머신러닝 도구를 활용할 수 있도록 교육 프로그램에 대한 투자도 아끼지 않아야 합니다.

    엣지 배포 

    실시간 제어가 필요한 환경에서는 임베디드 하드웨어에서 10밀리초 미만의 지연 시간으로 결정론적 추론을 수행할 수 있어야 합니다. 그러나 모든 차수 축소 모델 아키텍처가 이러한 지연 시간 및 메모리 요구 사항을 충족하는 것은 아닙니다. 심층 신경망은 리소스 사용량이 많아 리소스 제약을 초과하기 쉽고, 반대로 지나치게 단순한 선형 차수 축소 모델은 정확도가 떨어질 수 있습니다. 

    현재 가장 권장되는 방식은 단계적 배포입니다. 

    1. 먼저 클라우드 기반 차수 축소 모델을 활용해 디지털 트윈 시각화 및 예측 유지보수를 수행합니다. 

    2. 이후 충분한 하드웨어 인더루프(HIL) 테스트를 통해 실시간 성능이 검증된 경우에 한해 엣지 컨트롤러를 배포합니다.


    차수 축소 모델의 확장: 임시 스크립트에서 엔터프라이즈 머신 러닝 운영(MLOps)으로

    차수 축소 모델 자체의 수학적 기반은 이미 충분히 검증되어 있습니다. 가장 큰 과제는 조직 전반에서 모델 개발과 배포를 표준화하는 데 있습니다. 현재 많은 R&D 조직은 분산된 Python 스크립트, 관리되지 않는 파일 시스템, 또는 특정 벤더의 독점 환경에 의존하고 있습니다. 이러한 방식은 개별 프로젝트에서는 유효할 수 있으나, 거버넌스, 규정 준수, 업계 표준에 부합하는 개방형 커뮤니티 관행이 요구되는 환경에서는 한계를 드러냅니다.

    차수 축소 모델을 확장하려면 시뮬레이션 데이터를 재무 데이터나 고객 데이터와 동일한 수준의 엄격한 데이터 거버넌스 원칙에 따라 처리해야 합니다.

    이러한 전환을 위해서는 다음과 같은 문제를 해결해야 합니다.
     

    MLOps 요구 사항

    설명

    비즈니스 영향

    대규모 데이터 처리

    Spark와 같은 확장 가능한 데이터 파이프라인 및 변환 도구를 활용해 OpenFOAM과 같은 다양한 솔버에서 생성된 방대한 과거 시뮬레이션 데이터에서 핵심 특징을 추출하고 이를 표준화

    복잡한 시뮬레이션 데이터를 정제되고 거버넌스가 적용된 상태로 유지해 신뢰할 수 있는 AI 학습에 활용할 수 있도록 함으로써 재작업 및 리스크 감소

    팀 단위 실험 추적

    Jupyter Notebook과 같은 보안 공유 환경에 MLflow와 같은 최신 머신러닝 실험 추적 도구를 결합해 물리학자와 데이터 과학자가 코드를 공동 개발하고 다양한 AI 모델을 실험하며, 하이퍼파라미터와 손실 값 등 주요 지표에 일관되게 태그를 지정할 수 있도록 지원

    전체 이력 및 재현성 보장, 차수 축소 모델 배포 시, 팀이 해당 결과를 얻는 데 사용된 모델의 정확한 버전, 데이터, 설정, 개발 당시의 정확도 평가 지표, 하이퍼파라미터 구성을 즉시 역추적 가능(규제 산업에 필수)


    자세한 내용은 제2부에서 확인하실 수 있습니다.

    시작할 준비가 되셨나요?

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.