“어떻게 하면 올바른 데이터를, 올바른 위치에서, 올바른 시점에 활용할 수 있을까요?”
이 질문은 엔터프라이즈 환경에서 에이전트 기반 AI를 구현할 때 겪게 되는 핵심 문제를 나타냅니다. 대규모 언어 모델(LLM)은 강력한 추론 및 오케스트레이션 역량을 제공하지만, 그 성과는 보다 근본적인 요소에 의해 좌우됩니다. 바로 추론과 실행을 위한 적절한 비즈니스 컨텍스트를 제공하는 것입니다. 컨텍스트 엔지니어링은 데이터, 메타데이터, 액세스 제어 정책 및 메모리를 결합하여 에이전트가 안전하고 설명 가능한 방식으로 행동하도록 만드는 방법을 설계하는 분야입니다.
Cloudera는 새로운 생성형 AI(GenAI) 및 에이전트 기반 AI 활용 사례를 실험하는 엔터프라이즈 고객과 협업하면서 이러한 과제가 얼마나 현실적인 문제인지 직접 경험하고 있습니다. 에이전트 기반 AI 시스템의 성공 여부는 AI 라이프사이클 전반에 걸쳐 지식을 체계적으로 수집하고, 거버넌스를 적용하며, 재사용할 수 있는 데이터 아키텍처에 달려 있습니다. 하지만 많은 조직이 이를 구축하는 데 어려움을 겪고 있습니다.
이 블로그에서는 Cloudera가 에이전트 기반 AI 시스템을 구축하는 방식을 소개합니다. 이 접근 방식은 핵심 역량을 연결(Connect), 컨텍스트화(Contextualize), 활용(Consume)이라는 세 가지 축으로 구분합니다. 이 접근 방식을 기반으로 기업 고객은 지능적이면서도 신뢰할 수 있고, 설명 가능하며, 실제 운영 환경에 적합한 에이전트 기반 시스템을 구축할 수 있습니다.
현대적인 AI 에이전트는 파편화된 환경에서는 제대로 작동하기 어렵습니다. 하지만 대부분의 기업에는 데이터가 여러 클라우드, 데이터 센터 및 레거시 시스템에 일관되지 않은 형식으로 분산되어 있습니다. 이러한 데이터를 구조나 보호 장치 없이 AI 시스템에 그대로 노출하면 성능 저하와 거버넌스 리스크가 발생할 수 있습니다.
성공적인 조직들은 가장 먼저 다양한 환경과 형식을 아우르는 통합 데이터 계층 *을 구축하는 데 집중합니다. 이는 모든 데이터를 한곳에 모으는 중앙집중화하는 것이 아니라 데이터 패브릭 아키텍처를 통해 데이터를 유기적으로 연결하는 작업을 의미합니다. 그 결과, 공유 메타데이터, 액세스 정책, 연합형 데이터 엔지니어링, 런타임 상호운용성 *을 갖춘 하나의 통합 계층이 형성됩니다.
개방형 테이블 형식과 표준 API 접근 방식을 도입하면 데이터 액세스가 간소화되고 유연성도 확보됩니다. 특히 개방형 레이크하우스 아키텍처는 여러 엔진 전반에서 실시간으로 일관된 데이터 뷰를 제공해 검색 증강 생성(RAG)과 고도화된 추론에 의존하는 에이전트 기반 워크플로를 안정적으로 지원합니다.
데이터 연결이 끝나면 다음 과제는 에이전트가 데이터를 단순히 읽는 수준을 넘어 그 의미와 사용 방식까지 이해하도록 만드는 것입니다. 그 출발점은 탐색입니다. 이는 클라우드 및 온프레미스 시스템 전반에 걸친 데이터 소스를 자동으로 식별하고, 테이블 이름, 필드, 형식 등과 같은 메타데이터를 즉시 활용 가능한 상태로 만드는 과정입니다. Cloudera Octopai Data Lineage *와 같은 도구는 ETL 스크립트를 스캔하고 파이프라인 로직을 리버스 엔지니어링하여, 데이터가 소스에서 최종 목적지까지 어떻게 이동하고 변환되는지를 보여줍니다. 이 과정에서 모든 의존 관계도 함께 수집됩니다.
이렇게 축적된 정보는 계보의 기반이 됩니다. 계보는 데이터 세트 간의 연결 관계와 시간에 따른 변화 이력을 보여줍니다. 데이터 계보는 결과를 검증하거나, 추천 결과 또는 에이전트의 행동을 설명해야 할 때, 혹은 오류 발생의 원인을 추적해야 할 때 핵심적인 역할을 합니다. 이는 에이전트가 상호작용하는 시스템 전반에 투명성과 신뢰를 제공합니다.
마지막으로 카탈로그화* 는 이러한 정보를 실제로 활용 가능한 구조로 정리하는 단계입니다. 중앙화된 메타데이터 저장소는 사람과 에이전트 모두가 필요한 데이터를 쉽게 찾고, 데이터 세트 간의 관계를 이해하며, 데이터 처리 방식에 영향을 미치는 정책을 확인할 수 있도록 지원합니다. 체계적으로 설계된 카탈로그는 청사진 역할을 하며, 에이전트에게 기업 데이터 자산 전반에 대한 명확하고 탐색 가능한 지도인 지식 그래프를 제공합니다. 카탈로그는 기술, 운영 및·비즈니스 관련 메타데이터는 물론 데이터를 이해하고 실행으로 옮기기 위해 필요한 모든 비즈니스 정의와 비즈니스 로직까지 포괄적으로 담아냅니다.
이러한 컨텍스트화 덕분에 에이전트는 단순히 정보를 조회하는 수준을 넘어 패턴을 탐색하고, 더 나은 질문을 제기하며, 작동하는 환경에 대한 깊은 이해를 바탕으로 의사결정을 내릴 수 있습니다.
에이전트 기반 시스템 구축의 마지막 단계는 AI가 추적 가능하고 안전하며, 정확한 정보에 근거해 행동할 수 있도록 하는 것입니다. 이 단계에서는 아키텍처 선택이 중요합니다. 보호 장치, 관측 가능성 및 통제된 액세스는 에이전트가 중요한 순간에 예측 가능한 방식으로 작동할지 여부를 결정합니다.
Cloudera는 일반적인 컨텍스트 엔지니어링 기법을 각 기법에 적합한 데이터 과제와 연결하는 방식이 효과적이라는 점을 확인했습니다. 실제 환경에서는 다음과 같은 형태로 구현됩니다.
데이터 준비 과제 |
컨텍스트 엔지니어링 기법 |
Cloudera의 접근 방식 |
민감한 데이터가 프롬프트에 노출 |
프롬프트 엔지니어링 |
민감한 데이터를 마스킹하는 프롬프트 게이트웨이 |
정제되지 않은 비정형 데이터 또는 오래된 벡터 인덱스 |
RAG |
거버넌스가 적용된 안전한 실시간 스트리밍 데이터 파이프라인 |
계보 부족, 취약한 학습 데이터 세트 |
미세 조정 |
계보 추적을 통한 AI 설명 가능성 강화 |
에이전트의 권한 초과 행동, 불투명한 의사결정 |
도구/API 액세스 |
메타데이터 태깅, 자동 데이터 분류, 세분화된 액세스 제어 및 모든 시스템 호출에 대한 완전한 감사 추적 |
에이전트가 내부 엔터프라이즈 지식에 액세스 불가 |
모델 컨텍스트 프로토콜(MCP) |
REST 카탈로그를 통한 Apache Iceberg 기반 컨텍스트에 대한 통제된 액세스 |
적절한 기법은 에이전트의 역할, 데이터 민감도, 운영 환경에 따라 달라집니다. 다음은 실제로 효과가 검증된 대표적인 엔터프라이즈 활용 사례와 권장 조합입니다.
사용 사례 |
권장 방식 |
내부 지식 어시스턴트 |
RAG + 벡터 DB + 프롬프트 엔지니어링 보완 |
CRM 데이터를 활용한 영업 지원 봇 |
함수 호출 + 비즈니스 컨텍스트 주입 |
제품별 지원 에이전트 |
미세 조정 또는 RAG + MCP 공유 컨텍스트 |
인사이트 도출을 위한 데이터 분석 다중 에이전트 기반 워크플로 |
LangGraph + MCP + 도구 액세스 + 분할 메모리 |
문서 이해(PDF, Excel) |
멀티모달 입력 + 전처리 파이프라인 |
이러한 활용 방식은 에이전트가 정밀하게, 안전하게, 그리고 비즈니스 목표에 부합하는 방식으로 작동하도록 합니다.
Cloudera는 오랜 시간 동안 복잡한 엔터프라이즈 데이터를 다뤄 왔습니다. 데이터 사일로를 연결하고, 거버넌스를 일관되게 적용하며, AI와 분석을 위한 안전한 파이프라인을 구축하고, 하이브리드 환경 전반에서 데이터 계보를 명확히 파악할 수 있도록 했습니다. 이러한 경험 덕분에 에이전트 기반 AI이라는 새로운 패턴이 등장했을 때, Cloudera는 처음부터 다시 시작할 필요가 없었습니다. 컨텍스트가 어디에 존재하는지, 그리고 이를 적절한 보호 장치 하에서 안전하게 수집하는 방법을 이미 알고 있었기 때문입니다.
Cloudera Octopai Data Lineage를 사용하면 클라우드와 온프레미스 환경 전반에 걸쳐 데이터 흐름을 자동으로 매핑하고, 의존성을 추적하며, 메타데이터를 체계적으로 카탈로그화할 수 있습니다. 여기에 데이터 카탈로그, 관측 가능성, 액세스 제어를 더하면 에이전트는 보다 안전하고 지능적인 방식으로 시스템과 상호작용할 수 있습니다. 그 결과 팀은 데이터에 대한 가시성, 거버넌스 및 신뢰를 확보하고, 에이전트 기반 워크플로를 조직 전체로 확장할 수 있는 필수 기반을 갖추게 됩니다.
Cloudera는 이러한 구성 요소를 실제로 활용할 수 있도록 개방형 데이터 레이크하우스* 와 Cloudera AI Studio *에 통합했습니다. 이를 통해 기업은 운영 환경에서 안전한 에이전트 기반 시스템을 설계하고, 배포하며, 관리할 수 있습니다.
Cloudera *가 어떻게 에이전트에 필요한 올바른 비즈니스 컨텍스트를 확보해 AI 에이전트를 운영 환경에 적용할 수 있도록 지원하는지 자세히 알아보세요.
This may have been caused by one of the following: