데이터 메시란 무엇인가요?

데이터 메시는 분산된 소유권을 통해 고급 데이터 보안 문제를 해결하는 아키텍처 프레임워크입니다. 조직에는 분석을 위해 통합해야 하는 여러 사업부의 여러 데이터 소스가 있습니다. 데이터 메시 아키텍처는 서로 다른 데이터 소스를 효과적으로 통합하고 중앙에서 관리되는 데이터 공유 및 거버넌스 지침을 통해 서로 연결합니다. 업무 부서에서는 공유 데이터에 액세스하는 방법, 액세스하는 사람 및 액세스하는 형식을 제어할 수 있습니다. 데이터 메시는 아키텍처의 복잡성의 증가시키지만 동시에 데이터 액세스, 보안 및 확장성을 증가시켜 효율성을 향상시킵니다.

데이터 메시는 어떤 당면 과제를 해결하나요?

조직들은 끝없이 증가하는 데이터 볼륨에 액세스할 수 있지만, 실질적인 이점을 얻기 위해서는 데이터를 정렬, 필터링, 처리 및 분석해야 합니다. 조직에서는 중앙의 엔지니어 및 과학자 팀을 활용하여 데이터를 관리하는 경우가 많습니다. 이 팀은 다음을 목적으로 중앙 집중식 데이터 플랫폼을 사용합니다.

  • 여러 사업부(또는 비즈니스 도메인)에서 데이터를 수집합니다.
  • 데이터를 일관성과 신뢰성이 높고 유용한 형식으로 변환합니다. 예를 들어 이 팀은 시스템의 모든 날짜가 공통 형식인지 확인하거나 일일 보고서를 요약할 수 있습니다.
  • 사람이 읽을 수 있도록 보고서를 생성하거나 애플리케이션을 위한 XML 파일을 준비하는 등 데이터 소비자를 위해 데이터를 준비합니다. XML에 대해 읽어보기 »

데이터 볼륨이 증가함에 따라 조직들은 이전과 같은 수준의 민첩성을 유지하는 데 더 많은 비용을 지출해야 하는 문제에 직면하게 됩니다. 모놀리스 시스템은 다음과 같은 이유로 확장하기가 어렵습니다.

사일로화된 데이터 팀

중앙의 데이터 팀에 있는 전문 데이터 사이언티스트와 엔지니어는 비즈니스와 도메인에 대한 지식이 부족합니다. 하지만 목적을 명확하게 이해하지 못한 채로 어쨌든 다양한 운영 및 분석 요구 사항에 맞는 데이터를 제공해야 합니다.

느린 변경 응답성

데이터 엔지니어는 일반적으로 데이터를 수집하여 중앙의 데이터 레이크에 저장하기 전에, 여러 단계에 걸쳐 데이터를 변환하는 파이프라인을 구현합니다. 변경 요청이 있으면 전체 파이프라인을 수정해야 합니다. 중앙의 팀은 비즈니스 도메인에 대한 지식이 부족한 상태로, 서로 상충하는 우선 과제를 관리하면서 이러한 변경을 수행해야 합니다.  

낮은 정확도

사업부는 데이터 소비자 및 중앙의 데이터 팀과 단절되어 있습니다. 따라서 의미 있고, 정확하고, 유용한 데이터를 제공할 동기가 부족합니다.

데이터 메시를 사용하면 어떤 이점이 있나요?

시간이 지남에 따라, 데이터 플랫폼 아키텍처는 데이터 소비자의 불만을 야기하고, 데이터 생산자와 단절되며, 데이터 관리 팀에 과도한 작업 부담을 초래할 수 있습니다. 데이터 메시 아키텍처는 사업부가 데이터 도메인에 대한 높은 자율성과 소유권을 확보하도록 지원함으로써 이러한 문제를 해결하는 데 도움을 줍니다. 데이터 메시 아키텍처의 이점은 다음과 같습니다.

민주적인 데이터 처리

데이터 메시는 분산형 거버넌스 프레임워크 내에서 의미 있는 데이터 제품을 만드는 도메인 전문가에게 데이터 제어 권한을 넘깁니다. 또한 데이터 소비자는 데이터 제품에 대한 액세스를 요청하고 데이터 소유자에게 직접 승인 또는 변경을 요청합니다. 결과적으로, 모든 사용자가 관련 데이터에 더 빠르게 액세스할 수 있게 되고 그에 따라 비즈니스 민첩성이 향상됩니다.

유연성 향상

중앙 집중식 데이터 인프라는 상대적으로 복잡하며, 유지 관리하고 수정하는 데 협업이 요구됩니다. 반면, 데이터 메시는 중앙 시스템의 기술 구현을 비즈니스 도메인으로 재구성합니다. 따라서 중앙 데이터 파이프라인이 사라지고 운영 병목 현상과 시스템의 기술적 부담이 적어집니다.

비용 효율성

분산 데이터 아키텍처는 조직이 배치 처리에서 벗어나 실시간 데이터 스트리밍을 도입하도록 유도합니다. 사용자는 리소스 할당 및 스토리지 비용에 대한 가시성을 개선하여 예산 지출의 효율성을 높이고 비용을 절감할 수 있습니다.

데이터 검색 기능 개선

데이터 메시 모델에서는 중앙의 엔지니어링 팀을 중심으로 데이터 사일로가 형성되지 않습니다. 또한 다양한 비즈니스 도메인 시스템 내에 데이터 자산이 고립될 위험이 줄어듭니다. 대신, 중앙 데이터 관리 프레임워크에서 조직의 가용 데이터를 관리하고 기록합니다. 예를 들어 도메인 팀들은 자동으로 중앙 레지스트리에 데이터를 등록합니다.

보안 및 규정 준수 강화

데이터 메시 아키텍처는 특정 분야 내에서, 그리고 도메인 간에 데이터 보안 정책을 적용합니다. 또한 데이터 공유 프로세스를 중앙 집중식으로 모니터링하고 감사하는 기능을 제공합니다. 예를 들어 모든 도메인에 로그 및 추적 데이터 요구 사항을 적용할 수 있습니다. 감사 담당자는 데이터 액세스의 사용량과 빈도를 관찰할 수 있습니다.

데이터 메시의 사용 사례로는 무엇이 있나요?

데이터 메시는 모든 유형의 빅 데이터 사용 사례를 지원할 수 있습니다. 다음은 몇 가지 예입니다.

데이터 분석

여러 업무 부서에서 데이터 분석 워크로드를 지원할 신뢰할 수 있는 고품질 데이터를 프로비저닝합니다. 고객 팀은 이 데이터를 사용하여 프로젝트 성과, 마케팅 결과 및 운영 데이터를 보여주는 맞춤형 비즈니스 인텔리전스 대시보드를 만들 수 있습니다. 데이터 사이언티스트는 기계 학습 프로젝트를 가속화하여 자동화의 모든 이점을 이끌어낼 수 있습니다.

고객 관리

데이터 메시는 지원 및 마케팅 팀을 위해 고객에 대한 포괄적인 가시성을 제공합니다. 예를 들어 지원 팀은 관련 데이터를 수집하고 평균 처리 시간을 단축할 수 있으며, 마케팅 팀은 올바른 고객 집단을 타깃으로 마케팅 캠페인을 실시할 수 있습니다.

규제 기관 보고

규제 목표를 충족하는 데이터의 양, 적시성 및 정확성에 대한 요구는 규제 기관과 규제 대상 기업 모두에게 어려운 과제가 됩니다. 이들은 모두 데이터 메시 기술을 적용함으로써 이점을 얻을 수 있습니다. 예를 들어 조직은 규제 기관이 중앙에서 관리하는 데이터 메시로 보고 데이터를 푸시할 수 있습니다.

서드 파티 데이터

데이터 메시 기술은 서드 파티 및 퍼블릭 데이터 세트가 필요한 사용 사례에 적용할 수 있습니다. 외부 데이터를 별도의 도메인으로 취급하면서 메시에 구현하여 내부 데이터 세트와의 일관성을 보장할 수 있습니다.

데이터 메시 아키텍처의 원리는 무엇인가요?

조직에서 데이터 메시 패러다임을 도입하려면 다음 네 가지 원칙을 구현해야 합니다.

분산 도메인 중심 아키텍처

데이터 메시 접근 방식은 데이터 관리 책임이 업무 부서 또는 도메인에 따라 구성된다는 것을 시사합니다. 도메인 팀은 해당 업무 부서와 관련되거나 업무 부서에 의해 생성된 데이터를 수집, 변환 및 제공할 책임이 있습니다. 데이터 소스에서 중앙 데이터 플랫폼으로 도메인 데이터가 이동하는 것이 아니라, 특정 팀이 쉽게 소비할 수 있는 방식으로 데이터 세트를 호스팅하고 서비스합니다. 예를 들어 소매업체는 의류 제품에 대한 데이터가 있는 의류 도메인과 사이트 방문자 행동 분석 데이터가 포함된 웹 사이트 행동 도메인을 사용할 수 있습니다.

제품으로서의 데이터

데이터 메시를 성공적으로 구현하려면 모든 도메인 팀이 제공하는 데이터 세트를 제품으로 간주해야 합니다. 즉, 데이터 자산은 자신들의 제품으로, 조직의 나머지 비즈니스 부문과 데이터 팀은 고객으로 생각해야 합니다.

최상의 사용자 경험을 제공하려면 도메인 데이터 제품이 다음과 같은 기본적인 특성을 가져야 합니다.

검색 가능성

각 데이터 제품은 쉽게 검색할 수 있도록 중앙 집중식 데이터 카탈로그에 자체적으로 등록됩니다.

어드레싱 가능성

모든 데이터 제품에는 데이터 소비자가 프로그래밍 방식으로 액세스할 수 있도록 지원하는 고유한 주소가 있어야 합니다. 이 주소는 일반적으로 조직 내에서 일률적으로 정한 명명 규칙을 따릅니다.

신뢰성

데이터 제품은 데이터가 문서화된 이벤트를 얼마나 실제에 가깝게 반영하는지를 기준으로 허용되는 서비스 수준 목표를 정의합니다. 예를 들어 주문 도메인에서는 고객의 주소와 전화번호를 확인한 후 데이터를 게시할 수 있습니다.

자체 설명

모든 데이터 제품에는 조직에서 정한 표준 명명 규칙에 따른 구문과 의미 체계가 잘 설명되어 있습니다.

셀프 서비스 데이터 인프라

분산 데이터 아키텍처에서는 모든 도메인에 자체 데이터 제품을 정리, 필터링 및 로드하는 자체 데이터 파이프라인을 설정해야 합니다. 데이터 메시는 셀프 서비스 데이터 플랫폼의 개념을 적용하여 이러한 작업이 중복되지 않도록 합니다. 데이터 엔지니어는 모든 사업부가 데이터 제품을 처리하고 저장할 수 있도록 기술을 설정합니다. 따라서 셀프 서비스 인프라를 통해 책임을 분담할 수 있습니다. 데이터 엔지니어링 팀은 기술을 관리하고 비즈니스 팀은 데이터를 관리합니다.

페더레이션형 데이터 거버넌스

데이터 메시 아키텍처는 조직 내에서 공동 책임으로서 보안을 구현합니다. 경영진은 여러분이 도메인에 적용할 수 있는 글로벌 표준과 정책을 결정합니다. 이와 동시에, 분산형 데이터 아키텍처에서는 도메인 내의 표준과 정책을 상당히 자율적으로 구현할 수 있습니다.

조직에 데이터 메시를 구축하려면 어떻게 해야 하나요?

데이터 메시는 팬데믹이 발생하고 나서야 관심을 받으며 새롭게 떠오른 개념입니다. 조직들은 특정 사용 사례에 적합한 데이터 메시를 구축하기 위해 다양한 기술을 실험하고 있습니다. 하지만 전사적으로 엔터프라이즈 데이터 메시를 도입하는 사례는 여전히 드뭅니다. 명확한 데이터 메시 구현 경로는 없지만 다음과 같은 몇 가지 방법을 제안할 수 있습니다.

기존 데이터 분석

데이터 메시를 구축하기 전에 기존 데이터의 카탈로그를 만들고 관련 비즈니스 도메인을 식별해야 합니다. 특정 조정 규칙을 따르는 것이, 도메인 간 데이터의 상관 관계를 효과적으로 분석하기 위한 열쇠입니다. 예를 들어 필드 유형 서식, 메타데이터 필드 및 데이터 제품 주소 규칙에 대한 글로벌 표준을 정의해야 합니다.

글로벌 데이터 거버넌스 정책 시행

페더레이션형 데이터 거버넌스를 구현하려면 중앙 IT 팀이 데이터 메시에 대한 보고, 인증 및 규정 준수 표준을 정해야 합니다. 또한 데이터 제품 소유자가 데이터 세트를 호스팅할 때 적용할 세분화된 액세스 제어를 정의할 수 있습니다. 데이터 생산자가 데이터 품질을 정의하고 측정하는 동안, 중앙 거버넌스 정책은 결정을 내리는 데 도움을 줍니다.

셀프 서비스 데이터 플랫폼 구축

셀프 서비스 데이터 플랫폼은 누구든 거기에 새로운 도메인 데이터 제품을 만들 수 있도록 범용으로 구축해야 합니다. 또한 기반 기술의 복잡성을 숨기고 인프라 구성 요소를 셀프 서비스 방식으로 제공해야 합니다. 포함할 기능의 예는 다음과 같습니다.

  • 데이터 암호화
  • 데이터 제품 스키마
  • 거버넌스 및 액세스 제어
  • 카탈로그 등록 또는 게시와 같은 데이터 제품 검색 기능
  • 데이터 제품 로깅 및 모니터링
  • 성능 향상을 위한 캐싱

또한 구성 및 스크립트와 같은 자동화 기능을 구축하여 데이터 제품을 생성하는 데 걸리는 시간을 단축할 수 있습니다.

적합한 기술 선택

데이터 웨어하우스, 데이터 레이크 등의 기존 스토리지 시스템도 데이터 메시를 지원할 수 있습니다. 모놀리스 시스템에서 분산된 여러 데이터 리포지토리로 사용 범위를 바꾸기만 하면 됩니다. 데이터 메시는 클라우드 플랫폼과 클라우드 중심 기술의 도입도 가능하게 합니다. 클라우드 인프라는 데이터 메시를 구축하는 데 필요한 운영 비용과 작업량을 줄여줍니다. 데이터 메시 아키텍처를 지원하려면 다양한 데이터 관리 서비스를 제공하는 클라우드 제공업체를 선택해야 합니다. 또한 레거시 시스템과의 데이터 통합 요구 사항도 고려해야 합니다.

전사적 문화 변혁의 시작

현재 AWS는 여러 데이터 제품으로 이루어진 데이터 메시를 손쉽게 구축하는 데 필요한 기술과 도구를 제공하고 있습니다. Amazon EMR과 같은 도구를 사용하면 그 어느 때보다 쉽게 배치와 스트리밍을 통합해나갈 수 있습니다. 하지만 소규모 프로젝트 이상으로 데이터 메시를 확장하려면 과거의 중앙 집중식 데이터 아키텍처에서 벗어나야 합니다. 이를 위해서는 다음을 강조하는 새로운 용어가 필요합니다.

  • 추출 및 로드보다는 데이터 검색 및 사용량
  • 향후 대량 배치 처리보다 실시간 데이터 처리
  • 중앙 데이터 플랫폼 아키텍처보다 분산 데이터 제품 소유권

현재는 데이터 기술에 따라 아키텍처가 결정되는 경우가 많습니다. 데이터 메시는 이러한 흐름을 역전시켜, 도메인 데이터 제품을 중앙에 배치함으로써 데이터 제품에 따라 기술이 결정되도록 합니다.

데이터 메시와 데이터 레이크의 차이점은 무엇인가요?

데이터 레이크는 전처리 없이 어떤 규모로든 정형 및 비정형 데이터를 모두 저장할 수 있는 리포지토리입니다. 중앙 집중식 데이터 플랫폼에서 데이터 레이크는 가능한 모든 소스의 데이터를 저장하는 핵심 기술입니다.

데이터 메시는 데이터 레이크를 이와 다른 방식으로 사용하는 데이터 관리 패러다임입니다. 데이터 레이크는 더 이상 전체 아키텍처의 중심이 아닙니다. 대신, 데이터 제품을 구현하는 데 사용하거나 셀프 서비스 인프라의 일부로 사용할 수 있습니다.

데이터 레이크에 대해 읽어보기 »

데이터 메시와 데이터 패브릭의 차이점은 무엇인가요?

데이터 패브릭은 기계 학습 및 자동화 기술을 사용하여 다양한 클라우드 환경과 데이터 파이프라인을 전면적으로 통합하는 또 다른 최신 아키텍처입니다. 데이터를 긴밀하게 통합하여 기술적 지식이 없는 사용자에게 제공하는 기반 인프라의 기술 계층이라고 할 수 있습니다. 일례로, 의사 결정권자는 데이터 패브릭을 사용하여 모든 데이터를 한곳에서 보고 다양한 데이터 세트를 서로 연결합니다.

데이터 패브릭과 데이터 메시는 효과적인 통합 데이터 관리라는 유사한 목표를 가지고 있습니다. 중앙 데이터 레이크가 있고 데이터 수집에 AWS 서비스를 사용하는 경우를 예로 들어 보겠습니다. 거기에 더해, 데이터 변환을 위한 레거시 인프라도 있습니다. 데이터 패브릭은 두 시스템을 통합하고 기존 파이프라인을 변경하지 않으면서 통합 보기를 제공합니다.

즉, 데이터 패브릭은 기술을 사용하여 기존 인프라와 함께 작동합니다. 반면, 데이터 메시 구현에서는 기본 인프라 자체를 변경해야 합니다. 비즈니스 도메인 전반에서 데이터 관리의 푸시-수집 모델을 서비스-풀 모델로 변경해야 합니다.

AWS는 데이터 메시 아키텍처를 어떻게 지원할 수 있나요?

AWS 기반 현대적 데이터 아키텍처에는 조직에서 데이터 메시 및 기타 현대적 데이터 아키텍처를 구현하는 데 사용할 수 있는 몇 가지 서비스가 나열되어 있습니다. 성능 저하 없이 저렴한 비용으로 데이터 제품과 데이터 메시 인프라를 신속하게 구축할 수 있습니다.

다음은 여기에 활용할 수 있는 AWS 서비스의 예입니다.

지금 무료 계정을 만들어 AWS에서 데이터 메시를 시작하세요.

데이터 메시 다음 단계

제품 관련 추가 리소스 확인
분석 서비스 확인 
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

가입 
콘솔에서 구축 시작

AWS Management Console에서 구축을 시작하세요.

로그인