데이터 거버넌스란 무엇인가요?
데이터 거버넌스는 비즈니스 이니셔티브와 운영을 지원하기에 적합한 상태로 데이터를 유지하는 방법론입니다. 데이터 거버넌스를 비즈니스 이니셔티브에 맞추면 많은 이점이 있습니다.
- 데이터 거버넌스 프로그램에 대한 자금 지원 정당화
- 비즈니스 커뮤니티를 통해 참여에 대한 동기 부여
- 데이터 거버넌스 활동을 우선적으로 시행
- 참여하는 비즈니스 영역 전반에 필요한 수준의 데이터 통합 주도
- 적합한 운영 모델, 특히 필요한 수준의 중앙 집중화 및 탈중앙화를 결정하는 데 도움이 됩니다.
데이터 거버넌스는 왜 중요할까요?
Gartner에 따르면 2025년까지 디지털 비즈니스를 확장하려는 조직의 80%가 실패할 것인데, 그 이유는 데이터 및 분석 거버넌스에 대한 현대적인 접근 방식을 취하지 않기 때문이라고 합니다. Chief Data Officer가 데이터 거버넌스를 데이터 이니셔티브의 최우선 과제로 꼽는 것은 놀라운 일이 아닙니다. MIT CDOIQ가 CDO 및 CDO와 동등한 역할을 맡은 350명을 대상으로 2023년에 실시한 설문 조사에서 Chief Data Officer의 45%는 데이터 거버넌스를 최우선 과제로 꼽는 것으로 나타났습니다. 이 데이터 리더들은 적절한 제어를 통해 데이터를 안전하게 보호하면서 필요할 때 적절한 사람과 애플리케이션에 데이터를 제공하는 거버넌스 모델을 마련할 방법을 찾고 있습니다.
거버넌스는 지금까지 데이터 유출이나 오용을 방지하기 위해 데이터를 사일로에 가두는 역할을 해왔습니다. 그러나 데이터 사일로는 필요할 때 데이터에 액세스하려는 합법적인 사용자를 방해하는 요인이 됩니다. 데이터 기반 혁신은 의도치 않게 좌절됩니다.
거버넌스를 혁신의 원동력으로 만드는 2가지 방법은 액세스와 제어입니다. 성공의 열쇠는 액세스와 제어 간의 적절한 균형을 찾는 데 있으며 균형점은 조직마다 다릅니다. 너무 많이 통제하면 데이터가 사일로에 갇히게 되고 필요할 때 데이터에 액세스할 수 없게 됩니다. 이는 창의성을 저해할 뿐만 아니라 데이터가 최신 상태로 유지되지 않고 보호되지 않는 섀도우 ID 시스템을 만듭니다. 반면에 너무 많은 액세스를 제공하면 데이터가 애플리케이션과 데이터 스토어에 저장되어 데이터 유출 위험이 높아집니다.
액세스와 제어 간의 균형을 유지하는 올바른 거버넌스를 수립하면 데이터의 적절한 검색, 큐레이션, 보호 및 공유를 촉진하여 데이터에 대한 신뢰와 확신을 높일 수 있습니다. 그러면 데이터를 보호하면서 혁신을 장려할 수 있습니다.
분석 거버넌스란 무엇인가요?
분석 거버넌스는 분석 애플리케이션에서 사용할 데이터를 통제하는 동시에 분석 시스템의 사용을 통제하는 것입니다. 분석 거버넌스 팀에서는 분석 보고서 버전 관리 및 문서화와 같은 거버넌스 메커니즘을 설정할 수 있습니다. 항상 그렇듯이 규제 요구 사항을 추적하고, 회사 정책을 수립하며, 더 넓은 범위의 조직에 가드레일을 제공할 수 있습니다.
기계 학습(ML) 거버넌스란 무엇인가요?
ML 거버넌스는 데이터 거버넌스와 동일한 많은 방식을 ML에 적용합니다. 데이터 품질 및 데이터 통합은 모델 훈련 및 프로덕션 배포에 필요한 데이터를 제공해야 합니다(이것의 중요한 측면 중 하나가 특성 스토어임). 책임감 있는 인공 지능(AI)은 모델 구축에 민감한 데이터를 사용하는 것에 특히 주의합니다. 추가 ML 거버넌스 기능으로는 모델 구축, 배포 및 모니터링에 사람들의 참여를 장려하고, 모델 훈련, 버전 관리, 지원되는 사용 사례를 문서화하고, 윤리적 모델 사용에 대한 지침을 제공하며, 프로덕션 환경에서 모델의 정확성, 드리프트, 과적합 및 미적합을 모니터링하는 것이 있습니다.
생성형 AI에는 훈련 및 추론에서 파운데이션 모델(FM)의 적응을 지원하기 위한 데이터 품질 및 무결성, 생성형 AI 독성 및 편향에 대한 거버넌스, 파운데이션 모델(FM) 운영(FMOps)과 같은 추가 데이터 거버넌스 기능이 필요합니다.
데이터 거버넌스와 동일한 프로그램으로 AI/ML을 지원할 수 있습니다. 데이터를 AI/ML 모델의 훈련 및 프로덕션 추론에 사용할 수 있는 형식으로 변환하려면 데이터 준비가 필요하지만, 가장 효율적인 데이터 준비는 준비가 필요하지 않게 만드는 것입니다. 데이터 사이언티스트는 각 사용 사례에 맞는 데이터를 준비하는 데 너무 많은 시간을 소모합니다. 데이터 거버넌스 팀은 이러한 차별화되지 않은 힘든 작업을 줄이는 데 도움을 줄 수 있습니다. 또한 데이터 거버넌스는 AI 및 ML 사용 사례 전반에서 사용될 셰이프형 특성 스토어의 생성을 감독할 수 있습니다.
마지막으로, 파운데이션 모델을 훈련하는 데 민감한 데이터가 사용될 위험을 완화할 수 있도록 민감한 데이터를 적절하게 보호해야 합니다.
일반적인 분석과 마찬가지로 AI/ML 모델을 구축하고 사용자 지정할 때 해당 모델의 사용을 통제해야 합니다. 이상적으로는 분석 거버넌스 부서와 긴밀하게 협력하는 것이 좋은데, 이 부서에서 다양한 비즈니스 영역을 지원하는 방법을 알게 될 것이기 때문입니다.
데이터 거버넌스의 주요 과제는 무엇인가요?
데이터 거버넌스에서 가장 일반적인 전략적 과제는 데이터 거버넌스의 가치를 직접 제안하는 것이 아니라 비즈니스 이니셔티브에 맞게 프로그램을 조정하는 것입니다. 예를 들어 최종 사용자가 원하는 데이터를 더 쉽게 찾을 수 있도록 하는 것의 가치를 제안하거나 데이터 품질 문제를 해결하는 것의 가치를 제안하게 될 수 있는데, 이러한 가치 제안으로는 어떤 문제도 해결되지 않습니다. 이런 식으로 하면 지원해야 할 비즈니스 이니셔티브와 자금 지원 및 후원을 놓고 경쟁하게 됩니다. 그보다는 비즈니스 이니셔티브를 지원하기 위한 데이터 거버넌스를 포지셔닝하는 것이 좋습니다. 모든 주요 비즈니스 이니셔티브에는 데이터가 필요합니다. 데이터 거버넌스는 비즈니스 이니셔티브의 성공을 지원하기에 적합한 상태로 데이터를 유지하는 것입니다. 따라서 데이터 거버넌스로 이러한 이니셔티브를 지원하는 방식을 보고하고 이에 대한 감사를 시행하는 것이 중요합니다.
데이터 거버넌스의 또 다른 일반적인 전략적 과제는 데이터 거버넌스의 적용 범위를 너무 좁히지 않는 것입니다. 너무 좁게 정의하면 비즈니스 영역 전반을 더 넓게 보지 않고 개별 비즈니스 영역이나 사용 사례에 맞춰 프로그램을 조정하게 될 수 있습니다. 1~2개의 데이터 거버넌스 기능만으로 데이터 거버넌스를 정의하는 것도 좁은 정의에 해당할 수 있습니다. 예를 들어 데이터 카탈로그 하나를 갖추는 것으로 데이터 거버넌스 프로그램이 있다고 할 수는 없습니다.
데이터 거버넌스에는 어떤 유형이 있나요?
데이터 거버넌스 프로그램은 중앙 집중화와 탈중앙화(셀프 서비스 포함)의 균형을 유지해야 합니다. 비즈니스 요구 사항에 따라 조직 전체에서 중앙 집중식, 페더레이션형 및 분산형 거버넌스를 혼합하여 사용하게 됩니다. 도메인 간에 일관성(예: 데이터를 서로 연결하는 기능)을 유지하면서 도메인 팀에 최대한 많은 권한을 부여해야 합니다.
- 중앙 집중식 데이터 거버넌스: 궁극적으로 중앙 조직에서 강령, 정책, 도구 선택 등을 담당합니다. 일상적인 작업은 여러 차례에 걸쳐 사업부(LOB)에 할당됩니다.
- 페더레이션 데이터 거버넌스: 페더레이션 데이터 거버넌스는 개별 사업부 또는 비즈니스 이니셔티브에 요구 사항에 가장 적합한 방식으로 운영할 수 있는 권한을 제공합니다. 페더레이션 데이터 거버넌스를 시행하는 경우에도 가장 자주 반복되는 문제(예: 전사적 데이터 품질 도구)를 해결하는 데 주력하는 소규모의 중앙 집중식 팀이 있습니다.
- 셀프 서비스 또는 분산형 데이터 거버넌스: 각 LOB에서 특정 프로젝트에 필요한 업무를 수행합니다. 용도에 적합한 경우 다른 프로젝트의 도구나 프로세스가 각 프로젝트에 사용됩니다. 데이터 메시(자체 탈중앙화)와 같은 주제의 인기가 높아지면서 셀프 서비스 데이터 거버넌스의 사용도 늘어나고 있습니다.
데이터 거버넌스는 누가 만드나요?
비즈니스 중심 데이터 거버넌스 프로그램을 만들려면 많은 직무가 필요합니다.
- 경영진 후원자는 기업 로드맵에 있는 많은 비즈니스 이니셔티브를 이해하고 있기 때문에 데이터 거버넌스 지원의 우선순위를 결정하는 데 도움을 줄 수 있습니다.
- 데이터 관리자는 비즈니스 소속으로 매일 프로젝트의 세부 사항에 관여합니다. 목표로 하는 비즈니스 이니셔티브에서 당면 과제를 야기할 수 있는 데이터 문제를 이해하는 데 도움을 줍니다.
- 데이터 소유자는 데이터에 액세스할 수 있는 사용자와 해당하는 상황, 규정을 해석하고 적용하는 방법, 주요 용어 정의 등 데이터에 대한 정책을 만듭니다.
- 데이터 엔지니어는 대개 IT 소속이며 데이터를 보호하고, 데이터 품질을 관리하고, 다양한 소스의 데이터를 통합하며, 올바른 데이터를 찾는 데 도움이 되는 도구를 제공합니다.
데이터 거버넌스는 어떻게 작동하나요?
데이터 거버넌스는 다양한 기능 전반에서 사람, 프로세스 및 기술 솔루션이 필요합니다.
대규모로 데이터를 큐레이트하여 무분별한 데이터 확산을 제한합니다. 대규모로 데이터를 큐레이트한다는 것은 데이터베이스, 데이터 레이크 및 데이터 웨어하우스 등 가장 중요한 데이터 소스를 식별하고 관리하여 중요한 데이터 자산의 확산과 변환을 제한하는 것을 의미합니다. 또한 데이터를 큐레이트한다는 것은 적절한 데이터에서 민감한 정보를 제거하고 이러한 데이터를 정확하고 최신 상태로 유지하여 데이터 기반 의사 결정과 데이터 공급 애플리케이션에서 신뢰성을 높이는 것을 의미합니다.
기능: 데이터 품질 관리, 데이터 통합 및 프라이머리 데이터 관리
상황에 맞게 데이터를 검색하고 이해하여 데이터 기반 의사 결정을 가속화합니다. 데이터를 상황에 맞게 이해하면 모든 사용자가 데이터의 의미를 찾고 이해하여 자신 있게 사용함으로써 비즈니스 가치를 창출할 수 있습니다. 중앙 집중식 데이터 카탈로그가 있으면 데이터를 쉽게 찾고, 액세스를 요청하며, 데이터를 사용하여 비즈니스 결정을 내릴 수 있습니다.
기능: 데이터 프로파일링, 데이터 계보 및 데이터 카탈로그
제어 기능을 통해 확실하게 데이터를 보호하고 안전하게 공유합니다. 데이터를 보호한다는 것은 데이터 프라이버시, 보안 및 액세스 간에 적절한 균형을 맞추는 것을 의미합니다. 비즈니스 사용자와 엔지니어링 사용자 모두를 위한 직관적인 도구를 사용하여 조직의 경계 전반에서 데이터 액세스를 관리할 수 있어야 합니다.
기능: 데이터 수명 주기, 데이터 규정 준수 및 데이터 보안
비즈니스 위험을 줄이고 규정 준수를 개선합니다. 위험을 줄이는 것은 데이터가 누구에 의해 어떻게 사용되는지 이해하는 것을 의미합니다. AWS 서비스를 사용하면 ML 모델을 통한 액세스를 포함해, 데이터 액세스를 모니터링하고 이에 대한 감사를 시행하여 데이터 보안 및 규제 준수를 보장할 수 있습니다. 또한 기계 학습에는 책임 있는 사용과 간소화된 보고를 보장하기 위한 감사 투명성이 필요합니다.
기능: 데이터 및 ML 사용에 대한 감사 시행
데이터 거버넌스 팀을 잘 만드는 방법은 무엇인가요?
효과적인 데이터 거버넌스 프로그램의 열쇠는 이미 자금을 받은 비즈니스 이니셔티브에 집중하는 것입니다. 데이터 거버넌스 팀은 이러한 이니셔티브를 지원하는 데 필요한 데이터 도메인, 소스 및 요소를 이해해야 합니다.
- 목표로 하는 비즈니스 이니셔티브에 대한 지원을 보여주는 데이터 거버넌스 로드맵을 작성하세요. 그런 다음 선택한 비즈니스 이니셔티브 간에 중복되는 데이터가 있는지 확인합니다.
- 최신성 및 프라이버시 요구 사항을 포함하여 데이터로 지원하고 데이터를 공급해야 하는 애플리케이션 및 비즈니스 인텔리전스 사용 사례를 식별합니다.
- 선택한 각 비즈니스 이니셔티브에서 어떤 형태의 데이터가 해당 이니셔티브의 목적에 맞는지 이해합니다.
- 데이터 거버넌스 프로그램을 기업 운영 모델에 포함하여 이를 유지하고 확장함으로써 데이터 계획 및 구현이 조직 운영의 자연스러운 부분이 되도록 합니다.
- 분석 커뮤니티를 구성하여 셀프 서비스 및 일관성을 지원합니다.
- 데이터 거버넌스 및 ML 거버넌스를 통해 인공 지능(AI) 및 기계 학습(ML)을 지원합니다. 동일한 데이터 거버넌스 프로그램을 사용하되 이를 특성 스토어 및 ML 모델로 확장합니다.
데이터 거버넌스를 위한 AWS 제품 및 서비스에는 어떤 것이 있나요?
AWS는 데이터 워크플로의 모든 단계에서 데이터의 위치, 데이터에 대한 액세스 권한, 데이터로 수행할 수 있는 작업을 제어할 수 있는 엔드 투 엔드 데이터 거버넌스 제품 및 서비스를 제공합니다. AWS의 데이터 거버넌스는 적합한 사람 및 애플리케이션이 필요할 때 적합한 데이터를 쉽고 안전하게 찾고, 액세스하고, 공유할 수 있도록 하여 조직에서 데이터 기반 의사 결정 시간을 단축하는 데 도움이 됩니다. 데이터 통합 및 데이터 품질을 자동화하여 데이터를 큐레이트함으로써 데이터 확산을 제한할 수 있습니다. 데이터 해독 능력을 높이는 중앙 집중식 카탈로그를 통해 데이터를 검색하고 이해할 수 있습니다. 데이터를 안전하게 공유할 수 있게 해주는 정밀한 권한으로 데이터를 보호할 수 있습니다. 데이터 액세스를 모니터링하고 감사를 시행하여 위험을 줄이고 규제 준수를 개선할 수 있습니다.
- Amazon DataZone - 거버넌스 기능을 기본적으로 제공하여 조직 경계 전반에서 데이터를 활용할 있도록 함
- AWS Glue - 모든 데이터를 규모에 상관없이 검색, 준비 및 통합
- AWS Lake Formation - 며칠 안에 데이터 레이크를 구축, 관리 및 보호
- Amazon QuickSight - 하이퍼스케일 통합 비즈니스 인텔리전스
- Amazon SageMaker - 완전관리형 인프라, 도구 및 워크플로를 사용하여 사용 사례에 적합한 기계 학습 모델을 구축, 훈련 및 배포
- ML 거버넌스 웹 페이지
- Amazon Bedrock - 파운데이션 모델(FM)을 사용하여 생성형 AI 애플리케이션을 구축하고 확장
- Amazon Macie - 민감한 데이터를 대규모로 검색하고 보호
- Amazon Simple Storage Service(S3) 액세스 포인트 - 어디서나 원하는 양의 데이터를 검색할 수 있도록 구축된 객체 스토리지
- AWS Data Exchange - 클라우드에서 손쉽게 서드 파티 데이터 검색, 구독 및 사용
- AWS Clean Rooms - 원시 데이터를 공유하지 않고도 몇 분 안에 클린 룸을 생성하여 파트너와 협업
지금 무료 계정을 만들어 AWS에서 데이터 거버넌스를 시작해 보세요.