データガバナンスとは何ですか?
データガバナンスとは、ビジネス上の取り組みや運用をサポートするために、データが確実に適切な状態にあるようにする方法論です。データガバナンスをビジネス上の取り組みに整合させることには多くのメリットがあります。
- データガバナンスプログラムのための資金調達を正当化する
- ビジネスコミュニティの参加を動機づける
- データガバナンスに関する活動の優先順位を高める
- 参加する事業領域全体で必要なデータ統合のレベルを向上させる
- 適切な運用モデル、特に必要な集中化と分散化のレベルを決定に役立てる
分析ガバナンスとは何ですか?
分析ガバナンスは、分析アプリケーションで使用されるデータを管理することであると同時に、分析システムの使用を管理することでもあります。分析ガバナンスチームは、分析レポートのバージョニングや文書化などのガバナンスメカニズムを確立できます。いつものように、規制要件を把握し、会社の方針を定め、組織のより広範囲にガードレールを提供してください。
データガバナンスが重要なのはなぜですか?
ガートナーによると、2025 年までに、デジタルビジネスのスケールを目指す組織の 80% は、データおよび分析ガバナンスに最新のアプローチをとらないために失敗する見込みです。最高データ責任者がデータガバナンスをデータイニシアチブの最優先事項として認識しているのも不思議ではありません。MIT CDOIQ は、350 人の CDO と CDO と同等の職務を対象とした 2023 年の調査で、最高データ責任者の 45% がデータガバナンスを最優先事項として挙げていることを明らかにしました。これらのデータリーダーは、適切な管理のもとでデータを安全かつセキュアに保ちながら、必要なときに適切な人とアプリケーションがデータを使用できるようにするガバナンスモデルの導入を目指しています。
これまで、ガバナンスは、データの漏洩や誤用を防ぐことを目的として、データをサイロに閉じ込めるために採用されてきました。しかし、データがサイロ化されると、正当なユーザーは必要なときに障壁を乗り越えてデータにアクセスする必要があります。うっかりすると、データ主導のイノベーションは抑制されてしまいます。
ガバナンスをイノベーションの推進要因にするには、アクセスと制御という2つの手段があります。成功の鍵は、アクセスと制御の適切なバランスを見つけることであり、そのバランスをとるポイントは組織ごとに異なります。制御しすぎると、データがサイロに閉じ込められ、ユーザーは必要なときにデータにアクセスできなくなります。これは創造性を阻害するだけでなく、データが古いままでセキュリティが確保されていないシャドー IT システムの構築にもつながります。一方、アクセス数が多すぎると、データはアプリケーションやデータストアに保存され、データ漏洩のリスクが高まります。
適切なガバナンス、つまりアクセスと制御のバランスをとるガバナンスを確立することで、データの適切な検出、キュレーション、保護、共有が促進され、人々はそのデータに対する信頼と確信を得ることになります。これにより、データを保護しながらイノベーションを促進できます。
機械学習 (ML) のガバナンスとは何ですか?
ML ガバナンスは、同じデータガバナンス慣行の多くを ML に適用します。データ品質とデータ統合には、モデルのトレーニングと本番環境へのデプロイに必要なデータを提供する必要があります (特徴量ストアはその重要な側面の 1 つです)。責任ある人工知能 (AI) は、機密データをモデル構築に使用することに特に注意を払っています。その他の ML ガバナンス機能には、モデルの構築、デプロイ、監視にユーザーが参加できるようにすること、モデルのトレーニング、バージョニング、サポートされるユースケース、倫理的なモデル使用の指針を文書化すること、運用中のモデルの正確性、ドリフト、オーバーフィッティング、不適合がないかどうかを監視することが含まれます。
生成系 AI には、トレーニングや推論のための基盤モデルの適応を支援するデータの質と完全性、生成系 AI の毒性とバイアスのガバナンス、基盤モデル (FM) の運用 (FMOps) など、追加のデータガバナンス機能が必要です。
同じデータガバナンスプログラムで AI/ML をサポートできます。データを AI/ML モデルがトレーニングや本番環境の推論に使用できる形式に変換するには、データ準備が必要です。しかし、最も効率的なデータ準備は、ユーザーが行う必要のない準備です。データサイエンティストは、ユースケースごとにデータを準備するのに多くの時間を費やしています。データガバナンスチームが、この差別化されていない面倒な作業を軽減する手助けをしてくれます。さらに、データガバナンスは、AI と ML のユースケース全体で使用される形作られた特徴量ストアの作成を監督できます。
最後に、機密データを適切に保護する必要があります。そうすれば、チームは機密データが基盤モデルのトレーニングに使用されるリスクを軽減できます。
一般的なアナリティクスと同様に、構築またはカスタマイズする AI/ML モデルの使用を管理する必要があります。理想的には、これを分析ガバナンスと密接に関連させる必要があります。なぜなら、その機能はさまざまなビジネス分野をサポートする方法を知っているからです。
データガバナンスの主な課題は何ですか?
データガバナンスの最も一般的な戦略的課題は、データガバナンスの価値を直接提案するのではなく、プログラムをビジネスイニシアチブに合わせることです。たとえば、エンドユーザーが探しているデータを簡単に見つけられるようにするという価値を提案したり、データ品質の問題を解決することの価値を提案したりできます。しかし、これらは問題を探すための解決策です。この方法では、支援すべきビジネスイニシアチブとの資金調達やスポンサーシップをめぐって競争することになります。代わりに、データガバナンスをビジネスイニシアチブをサポートするものと位置付けます。すべての主要なビジネスイニシアチブにはデータが必要です。データガバナンスは、データがビジネスイニシアチブの成功を支える適切な状態にあることを確認する必要があります。データガバナンスがこれらのイニシアチブをどのようにサポートしているかについての報告と監査の実践を見逃さないでください。
データガバナンスのもう 1 つの一般的な戦略的課題は、データガバナンスの適用範囲を狭くしすぎないようにすることです。定義が狭すぎると、事業分野全体を広く視野に入れずに、プログラムを個々の事業分野やユースケースに合わせて調整することになりかねません。定義を狭めるということは、データガバナンスを 1 つまたは 2 つのデータガバナンス機能だけで定義することを意味することにもなります。たとえば、データカタログを持っていてもデータガバナンスプログラムを構成することにはなりません。
データガバナンスのスタイルとは何ですか?
データガバナンスプログラムは、一元化と分散化 (セルフサービスを含む) のバランスを取る必要があります。組織全体で、集中型ガバナンス、フェデレーション型ガバナンス、分散型ガバナンスが混在することになります。これもビジネス要件によって異なります。ドメイン間の一貫性 (データを相互にリンクする機能など) を維持しながら、ドメインチームにできる限り権限を与える必要があります。
- 一元化されたデータガバナンス: ミッションステートメント、ポリシー、ツールの選択などについては、最終的に中央組織が責任を負います。日常の行動は多くの場合、基幹業務 (LOB) に押し込まれます。
- フェデレーション型データガバナンス: フェデレーション型データガバナンスにより、個々のビジネスユニットやビジネスイニシアチブがそれぞれのニーズに最も合った方法で運営できるようになります。フェデレーション型データガバナンスでは、企業全体のデータ品質ツールなど、最も頻繁に繰り返される問題の解決に集中する小規模な中央集権的なチームがまだ存在しています。
- セルフサービス型または分散型のデータガバナンス: 各 LOB は、それぞれの特定のプロジェクトに必要なことを行います。各プロジェクトは、他のプロジェクトのツールまたはプロセスが用途に適していれば、それらを使用します。データメッシュ (それ自体は分散型) のようなトピックの人気が高まるにつれ、セルフサービスのデータガバナンスも人気が高まっています。
データガバナンスを構築するのは誰かですか?
ビジネス中心のデータガバナンスプログラムを構築するには、多くの職務権限が必要です。
- エグゼクティブスポンサーは、企業ロードマップ上の多くのビジネスイニシアチブを理解しており、データガバナンスサポートの優先順位を決定するのに役立ちます。
- データスチュワードは企業から選出され、日々のプロジェクトの詳細に関与しています。ターゲットを絞ったビジネスイニシアチブで課題を引き起こす可能性があるデータの問題を理解するのに役立ちます。
- データ所有者は、誰がどのような状況でデータにアクセスできるべきか、どのように規制を解釈して適用するか、主要な用語の定義など、データに関するポリシーを作成します。
- データエンジニアは (通常) IT 部門から選出され、データの保護、データ品質の管理、さまざまなソースからのデータの統合、適切なデータの検索に役立つツールを提供します。
データガバナンスチームをより良くするにはどうすればよいでしょうか?
効果的なデータガバナンスプログラムの鍵は、すでに資金提供されているビジネスイニシアチブに組み込むことです。これらのイニシアチブをサポートするためにどのデータドメイン、ソース、要素が必要かをチームが理解していることを確認してください。
- 対象を絞ったビジネスイニシアチブのサポートを示すデータガバナンスロードマップを作成します。次に、選択したビジネスイニシアチブ間で重複しているデータの特定を開始します。
- 鮮度やプライバシーの要件など、データをサポートしてフィードする必要のあるアプリケーションやビジネスインテリジェンスのユースケースを特定します。
- 選択した各ビジネスイニシアティブにおいて、目的に合ったデータがどのようなものかを理解します。
- データガバナンスプログラムを企業の運用モデルに組み込むことで、それを維持し、拡大することで、データの計画と実装が組織の運営において自然な流れになります。
- セルフサービスと一貫性を保つためにアナリティクスコミュニティを組織化します。
- データガバナンスと ML ガバナンスにより、人工知能 (AI) と機械学習 (ML) をサポートします。同じデータガバナンスプログラムを使用しますが、特徴量ストアや ML モデルにも拡張できます。
データガバナンスはどのような仕組みですか?
データガバナンスには、さまざまな機能にわたり、人間、プロセス、テクノロジーのソリューションが必要です。
データを大規模にキュレーションして、データの無秩序な増加を制限します。 データを大規模にキュレーションするということは、データベース、データレイク、データウェアハウスなどの最も貴重なデータソースを特定して管理することを意味します。これにより、重要なデータ資産の急増と変換を抑えることができます。データをキュレーションするということは、適切なデータが正確かつ最新で、機密情報が含まれていないことを保証することでもあり、ユーザーはデータ主導の意思決定やデータフィードアプリケーションに自信を持てるようになります。
機能: データ品質管理、データ統合、マスターデータ管理
コンテキストに基づいてデータを発見して理解することで、データ主導の意思決定を加速します。 データをコンテキストで理解するということは、 すべてのユーザーがデータの意味を発見して理解できるようになり、自信を持ってデータを使用してビジネス価値を高めることができるということです。一元化されたデータカタログを使用すると、データを簡単に見つけたり、アクセスを要求したり、データを使用してビジネス上の意思決定を行うことができます。
機能: データプロファイリング、データ系列、データカタログ
管理と信頼性をもってデータを保護し、安全に共有します。データを保護するということは、データのプライバシー、セキュリティ、アクセスの間で適切なバランスを取ることができるということです。ビジネスユーザーとエンジニアリングユーザーの両方にとって直感的なツールを使用して、 組織の境界を越えてデータアクセスを管理できることが不可欠です。
機能: データライフサイクル、データコンプライアンス、データセキュリティ
ビジネスリスクを軽減し、規制コンプライアンスを改善します。 リスクを軽減するということは、そのデータが誰によってどのように使用されているかを理解することです。 AWS のサービスは、ML モデルによるアクセスを含め、データアクセスを監視および監査して、データセキュリティと規制コンプライアンスを確保するのに役立ちます。また、機械学習には、責任ある使用とレポート作成の簡素化を実現するための監査の透明性も必要です。
機能: データと ML の使用状況の監査
データガバナンス用の AWS サービスにはどのようなものがありますか?
AWS でのエンドツーエンドのデータガバナンスにより、組織はデータワークフローのあらゆる段階で、データの保存場所、アクセスできるユーザー、データを使用して何ができるかを制御できます。AWS を利用したデータガバナンスは、適切な人とアプリケーションが、必要なときに適切なデータを確実かつ安全に見つけてアクセスし、共有できるようにすることで、組織がデータ駆動型の意思決定を迅速に行うのに役立ちます。データ統合とデータ品質を自動化することでデータをキュレートし、データの急増を抑えることができます。データリテラシーを高める一元化されたカタログにより、データを発見して理解することができます。正確な権限でデータを保護できるため、安心してデータを共有できます。データアクセスを監視および監査することで、リスクを軽減し、規制コンプライアンスを向上させることができます。
- Amazon DataZone – 組み込みのガバナンスで組織の枠を超えたデータ活用を実現
- AWS Glue – あらゆる規模ですべてのデータを検出、準備、統合
- AWS Lake Formation – データレイクを数日で構築、管理、保護
- Amazon QuickSight - ハイパースケールでの統合ビジネスインテリジェンス
- Amazon SageMaker – フルマネージドインフラストラクチャ、ツール、ワークフローを使用して、ユースケース向けの機械学習モデルを構築、トレーニング、デプロイ
- 機械学習ガバナンスのウェブページ
- Amazon Bedrock – 基盤モデル (FM) を使用して生成系 AI アプリケーションを構築およびスケーリング
- Amazon Macie - 機密データの大規模な検出と保護
- Amazon Simple Storage Service (Amazon S3) アクセスポイント: どこからでも任意の量のデータを取得できるように構築されたオブジェクトストレージ
- AWS Data Exchange – クラウドでサードパーティーデータを容易に検索、サブスクライブ、および使用
- AWS Clean Rooms – 数分でクリーンルームを作成し、未加工データを共有せずにパートナーと共同作業を行う
今すぐ無料アカウントを作成して、AWS でデータガバナンスの使用を開始しましょう。