データウェアハウスとは
データウェアハウスは、より多くの情報に基づく意思決定を行うための、分析可能な情報のセントラルリポジトリです。データは、通常一定の周期で、トランザクションシステム、リレーショナルデータベース、その他のソースからデータウェアハウスに移されます。ビジネスアナリスト、データエンジニア、データサイエンティスト、および意思決定者は、ビジネスインテリジェンス (BI) ツール、SQL クライアント、その他の分析アプリケーションを通してそのデータにアクセスします。
企業が競争力を維持するためには、データと分析が不可欠になっています。企業ユーザーは、レポート、ダッシュボード、そして分析ツールを使用してデータからインサイトを引き出し、ビジネスパフォーマンスをモニタリングし、意思決定に役立てています。データウェアハウスは、データの入出力 (I/O) を最小限に抑え、クエリ結果を数百、数千のユーザーに同時に迅速に配信するために、データを効率的に格納することにより、これらのレポート、ダッシュボード、および分析ツールを強化します。
データウェアハウスはどのように設計されていますか?
データウェアハウスアーキテクチャは層になっています。最上層は、レポート、分析、データマイニングツールを通して結果を表示するフロントエンドクライアントです。中間層は、データのアクセスや分析に使用される分析エンジンで構成されています。アーキテクチャの最下層は、データがロードされ保存されるデータベースサーバーです。データは 2 種類の方法で保存されます。すなわち、1) 頻繁にアクセスされるデータは (SSD ドライブのような) 非常に高速なストレージに保存され、2) アクセスが低頻度であるデータは Amazon S3 などの安価なオブジェクトストアに保存されます。データウェアハウスは、頻繁にアクセスされるデータが「高速」ストレージに移動されることを自動的に確認するため、クエリ速度が最適化されます。
データウェアハウスの仕組みはどのようなものですか?
データウェアハウスには複数のデータベースが含まれる場合があります。各データベース内で、データはテーブルと列に編成されます。各列内で、整数、データフィールド、文字列などのデータの説明を定義できます。テーブルはスキーマの内部に編成できます。スキーマはフォルダと考えることができます。データは、取り込まれると、スキーマで説明されているさまざまなテーブルに保存されます。クエリツールは、スキーマを使用してどのデータテーブルにアクセスし、分析するかを決定します。
データウェアハウスを使用する利点は何ですか?
データウェアハウスの利点は次のとおりです。
- 情報に基づく意思決定
- 多数のソースから統合されたデータ
- 履歴データの分析
- データの品質、一貫性、正確性を維持
- 分析処理をトランザクションデータベースから分離し、両システムのパフォーマンスを向上
データウェアハウス、データベース、およびデータレイクはどのように連携しますか?
通常、企業はデータベース、データレイク、およびデータウェアハウスを組み合わせて使用して、データを保存および分析します。Amazon Redshift のレイクハウスアーキテクチャは、このような統合を容易にします。
データの量と種類が増えるにつれ、データベース、データレイク、およびデータウェアハウス全体でデータを操作するための 1 つまたは複数の一般的なパターンに従うことがより有利になります。
データレイクはデータウェアハウスとは異なり、構造化データ、半構造化データ、および非構造化データを含むすべてのデータの集中リポジトリです。データウェアハウスでは、データが表形式で編成されている必要があります。スキーマはここで役立ちます。SQL を使用してデータを照会できるようにするには、表形式が必要です。しかし、すべてのアプリケーションでデータを表形式にする必要があるわけではありません。ビッグデータ分析、全文検索、機械学習などの一部のアプリケーションは、「半構造化」または完全に非構造化であっても、データにアクセスできます。
データウェアハウスとデータレイクの詳細な比較については、データウェアハウスとデータレイクの専用の比較ページをご覧ください。
データマートはデータウェアハウスとどのように比較されますか?
データマートは、特定のチームや部署 (財務、マーケティング、営業など) のニーズに対応したデータウェアハウスです。規模が小さく、的が絞られており、ユーザーのコミュニティに最適なデータの概要が保存されています。データマートがデータウェアハウスの一部である場合もあります。
データマートとデータウェアハウスの詳細な比較については、データマートとデータウェアハウスの専用の比較ページをご覧ください。
AWS はデータウェアハウスの取り組みをどのようにサポートできますか?
AWS では、一見無制限のストレージやコンピューティング性能へのアクセス、収集、保存、およびクエリされるデータ量の増加と並行したシステムのスケーリング、プロビジョンしたリソースのみに対しての支払いなど、オンデマンドコンピューティングに関する主な利点をすべて活用できます。AWS ではシームレスに統合された幅広いマネージドサービスが提供され、エンドツーエンドの分析、およびデータウェアハウジングソリューションをすばやくデプロイできます。
次の図は、スタックとも呼ばれるエンドツーエンドの分析プロセスの主要なステップを示しています。AWS は、各ステップでさまざまなマネージドサービスを提供しています。
Amazon Redshift は、高速でフルマネージド型のコスト効率にも優れたデータウェアハウスサービスです。ペタバイト規模のデータウェアハウジングとエクサバイト規模のデータレイク分析を 1 つのサービスにまとめて提供します。このサービスは従量制料金となります。
今すぐアカウントを作成して、AWS でデータウェアハウスの使用を開始しましょう。