Amazon Redshift のモダンデータアーキテクチャ
IoT、スマートデバイス、クラウドアプリケーション、ソーシャルによって生成されるデータの量は、指数関数的に増加しています。データの形式や保存場所にかかわらず、インサイトを得るまでの時間を最小限に抑えつつ、このすべてのデータを簡単かつ費用対効果の高い方法で分析する方法が必要です。
Amazon Redshift はモダンデータアーキテクチャを強化します。これにより、データウェアハウス、データレイク、および運用データベース全体でデータをクエリして、他の方法では不可能だったより迅速でより深いインサイトを得ることができます。モダンデータアーキテクチャを使用すると、Amazon S3 データレイクにオープンファイル形式でデータを保存できます。これにより、このデータを新しいサイロに閉じ込めるのではなく、他の分析ツールや機械学習ツールで簡単に利用できるようになります。
Amazon Redshift のモダンデータアーキテクチャを使用すると、次のことができます。
- データレイク内のデータに簡単にクエリを実行し、オープンフォーマットでデータをデータレイクに書き戻します。
- 使い慣れた SQL ステートメントを使用して、すべてのデータストアでデータを結合および処理します。
- データのロードや ETL パイプラインを必要とせずに、運用データベース内のライブデータに対してクエリを実行します。
特徴
Amazon Redshift のモダンデータアーキテクチャでは次の機能を利用しています。
Amazon Redshift Spectrum
Amazon S3 データレイクにあるオープン形式のデータを直接クエリします。データのロードやインフラストラクチャの複製は不要です。Amazon Redshift Spectrum 機能を使用することで、Apache Parquet、ORC、JSON、Avro、CSV などのオープンファイル形式をクエリできます。使用を開始するには、このステップバイステップのチュートリアルに従ってください。
データレイクのエクスポート
Data Lake Export を使用して、Amazon Redshift クエリの結果をオープンファイル形式 (Apache Parquet) で S3 データレイクに直接保存します。その後、Amazon Redshift Spectrum 機能や、Sagemaker (機械学習)、EMR (ETL オペレーション) など他の AWS のサービスを使用して、このデータを分析できます。使用を開始するには、この 5 分間の動画をご覧ください。
Federated Query
Federated Query を使用すると、Amazon Redshift は Amazon RDS ストアと Aurora PostgreSQL ストアでデータを直接クエリできます。これにより、ETL 操作を行わずに、タイムリーに最新の運用データをレポートや BI アプリケーションに組み込むことができます。使用を開始するには、この 5 分間の動画を視聴するか、このチュートリアルをお読みください。
「AWS や他社の分析ツールを数多く利用していますが、嬉しいことに Amazon Redshift は、当社独自のソリューションで行ってきたのと同じくらい多様なデータ変換パターンを継続して備えています。2017 年以来 Redshift Spectrum を使って、データレイク全体でオープンデータ形式をクエリする Amazon Redshift の性能を活用しています。新しい Redshift のデータレイクエクスポート機能を使用することで、データレイクにデータを書き戻すことができるようになったことも便利に感じています。これはすべて、クエリの負荷が最も高い場合でも、一貫して高速なパフォーマンスで実行できます。統合されたビッグデータスタックのシナジーを活用して、Amazon Redshift クラスター間でデータ共有をさらに促進し、当社のゲームすべてにおいてより大きな価値をより低いコストで引き出せるようにしたいと考えています」
Warner Bros.、分析マーケティング運用テクニカルディレクター、Kurt Larson 氏分析
リソース
ETL and ELT design patterns for modern data architecture using Amazon Redshift: Part 1
Amazon Redshift を使用して、モダンデータアーキテクチャ向けのスケーラブルな ETL および ELT 設計パターンを構築する: パート 1。
Amazon Redshift Spectrum の開始方法
Amazon Redshift Spectrum の使用を開始するための、ステップバイステップのチュートリアル。
How to scale data analytics with Amazon Redshift
エンターテインメント企業である Warner Bros が、Amazon Redshift を使用して、どのようにデータ分析ワークロードをスケールしているかをご覧ください。