Amazon Redshift の機能

すべてのデータを分析するためのスケーラブルで安全かつ高性能な最新のクラウドデータウェアハウジング。

あらゆるスケールでの価格性能比

拡張性、パフォーマンス、信頼性に優れた最新のクラウドデータウェアハウスのニーズを満たし、同時に使用するユーザー数の増加するデータを処理できます。Amazon Redshift は、お客様のワークロードに最適なコストパフォーマンスを実現する超並列処理 (MPP) アーキテクチャと、コンピューティングとストレージを分離する RA3 インスタンス上で稼働します。AI 主導のスケーリングと最適化を備えた Amazon Redshift Serverless を使用すると、データウェアハウスのインフラストラクチャを管理することなく、あらゆる種類の分析ワークロードをコスト効率よく実行およびスケーリングできます。ビジネスの厳しい分析ニーズに適応するにつれ、99.99% の SLA を実現するマルチ AZ 配置による中断を最小限に抑えるには、Amazon Redshift のような信頼性の高いクラウドデータウェアハウスが不可欠になります

ゼロ ETL アプローチですべてのデータを統合

組織内のデータサイロを打破し、すべてのデータを分析するためのエンドツーエンドのデータ戦略を構築します。Amazon Redshift は、データウェアハウス、Amazon S3 データレイク、Amazon Aurora、Amazon RDS、Amazon DynamoDB などの運用データベースと NoSQL データベース、さらにはストリーミングデータサービス間の相互運用性と統合を可能にするゼロ ETL アプローチを採用しています。これにより、データをウェアハウスに簡単かつ自動的に取り込むことも、その場でデータにアクセスすることもできます。あるシステムから別のシステムにデータを移動するために、面倒で誤ったデータパイプラインを構築するのに何週間も何ヶ月も費やす必要はもうありません。

包括的な分析と ML で価値を最大化

SQL クエリの実行から複雑なダッシュボード、ほぼリアルタイムの AI /Gen-AI アプリケーションの構築まで、Amazon Redshift ではすべてのデータを簡単に分析してビジネスを前進させることができます。Redshift サーバーレスエンドポイントを数秒で起動し、Amazon Redshift クエリエディタを使用して、複数のデータソースにわたるデータの読み込み、分析、視覚化、共同作業を行うことができます。  クエリエディターの Amazon Q ジェネレーティブ SQL を使用して、クエリリクエストを平易な英語で送信し、組織のスキーマメタデータに基づいてカスタム SQL コードの推奨を受け取ります。使い慣れた SQL を使用して機械学習モデルや予測モデルをウェアハウス内で構築、トレーニング、デプロイする Amazon Redshift ML により、データから予測分析にシームレスに移行できます。 

安全なデータコラボレーションによるイノベーションの加速

データを移動したりコピーしたりすることなく、AWS リージョン、チーム、サードパーティのデータウェアハウス間でデータを安全に共有できます。数回クリックするだけで、複数のチームが共有データセットを読み取って更新し、地域、アカウント、さらには第三者データウェアハウス全体で最新のデータを共同編集できます。データ共有は AWS Lake Formation によって一元的に管理されています。どこで事業を展開していても、また業界がどれほど厳しい規制を受けていても、データの安全性が確保されているという安心感が得られます。Amazon Redshift では、ロールベースのアクセスコントロール、行レベルと列レベルのセキュリティ、組織 ID のシングルサインオンによる簡単な認証など、きめ細かいアクセスコントロールが可能になります。これらはすべて追加費用なしで提供されます。

あらゆるスケールで極めて高いコストパフォーマンス

RA3 インスタンスは、必要なインスタンスの数を指定することにより、ストレージとは別にコンピューティングについて個別に支払う柔軟性を備えており、大量のコンピューティングキャパシティを必要とする、パフォーマンスが重要なワークロードの速度を最大化します。

分析を数秒で実行し、データウェアハウスインフラストラクチャの設定や管理を必要とすることなくスケールできます。AI 駆動型のスケーリングと最適化テクノロジー (プレビュー版が利用可能) により、Redshift Serverless はデータウェアハウスのキャパシティを自動的かつプロアクティブにプロビジョニングしてスケールし、極めて要求の厳しいワークロードのためにも高速なパフォーマンスを実現できます。このシステムは、AI の手法を使用して、同時実行クエリ、クエリの複雑さ、データ量の流入、ETL パターンなど、主要な側面にわたってお客様のワークロードパターンを学習します。その後、1 日を通じて継続的にリソースを調整し、カスタマイズされたパフォーマンス最適化を適用します。希望するパフォーマンス目標を設定すると、データウェアハウスは一貫したパフォーマンスを実現するために自動的にスケールします。

列指向ストレージ、データ圧縮、ゾーンのマッピングによって、クエリ実行に必要な I/O の量が削減されます。また、Amazon Redshift では、LZO、Zstandard などの業界標準のエンコーディングだけでなく、数値と日付/時刻型向けの専用の圧縮エンコーディング AZ64 も提供しており、それによりストレージの節約とクエリパフォーマンスの最適化を実現できます。

同時実行数の増加に応じて数秒で一時的なキャパシティを追加することで、一貫したサービスレベルで事実上無制限の同時ユーザーと同時クエリをサポートします。各クラスターは 1 日あたり最大 1 時間の無料同時実行スケールクレジットを獲得できるため、コストへの影響を最小限に抑えながらスケールできます。これらの無料クレジットは、97% のお客様の同時実行性に関するニーズを十分に満たすものです。

数回クリックするだけで他の Redshift データウェアハウスから Redshift データベースに対する書き込みを開始できるため、コストパフォーマンスのニーズに基づいてさまざまなタイプやサイズのウェアハウスを追加することで、データコラボレーションや ETL/データ処理ワークロードのコンピューティングの柔軟なスケーリングがより良く実現できます。各ウェアハウスの請求は独自のコンピューティングについて行われるため、コンピューティング使用量に関する透明性が高まり、その結果としてコストを低く抑えることができます。

Amazon Redshift マテリアライズドビューを使用すると、ダッシュボードやビジネスインテリジェンス (BI) ツールからのクエリなどの反復的または予測可能な分析ワークロードのクエリパフォーマンスを大幅に高速化し、ELT データ処理ジョブを抽出、変換、ロードできます。マテリアライズドビューを使用すると、外部テーブルを含む 1 つ以上のテーブルを参照する可能性がある、選択したステートメントの事前計算済みの結果を簡単に格納および管理できます。 

繰り返しのクエリについて 1 秒未満の応答時間を実現します。繰り返しクエリを実行するダッシュボード、視覚化、およびビジネス インテリジェンスツールでは、パフォーマンスが大幅に向上します。クエリを実行すると、Amazon Redshift はキャッシュを検索し、以前の実行でキャッシュされた結果がないか確認します。キャッシュされている結果が見つかり、データが変更されていないことがわかると、クエリを再度実行せずに、キャッシュされている結果を即座に返します。

高度なアルゴリズムを使用して、実行時間とリソース要件に基づいて着信クエリを予測および分類し、パフォーマンスと同時実行を動的に管理すると同時に、ビジネスクリティカルなワークロードの優先順位付けをサポートします。ショートクエリアクセラレーション (SQA) では、ダッシュボードなどのアプリケーションから高速キューに短いクエリを送信し、大規模なクエリの背後で長時間にわたって待機するのではなく、即座に処理されるようにします。自動ワークロード管理 (WLM) では、機械学習を使用してメモリと同時実行を動的に管理することで、クエリのスループットを最大限に高めます。また、数百件のクエリが送信されていても、最も重要なクエリを優先するように簡単に設定できるようになりました。Redshift Advisor は、Redshift のパフォーマンスをさらに高めるために明示的なユーザーアクションが必要な場合にレコメンデーションを作成します。クエリパターンが予測不能な動的なワークロードの場合、自動マテリアライズドビューは、Amazon Redshift クラスターの自動更新、自動クエリ書き換え、増分更新、継続的なモニタリングを通じて、クエリのスループットを改善し、クエリのレイテンシーを低減して、実行時間を短縮します。自動テーブル最適化は、クラスターのワークロードのパフォーマンスを最適化するために、最適なソートキーおよび分散キーを選択します。Amazon Redshift が、キーを適用するとクラスターのパフォーマンスが向上すると判断した場合、管理者の介入を必要とせずに、テーブルが自動的に変更されます。追加機能である自動バキューム削除、自動テーブルソート、および自動分析により、Redshift クラスターを手動でメンテナンスおよび調整する必要がなくなり、新しいクラスターと本番ワークロードで最高のパフォーマンスを実現できます。 

着信クエリのフィルター (例: 特定の地域の売上) に基づいてデータを自動的にソートすることにより、反復的なクエリのパフォーマンスを改善する、新しい強力なテーブルソートメカニズム。この方法を使用すると、従来の方法と比較してテーブルスキャンのパフォーマンスが大幅に加速します。

リカバリにかかる時間を短縮し、データを失うことなく自動的にリカバリするためにキャパシティを保証することで、リカバリ機能を拡張します。Redshift マルチ AZ データウェアハウスは、スタンバイリソースを使用することなく高可用性を実現することで、パフォーマンスと価値を最大化します。

動的データマスキングを使用すると、お客様は、ユーザーに表示される識別可能なデータの量を制限することにより、機密データを簡単に保護できます。また、これらのフィールドに対して複数レベルの許可を定義できるため、さまざまなユーザーやグループがデータの複数のコピーを作成することなく、Redshift の使い慣れた SQL インターフェイスを通じて、さまざまなレベルのデータアクセスが可能となります。

詳細な行および列レベルのセキュリティコントロールにより、ユーザーはアクセスできる必要があるデータのみを表示できます。Amazon Redshift は AWS Lake Formation と統合されており、Lake Formation の列レベルのアクセス制御が、データレイク内のデータに対する Redshift クエリにも適用されます。Amazon Redshift のデータ共有は、AWS Lake Formation による一元化されたアクセス制御をサポートし、Amazon Redshift から共有されるデータのガバナンスを簡素化します。AWS Lake Formation (LF) は、安全なデータレイクのセットアップ、すべての消費サービスにわたるデータへのきめ細かなアクセスの集中管理、および行レベルと列レベルの制御の適用を容易にするサービスです。

いくつかのパラメータを設定するだけで、Amazon Redshift が、転送中のデータの保護には SSL、保管中のデータの保護にはハードウェアアクセラレーション対応の AES-256 暗号化を使用するように設定できます。保存データの暗号化を有効化する場合、ディスクに書き込まれたすべてのデータはあらゆるバックアップと同じように暗号化されます。デフォルトでは、Amazon Redshift でキー管理を行います。

Amazon Redshift では、ファイアウォールルールを設定して、データウェアハウスクラスターに対するネットワークアクセスを制御できます。Amazon 仮想プライベートクラウド (VPC) 内で Amazon Redshift を実行して、データウェアハウス クラスターを独自の仮想ネットワークに分離し、業界標準の暗号化された IPsec VPN を使用して既存の IT インフラストラクチャに接続できます。

ゼロ ETL アプローチですべてのデータを統合

Amazon Aurora、Amazon RDS、Amazon DynamoDB と Amazon Redshift 間のノーコード統合により、これらのデータベース内のペタバイト規模のデータに対するほぼリアルタイムの分析と機械学習が可能になります。例えば、トランザクションデータが Amazon Aurora に書き込まれてから数秒以内に、Amazon Aurora Zero-ETL to Amazon Redshift は Amazon Redshift でシームレスにデータを利用できるようにするため、お客様は抽出、変換、ロード (ETL) オペレーションを実行する複雑なデータパイプラインを構築および維持する必要がなくなります。

 

1 つ以上の Amazon Relational Database Service (RDS)、Aurora PostgreSQL、RDS MySQL、Aurora MySQL データベースでライブ データをクエリして、データの移動を必要とせずにビジネス オペレーション全体を即座に可視化します。

Amazon Redshift は、Apache Iceberg、Apache Hudi、Delta Lake テーブル形式での読み取り専用クエリをサポートしています。Apache Hudi、Apache Iceberg、および Delta Lake は、特に大量のワークロードの更新/削除など、データレイクテーブルにおけるパフォーマンスの改善と管理の簡素化の柔軟性を高めながら、サポートのトランザクションの一貫性を改善することを目的としたオープンソースのテーブル形式です。

使い慣れた ANSI SQL を使用して、Amazon S3 で Parquet、ORC、JSON、Avro、CSV などのオープンファイル形式を直接クエリします。データをデータレイクにエクスポートするには、SQL コードで Amazon Redshift UNLOAD コマンドを使用し、ファイル形式として Parquet を指定するだけです。Amazon Redshift は、データのフォーマットと S3 へのデータの移動を自動的に処理します。これにより、高度に構造化され、頻繁にアクセスされるデータと半構造化データを Amazon Redshift データウェアハウスに格納する柔軟性が得られ、Amazon S3 で最大エクサバイトの構造化、半構造化、および非構造化データを維持できます。Amazon Redshift からデータレイクにデータをエクスポートして戻すと、Amazon Athena、Amazon EMR、Amazon SageMaker などの AWS サービスを使用してデータをさらに分析できます。

SQL (構造化クエリ言語) を使用して、Amazon Kinesis Data Streams および Amazon Managed Streaming for Apache Kafka (MSK) に接続し、そこからデータを直接取り込みます。また、Amazon Redshift ストリーミングインジェストでは、ストリームの上にマテリアライズドビューを直接作成できるため、ダウンストリームパイプラインの作成と管理が簡単になります。マテリアライズドビューには、ELT (Extract Load Transform) パイプラインの一部として SQL 変換を含めることもできます。定義されたマテリアライズドビューを手動で更新して、最新のストリーミングデータを照会できます。

Amazon S3 からのデータロードを簡素化および自動化し、カスタムソリューションの構築やサードパーティーサービスの管理にかかる時間と労力を削減します。この機能により、Amazon Redshift は、ファイルの取り込みを自動化し、内部で継続的なデータの読み込み手順を処理することにより、コピー手順を手動で繰り返し実行する必要がなくなります。自動コピーのサポートにより、データ エンジニアリングの知識がなくても基幹業務ユーザーやデータ アナリストが簡単に取り込みルールを作成し、Amazon S3 からロードするデータの場所を設定できます。

SQL でデータの探索と分析のためのウェブベースのアナリストワークベンチを使用して、データアナリスト、データエンジニア、および他の SQL ユーザーが Amazon Redshift のデータとデータレイクにアクセスしやすくします。クエリエディタを使用すると、1 回のクリックでクエリ結果を視覚化し、スキーマとテーブルを作成して、データを視覚的にロードし、データベースオブジェクトを参照できます。また、SQL クエリ、分析、視覚化、および注釈を作成および共有し、それらをチームと安全に共有するための直感的なエディターも提供します。

包括的な分析と ML で価値を最大化

コンソール内でクエリを実行したり、Amazon QuickSight、Tableau、PowerBI、QueryBook、Jupyter Notebook などの SQL クライアントツール、ライブラリ、データサイエンスツールに接続したりできます。

Amazon Redshift とインタラクションするためのシンプルな API: Amazon Redshift を利用すると、あらゆる種類の従来型、クラウドネイティブ、コンテナ化されたサーバーレスウェブサービスベースのアプリケーション、およびイベント駆動型アプリケーションを使用してデータに簡単にアクセスできます。Amazon Redshift Data API は、AWS SDK でサポートされているプログラミング言語とプラットフォーム (Python、Go、Java、Node.js、PHP、Ruby、C++ など) からのデータアクセス、取り込み、送信を簡素化します。Data API を使用すれば、ドライバーを構成したり、データベース接続を管理したりする必要がなくなります。それらの管理を行う代わりに、ユーザーは Data API が提供する安全な API エンドポイントを呼び出すだけで、Amazon Redshift クラスターに SQL コマンドを実行することができます。データベース接続の管理とデータのバッファリングは Data API が行います。Data API は非同期であるため、後で結果を取得できます。クエリ結果は 24 時間保存されます。

Redshift ML は、データアナリストやデータサイエンティスト、BI プロフェッショナル、およびデベロッパーが SQL を使用して Amazon SageMaker モデルを簡単に作成、トレーニング、デプロイできるようにします。Redshift 機械学習では、SQL ステートメントを使用して、Amazon Redshift のデータで Amazon SageMaker モデルを作成およびトレーニングしてから、そのモデルを使って、直接クエリやレポートでチャーン検出や財務予測、パーソナライゼーション、リスクスコアリングなどの予測を取得することができます。詳細。

現在のデータアクセス許可の範囲内で、Amazon Redshift クエリエディタで直接平易な英語でクエリリクエストを安全に記述し、正確な SQL コードのレコメンデーションを受け取ります。

Amazon Redshift データに基づいて Apache Spark アプリケーションを構築して実行することで、お客様は、より広範な分析および機械学習ソリューション用のデータウェアハウスをより利用しやすくできます。Amazon EMR、AWS Glue、Amazon Athena Spark、Amazon SageMaker などの AWS 分析および ML サービスを利用するデベロッパーは、アプリケーションのパフォーマンスやデータのトランザクションの一貫性を損なうことなく、Amazon Redshift データウェアハウスとの間で読み書きする Apache Spark アプリケーションを簡単に構築できます。 

データをクエリして、オープン形式でデータをデータレイクにあらためて書き込みます。使い慣れた ANSI SQL を使用して、Amazon S3 で Parquet、ORC、JSON、Avro、CSV などのオープンファイル形式を直接クエリできます。データをデータレイクにエクスポートするには、SQL コードで Amazon Redshift UNLOAD コマンドを使用し、ファイル形式として Parquet を指定するだけです。Amazon Redshift は、データのフォーマットと S3 へのデータの移動を自動的に処理します。これにより、高度に構造化され、頻繁にアクセスされるデータと半構造化データを Amazon Redshift データウェアハウスに格納する柔軟性が得られ、Amazon S3 で最大エクサバイトの構造化、半構造化、および非構造化データを維持できます。 

安全なデータコラボレーションによるイノベーションの加速

単一クラスターにおける Amazon Redshift の使いやすさ、パフォーマンス、コスト上の利点を、データ共有が可能な状態を保ちつつ、マルチクラスターデプロイに拡張しましょう。データ共有により、データをコピーまたは移動することなく、Redshift クラスター全体で瞬時に詳細かつ高速なデータアクセスが可能になります。

データの抽出、変換、ロード (ETL) を行うことなく、独自の Redshift クラスターから Amazon Redshift データセットをクエリします。AWS Data Exchange で Redshift クラウドのデータウェアハウス製品をサブスクライブできます。プロバイダーが更新を行うと、変更はすぐにサブスクライバーに表示されます。 

AWS IAM アイデンティティセンターとの統合により、組織は Amazon Redshift、Amazon QuickSight、AWS Lake Formation の間で信頼された ID 伝播をサポートできるようになります。お客様は組織 ID を使用して、Amazon QuickSight および Amazon Redshift クエリエディタから Microsoft Entra ID、Okta、Ping、OneLogin などのサードパーティー ID プロバイダー (IdP) を使用したシングルサインオンエクスペリエンスで Amazon Redshift にアクセスできます。管理者は、サードパーティー ID プロバイダーのユーザーとグループを使用して、サービス全体にわたってデータに対するきめ細かいアクセスを管理し、AWS CloudTrail でのユーザーレベルのアクセスを監査できます。信頼された ID 伝播により、ユーザーの ID が Amazon QuickSight、Amazon Redshift、AWS Lake Formation の間でシームレスに受け渡されるため、インサイトを得るまでの時間が短縮され、フリクションレスな分析エクスペリエンスを実現できます。

データの移動やコピーを行うことなく、複数のデータウェアハウスを使用して同じデータベースに書き込みます。

Amazon Redshift コンソールで選択したパートナーソリューションと統合することで、データのオンボーディングを加速し、貴重なビジネスインサイトを数分で作成します。これらのソリューションを使用すると、Salesforce、Google Analytics、Facebook Ads、Slack、Jira、Splunk、Marketo などのアプリケーションから、効率的かつ合理的な方法で Redshift データウェアハウスにデータを取り込むことができます。また、これらの異なるデータセットを結合して一緒に分析し、実用的な洞察を生み出すこともできます。