ゼロ ETL とは何ですか?
ゼロ ETL は、ETL データパイプラインを構築する必要性を排除し、または最小限に抑える一連の統合です。抽出、変換、ロード (ETL) は、さまざまなソースからのデータを結合、クリーニング、正規化して、分析、人工知能 (AI)、機械学習 (ML) のワークロードに対応できるようにするプロセスです。従来の ETL プロセスは、開発、メンテナンス、スケールに時間がかかり、複雑です。一方、ゼロ ETL 統合では、ETL データパイプラインの作成を必要とせずに、ポイントツーポイントのデータ移動を円滑に行うことができます。また、ゼロ ETL を使用することで、データを移動することなく、データサイロ全体でクエリを実行できるようになります。
ゼロ ETL 統合はどのような ETL の課題を解決しますか?
ゼロ ETL 統合は、従来の ETL プロセスでのデータ移動に関する既存の課題の多くを解決します。
システムの増大する複雑さ
ETL データパイプラインにより、データ統合の取り組みがさらに複雑になります。目的のターゲットスキーマに一致するようにデータをマッピングするには、複雑なデータマッピングルールが必要であり、データの不整合や競合の処理が必要です。問題を診断するには、効果的なエラー処理、ログ記録、および通知メカニズムを実装する必要があります。データセキュリティの要件により、システムに対する制約がさらに増大します。
追加料金
ETL パイプラインはもともと高コストですが、データ量が増加するにつれてコストが上昇する可能性があります。システム間の重複データストレージは、大量のデータを扱うにはコストがかかり過ぎる可能性があります。さらに、ETL プロセスのスケーリングには、多くの場合、高コストのインフラストラクチャのアップグレード、クエリパフォーマンスの最適化、並列処理技術が必要になります。要件が変化した場合、データエンジニアリングは更新プロセス中にパイプラインを常にモニタリングおよびテストする必要があり、メンテナンスコストが増加します。
分析、AI、ML にかかる時間の増加
ETL では通常、データエンジニアがカスタムコードを作成する必要があり、DevOps エンジニアがワークロードのスケールに必要なインフラストラクチャをデプロイおよび管理する必要があります。データソースを変更した場合、データエンジニアはコードを手動で変更し、再度デプロイする必要があります。このプロセスには数週間かかる場合があり、その結果、分析、人工知能、機械学習のワークロードの実行に遅れが生じます。さらに、ETL データパイプラインの構築とデプロイに時間がかかるため、そのようなデータは、オンライン広告の掲載、不正取引の検出、リアルタイムのサプライチェーン分析などのほぼリアルタイムのユースケースに適しているとは言えません。これらのシナリオでは、カスタマーエクスペリエンスの改善、新たなビジネスチャンスへの対処、ビジネスリスクの軽減のための機会が失われます。
ゼロ ETL にはどのような利点がありますか?
ゼロ ETL は、組織のデータ戦略にいくつかの利点をもたらします。
敏捷性の向上
ゼロ ETL はデータアーキテクチャを簡素化し、データエンジニアリングにかかる労力を軽減します。これにより、大量のデータを再処理することなく、新しいデータソースを含めることができます。この柔軟性によって俊敏性が向上し、データ駆動型の意思決定と迅速なイノベーションがサポートされます。
コスト効率
ゼロ ETL はクラウドネイティブでスケーラブルなデータ統合テクノロジーを利用しているため、企業は実際の使用量とデータ処理のニーズに基づいてコストを最適化できます。組織はインフラストラクチャのコスト、開発にかかる労力、メンテナンス関連のオーバーヘッドを削減できます。
リアルタイムインサイト
従来の ETL プロセスでは定期的なバッチ更新が必要となることが多く、その結果、データが利用可能になるまでに時間がかります。一方、ゼロ ETL はリアルタイムまたはほぼリアルタイムのデータアクセスを提供し、分析、AI/ML、レポートのために、より新しいデータを利用できるようにします。リアルタイムダッシュボード、最適化されたゲームエクスペリエンス、データ品質モニタリング、顧客行動分析などのユースケースについて、より正確かつ適時のインサイトを得ることができます。組織は、より大きな自信をもってデータ駆動型の予測を実行し、カスタマーエクスペリエンスを改善して、ビジネス全体でデータ駆動型のインサイトを得られるようにします。
ゼロ ETL のさまざまなユースケースにはどのようなものがありますか?
ゼロ ETL には 3 つの主なユースケースがあります。
フェデレーテッドクエリ
フェデレーテッドクエリテクノロジーは、データの移動について心配することなく、さまざまなデータソースに対してクエリを実行するための機能を提供します。使い慣れた SQL コマンドを使用してクエリを実行し、運用データベース、データウェアハウス、データレイクなどの複数のソース間でデータを結合できます。In-Memory Data Grids (IMDG) はキャッシュおよび処理されるデータをメモリに保存するため、即時の分析とクエリ応答時間の恩恵を享受できます。その後、結合結果をデータストアに保存して、さらに分析したり、後で使用したりできます。
ストリーミング取り込み
データストリーミングプラットフォームとメッセージキュープラットフォームは、複数のソースからリアルタイムデータをストリーミングします。データウェアハウスとのゼロ ETL 統合により、そのような複数のストリームからデータを取り込み、分析のためにほぼ瞬時に提示できます。他のストレージサービスでの変換のためにストリーミングデータをステージングする必要はありません。
即時のレプリケーション
これまでは、トランザクションデータベースから中心的なデータウェアハウスにデータを移動するには、複雑な ETL ソリューションが常に必要でした。今日では、ゼロ ETL がデータレプリケーションツールとして機能し、トランザクションデータベースからデータウェアハウスにデータを即時に複製できます。複製メカニズムは変更データキャプチャ (CDC) 技術を使用しており、データウェアハウスに組み込まれている場合があります。重複はユーザーには見えません。アプリケーションはトランザクションデータベースにデータを保存し、アナリストはウェアハウスからのデータに対してシームレスにクエリを実行します。
AWS はゼロ ETL の取り組みをどのようにサポートできますか?
AWS はゼロ ETL の未来に投資しています。ゼロ ETL の組み込みサポートを提供するサービスの例を以下に示します。
Amazon Athena は、オープンソースフレームワーク上に構築されたサーバーレスのインタラクティブな分析サービスで、オープンテーブルとファイル形式をサポートしています。Athena は、ペタバイト規模のデータが存在する場所で分析するための簡素化された柔軟な方法を提供します。Amazon Simple Storage Service (S3) データレイクと 30 のデータソース (オンプレミスデータソースや、SQL または Python を使用する他のクラウドシステムを含む) からデータを分析したり、アプリケーションを構築したりできます。Athena は、オープンソースの Trino および Presto エンジンと Apache Spark フレームワーク上に構築されており、プロビジョニングや設定は不要です。
Amazon Redshift Streaming Ingestion は、Amazon Kinesis Data Streams または Amazon MSK から 1 秒あたり数百メガバイトのデータを取り込みます。スキーマを定義するか、SUPER データ型で半構造化データを取り込むことを選択して、リアルタイムでデータをクエリします。
Amazon Redshift との Amazon Aurora のゼロ ETL 統合により、ほぼリアルタイムの分析と機械学習 (ML) が可能になります。Aurora からのペタバイト規模のトランザクションデータに対する分析ワークロードには Amazon Redshift が利用されます。これは、トランザクションデータが Aurora DB クラスターに書き込まれた後、Amazon Redshift で利用できるようにするためのフルマネージドソリューションです。
S3 からの Amazon Redshift 自動コピーは、Amazon Redshift へのファイルの取り込みを簡素化および自動化します。この機能は、S3 で新しいファイルが作成されるとすぐに、カスタムコーディングや手動の取り込みアクティビティなしで、継続的にデータを取り込みます。
AWS Lake Formation を利用したデータ共有アクセスコントロールを使用すると、組織全体で共有されるデータに対するきめ細かなアクセスを一元的に管理できます。Amazon Redshift 内のテーブル、列、行に対する許可を、定義、変更、監査できます。
今すぐ無料アカウントを作成して、AWS でゼロ ETL の使用を開始しましょう。