このガイダンスは、ライフサイエンスのデータ機器と研究室のシステムファイルを、インターネットまたは低レイテンシーの直接接続で AWS クラウドに接続するのに役立ちます。アクセス頻度の低いデータのストレージ費用を削減することも、ゲノミクス、イメージングなど負荷の高いワークロード用のハイパフォーマンスコンピューティングにアクセスすることも、すべて AWS で可能です。
アーキテクチャ図
ステップ 1
ラボの技術者が実験またはテストを実行し、その結果がオンプレミスのファイルサーバー上のフォルダーに書き込まれます。AWS DataSync タスクは、ローカルストレージから Amazon Simple Storage Service (Amazon S3) のバケットにデータを同期するように設定されています。
ステップ 2
データは、インターネット経由、もしくは AWS Direct Connect などのインターネットを介さない低レイテンシーの直接接続を介して AWS クラウドに転送されます。
ステップ 3
電子ラボノート (ELN) とラボ情報管理システム (LIMS) は、イベントや API を通じて実験とテストのメタデータを AWS クラウドと双方向で共有します。この統合の詳細については、「Guidance for a Laboratory Data Mesh on AWS」をご覧ください。
ステップ 4
開発業務受託機関 (CRO) のような提携組織は、FTP、SFTP、または FTPS 用の AWS Transfer Family を使用して研究結果を Amazon S3 にアップロードできます。
ステップ 5
頻度が低いアクセス用に設定された S3 バケットに機器データを書き込むことで、ストレージコストを最適化できます。S3 ストレージのアクセスパターンを特定して、S3 バケットライフサイクルポリシーを最適な設定にしたり、Amazon S3 Glacier にデータを転送したりします。
ステップ 6
Amazon FSx for Lustre を使用することで、ゲノミクス、イメージングなど負荷の高いワークロード用のクラウド上のハイパフォーマンスコンピューティング (HPC) でデータにアクセスできるようになり、ミリ秒単位の低レイテンシーの共有ファイルシステムを実現できます。
ステップ 7
バイオインフォマティクスのパイプラインは、AWS Step Functions、AWS HealthOmics および AWS Batch を通じてオーケストレーションされており、柔軟な CPU および GPU コンピューティングを実現しています。
ステップ 8
機械学習は、特徴量エンジニアリング、データラベリング、モデルトレーニング、デプロイ、ML オペレーションにAmazon SageMaker を用いる人工知能および機械学習 (AI/ML) ツールキットを使用して実行されます。Amazon Athena は柔軟な SQL クエリに使用されます。
ステップ 9
データ分析とレポート作成のためにオンプレミスアプリケーションを使用する研究者は、Amazon S3 ファイルゲートウェイを介しネットワークファイルシステム (NFS) またはサーバーメッセージブロック (SMB) を用いて Amazon S3 のデータの表示やアクセスを行います。
Well-Architected Pillars
AWS Well-Architected フレームワークは、クラウドでシステムを構築する際に行う決定の長所と短所を理解するのに役立ちます。フレームワークの 6 つの柱により、信頼性が高く、安全かつ効率的で、費用対効果が高く、持続可能なシステムを設計および運用するためのアーキテクチャのベストプラクティスを学ぶことができます。AWS マネジメントコンソールで無料で提供されている AWS Well-Architected Tool を使用し、各柱の一連の質問に回答することで、これらのベストプラクティスに照らしてワークロードを確認できます。
上記のアーキテクチャ図は、Well-Architected のベストプラクティスを念頭に置いて作成されたソリューションの例です。完全に Well-Architected であるためには、可能な限り多くの Well-Architected ベストプラクティスに従う必要があります。
-
運用上の優秀性
新しいデータソースやパートナーの出現に伴い、こうした変化するアクセスパターンに適応するために、さまざまなデータ転送サービスを利用できます。マルチサイト環境では、他のアプリケーション用にオンサイトキャッシュを保持したまま、S3 ファイルゲートウェイを使用して転送できます。 Transfer Family では、CRO などのパートナー組織が研究結果を簡単にアップロードできます。
-
セキュリティ
データを保護するため、AWS アカウントの認証情報を保護し、AWS Identity and Access Management (IAM) を使用して個々のユーザーアカウントを設定することで、各ユーザーに職務を遂行するために必要な権限のみを付与することをお勧めします。また、保存時の暗号化を使用し、サービスにはデフォルトで送信中の暗号化を使用することもお勧めします。
-
信頼性
DataSync は、1 つまたは複数の VPC エンドポイントを活用して、1 つのアベイラビリティーゾーンが利用できない場合でも、エージェントが別のエンドポイントに確実にアクセスできるようにします。DataSync は、一連のエージェントを活用してデータを移動するスケール可能なサービスです。タスクとエージェントは、移行が必要なデータ量の需要に応じてスケールすることができます。
DataSync はすべてのイベントを Amazon CloudWatch に記録します。ジョブが失敗した場合は、問題とタスクが失敗している箇所をより良く理解するための対策を講じることができます。タスクの完了後、後処理ジョブを開始してパイプラインプロセスの次のフェーズを完了できます。
Amazon S3 は、ミッションクリティカルで主要なデータストレージのために設計された、耐久性の高いストレージインフラストラクチャを提供します。
-
パフォーマンス効率
FSx for Lustre ストレージは、ミリ秒未満のレイテンシー、最大数百 GB/s のスループット、数百万の IOPS を提供します。
-
コストの最適化
オンデマンドでスケールするサーバーレス技術を使用することで、使用したリソースに対してのみ支払いが発生します。さらにコストを最適化するために、SageMaker のノートブック環境を使用していないときに停止することができます。Amazon QuickSight 視覚化ダッシュボードを使用する予定がない場合は、コストを節約するために、デプロイしないことも選択できます。
データ転送料金は、主に 2 つの部分で構成されます。1 つは 1 GB の転送ごとに課金されるDataSync で、もう 1 つは Direct Connect または VPN データ転送です。さらに、VPC エンドポイントを使用する場合、クロスアベイラビリティーゾーン料金が適用される場合もあります。
-
持続可能性
CloudWatch メトリクスにより、ユーザーはアラートと傾向に基づいてデータ駆動型の意思決定を行うことができます。マネージドサービスとダイナミックスケールを多用することで、バックエンドサービスの環境への影響を最小限に抑えることができます。ほとんどのコンポーネントは自立しています。
実装リソース
AWS アカウント内で実験および使用するための詳細なガイドが提供されています。ガイダンス構築の各段階 (デプロイ、使用、およびクリーンアップを含む) は、デプロイに向けて準備するために詳細に検討されています。
サンプルコードは出発点です。これは業界で検証済みであり、規範的ではありますが決定的なものではなく、内部を知ることができ、開始に役立ちます。
関連コンテンツ
AWS を活用したデジタル接続ラボの構築
この投稿では、ライフサイエンスラボが AWS クラウドの規模とパフォーマンスを最大限に活用するのに役立つツール、ベストプラクティスおよびパートナーについて説明します。
Laboratory Data Mesh on AWS のためのガイダンス
このガイダンスは、ラボの機器データとソフトウェアの両方をクラウドデータガバナンス、データディスカバリー、バイオインフォマティクスパイプラインと統合し、その過程で主要なメタデータイベントをキャプチャする科学的データ管理システムを構築する方法を示します。
Resilience、AWS 上でラボ接続用のグローバルデータメッシュを構築
この導入事例では、バイオマニュファクチャリングのイノベーターである Resilience が、AWS でのデータ転送用接続ネットワークを使用して新薬の製造方法にどのように革命を起こしたのかを説明します。
免責事項
サンプルコード、ソフトウェアライブラリ、コマンドラインツール、概念の実証、テンプレート、またはその他の関連技術 (私たちの担当者から提供される前述のものを含む) は、AWS カスタマーアグリーメント、またはお客様と AWS との間の関連文書契約 (いずれか該当する方) に基づき、AWS コンテンツとしてお客様に提供されるものです。お客様は、この AWS コンテンツを、お客様の本番アカウント、または本番データもしくはその他の重要なデータで使用すべきではありません。お客様は、サンプルコードなどの AWS コンテンツを、お客様固有の品質管理手法および基準に基づいて、本番グレードでの使用に適したテスト、セキュリティ確保、および最適化を行う責任を負います。AWS コンテンツのデプロイには、Amazon EC2 インスタンスの実行や Amazon S3 ストレージの使用など、AWS の課金対象リソースを作成または使用するための AWS 料金が発生する場合があります。
本ガイダンスにおける第三者のサービスまたは組織への言及は、Amazon または AWS と第三者との間の承認、後援、または提携を意味するものではありません。AWS からのガイダンスは技術的な出発点であり、アーキテクチャをデプロイするときにサードパーティのサービスとの統合をカスタマイズできます。