ワークフロー

  • HealthOmics には、プライベートワークフローと Ready2Run ワークフローの 2 種類のワークフローがあります。プライベートワークフローはカスタムのワークフローで、最も一般的に使用されるワークフロー言語で記述された独自のバイオインフォマティクススクリプトを取り込めます。Ready2Run ワークフローは、一般的な業界分析に基づいて事前に構築されたバイオインフォマティクスパイプラインであり、コードを記述しなくてもすぐに開始できます。 

  • HealthOmics のプライベートワークフローは、Nextflow、WDL、CWL で記述できます。サポートされているバージョン情報については、ドキュメントを参照してください。

  • HealthOmics は、Broad Institute の GATK や AlphaFold から、NVIDIA、Element Biosciences、Sentieon、Ultima などのサードパーティーパブリッシャーのワークフローまで、さまざまな Ready2Run ワークフローを提供しています。利用可能な Ready2Run ワークフローの全リストは、こちらで確認できます。

  • はい。HealthOmics は NVIDIA NIM、AlphaFold、ESMFold などの bioFM を実行できます。ワークフロー内で複数の bioFM をオーケストレーションして、創薬パイプラインを大規模に活用できます。bioFM を使用する創薬ワークフローの例については、GitHub の創薬ワークフローリポジトリを参照してください。

  • 初めてのプライベートワークフローを実行するには、Nextflow、WDL、または CWL で記述されたワークフロースクリプトが必要です。さらに、すべてのツールと依存関係はコンテナ化され、プライベート ECR リポジトリに保存される必要があります。入力データは S3 または HealthOmics シーケンスストアから提供できます。

  • プライベートワークフローリソースは実行グループで管理できます。実行グループを使用すると、実行グループに割り当てられる実行の最大同時実行数、最大実行時間、vCPU、GPU を制御できます。さらに、HealthOmics には、リソース割り当てを最適化して実行効率を向上させるのに役立つ Run Analyzer などの適切なサイズ設定ツールが用意されています。 

  • HealthOmics プライベートワークフローには、静的実行ストレージと動的実行ストレージの 2 つの実行ストレージオプションがあります。静的実行ストレージでは、固定サイズのファイルシステムが実行の開始時にプロビジョニングされ、実行中の中間ファイルストレージとしてタスクによって使用されます。実行が完了すると、実行出力が S3 にエクスポートされ、ファイルシステムのプロビジョニングが解除されます。Dynamic Run Storage は、実行中にストレージのニーズに合わせて自動的にスケールアップ/スケールダウンし、プロビジョニング時間が短縮されます。動的実行ストレージは、高速で反復的な開発サイクルや、小規模で短い実行パイプラインに推奨されます。静的実行ストレージは大規模なワークフローに適しています。動的実行ストレージよりも GiB あたりのファイルシステムスループットが高く、GiB あたりのコストが低くなります。

  • HealthOmics ワークフローは、実行中にリアルタイムのログを CloudWatch に送信し、実行完了後に追加のログを配信します。EventBridge を使用して、定義した条件に対する自動アラートを作成できます。 

  • はい。HealthOmics ワークフローは、リソース共有機能を使用して同じリージョンの異なる AWS アカウントと共有できます。ワークフローを共有するには、共有したい AWS アカウントのアカウント ID が必要です。ワークフローを共有すると、受信者に共有の招待状が送信されます。受信者は、共有ワークフローを実行する前に、共有リクエストを受け入れる必要があります。ワークフローの所有者はいつでもアクセス権を取り消すことができ、受信者は共有ワークフローを変更または削除することはできません。 

  • S3 および HealthOmics シーケンスストアからの実行入力として使用されるファイルには、ファイル識別のための固有の ETag が割り当てられ、プライベート ECR リポジトリに保存されているコンテナには固有のハッシュが割り当てられます。実行を完全に再現できるようにワークフローは作成後は変更できません。すべての実行にはグローバルに固有の UUID が割り当てられ、これを使用してすべての一意の実行、実行結果、および関連するログを識別できます。この UUID は、社内のラボ情報システム (LIMS)、電子ラボノートブック (ELN)、またはサンプル管理システムに接続して、トレーサビリティと実行再現性の要件を満たすことができます。  

  • お客様は、ワークフローとデータストアを一緒に使用することも、スタンドアロンのソリューションとして使用することもできます。HealthOmics のワークフローは S3 および HealthOmics シーケンスおよびリファレンスストアと互換性があります。HealthOmics シーケンスストアとリファレンスストアは、HealthOmics ワークフロー、AWS Batch、その他のコンピューティングソリューションで使用できます。

データストア

  • HealthOmics には、オブジェクトに焦点を当てたストアとクエリ可能なストアの 2 種類のデータストアがあります。オブジェクトに焦点を当てたストアは、リファレンスストアとシーケンスストアです。同ストアは分子ファイルを費用対効果の高い方法で保存および整理できるように設計されています。クエリ可能なストアはバリアントストアとアノテーションストアです。バリアントデータやアノテーションデータを、クエリやコホート用に最適化されたストアにコスト効率よく変換するように設計されています。これらのストアが一体となって、FAIR (検索可能、アクセス可能、相互運用可能、再利用可能) なサンプルストレージ、クエリ、コホート、取得をペタバイト規模で行えるように設計されています。 

  • HealthOmics データストアは、さまざまな方法でコスト削減を促進します。シーケンスストアは、使用量に応じた階層化と圧縮を使用して、30 日間アクセスされていないオブジェクトのストレージコストを削減します。これにより、従来の AWS オブジェクトストレージと比較して大幅な節約が可能になります。

    HealthOmics バリアントストアとアノテーションストアはゼロ ETL ストアなので、クエリ時にスキャンされたストレージとデータに対してのみ料金が発生します。ETL のコストを削減し、バリアントとアノテーションのデータを分離することで、アノテーションを変更したい場合にバリアントデータをレプリケートする必要がなくなるため、コスト削減につながります。さらに、バリアントストアはサンプル情報によって分割されるため、サンプルベースのクエリではスキャンするデータが少なくなり、ダウンストリームのコスト削減につながります。

  • 各データストアは、さまざまなデータタイプ向けに設計されています。HealthOmics リファレンスストアは FASTA ファイルをサポートしています。HealthOmics シーケンスストアは、FASTQ、uBAM、BAM、および CRAM ファイルをサポートしています。バリアントストアは VCF ファイルからのデータ抽出をサポートします。アノテーションストアは、GFF、TSV、CSV、VCF からのデータ抽出をサポートします。

  • AWS HealthOmics に保存できるデータの総量とオブジェクトの数は、事実上無制限です。各ストアでサポートされるファイルサイズと数のクォータは調整可能ですが、顧客はストアに通常数十ペタバイト単位で保存しているため、必要に応じてファイルを追加し続けることができます。

  • HealthOmics データストアは、Amazon S3 の耐久性と耐障害性を基盤として構築されています。これには、AWS リージョンの複数のデバイスとアベイラビリティーゾーンにオブジェクトが冗長的に保存されることも含まれます。シーケンスストアは、オブジェクトのセマンティックアイデンティティを保存および監視し、ファイルの内容がアクティブ化とアーカイブサイクル全体にわたって保持されるようにします。

  • HealthOmics シーケンスストアは、オブジェクトの S3 アクセス URI またはコンパニオンツールを使用して、ほとんどの分析ツールと直接統合できます。シーケンスストアに保存されている各オブジェクトには固有の S3 URI があり、ほとんどの S3 互換システムを使用してオブジェクトを読み取ることができます。システムにファイルベースのインターフェイスが必要な場合は、Mountpoint for S3 を使用して、読み取りセットまたはシーケンスストアのプレフィックスをマウントされたファイルとして読み取りできるようにすることができます。カスタマイズが必要な場合は、Amazon の SDK または HealthOmics 転送マネージャーを使用して統合を行うことができます。

  • HealthOmics シーケンスストアは、定期的かつ頻繁にアクセスされる静的分子データを保存するために設計されています。シーケンスストアには圧縮と階層化が組み込まれており、オブジェクト読み取りスケーリングも S3 上に構築されているため、日常使用から年間まで、さまざまなアクセス頻度のあらゆる規模のデータに適しています。取り込むたびに新しい読み取りセットが作成され、シーケンスストアでは最低 30 日分の保存期間に対して料金が発生するため、一時ファイル、スクラッチファイル、または頻繁に更新されるファイルには適していません。

    Amazon S3 は、頻繁に変更される動的ファイル、存続期間の短いファイル、およびサポートされている形式を満たさない非分子ファイルに最適です。Amazon S3 Glacier では、データアーカイブやコンプライアンス上の理由で管理する必要があるが、アクセスの必要性が非常に低いファイルのために、さまざまなストレージオプションが用意されています。

セキュリティとプライバシー