製品機械学習AWS HealthOmics › AWS HealthOmics の料金

 

 

概要

AWS HealthOmics は、ワークフローとストレージを大規模に処理するように設計されたフルマネージド型のバイオインフォマティクスと創薬インフラストラクチャにより、お客様が科学的進歩を加速できるよう支援します。HealthOmics では、使用した分だけのお支払いで、HealthOmics のライセンスコストはかかりません。

HealthOmics には 2 種類のワークフローがあります。プライベートワークフローはカスタムのユーザー定義のワークフローで、最も一般的に使用されるワークフロー言語で記述された独自のバイオインフォマティクススクリプトを取り込めます。プライベートワークフローの料金は、各実行に必要なコンピューティングリソースとファイルシステムリソースに基づいています。Ready2Run ワークフローは、一般的な業界分析に基づいて事前に構築されたバイオインフォマティクスパイプラインであり、実行ごとに固定料金を支払います。

HealthOmics には 2 種類のストレージがあります。リファレンスストアとシーケンスストアはオブジェクトのデータストアで、階層化、圧縮、およびメタデータカタログを使用してバイオインフォマティクスデータを費用対効果の高い方法で保存および整理できるようにします。料金は、保存されているオブジェクトサイズとデータ階層に基づいています。バリアントストアとアノテーションストアは、バイオインフォマティクスデータから重要なデータを抽出し、検索やコホート作成に最適化されたデータレイクを作成するゼロ ETL ストアです。料金は、抽出された情報のストレージサイズに基づいています。

ワークフローとデータストアは、必要に応じて一緒に使用することも、別々に使用することもできます。3 年または 5 年間の使用を約束する場合は、割引料金についてお問い合わせください。

タイプ別の料金を調べる

AWS HealthOmics では、お支払いいただくのは使用した分だけです。詳しくは、以下のタイプ別の料金をご覧ください。

無料利用枠

AWS 無料利用枠の一部として、AWS HealthOmics を無料で開始できます。サインアップすると、AWS の新規のお客様には、プライベートワークフローを実行するための最大 275 の omics.m.xlarge (または同等の) インスタンス時間と 49,000 ギガバイト/時の実行ストレージ、シーケンスストアでは 1,500 ギガベース/月のアクティブストレージとアーカイブストレージ、バリアントストアでは 200 ギガバイト/月のストレージが提供されます。無料利用枠の使用量は、AWS GovCloud (米国) リージョンを除くすべてのリージョンが毎月計算され、自動的に請求額に適用されます。未使用分は持ち越されません。ご利用にあたっての条件が適用されます。詳細については、利用規約をご覧ください。

 

最初の 2 か月間は 1 か月あたりの無料利用枠を利用可能

HealthOmics ワークフロー

プライベートワークフロー: 275 omics.m.xlarge インスタンス時間または同等のコンピューティングインスタンス、および 49,000 GB-時間の実行ストレージ

HealthOmics データストア シーケンスストア: アクティブストレージクラスで 1500 ギガベース/月、アーカイブストレージクラスで 1500 ギガベース/月

バリアントストア: 200 ギガバイト/月

AWS のお客様は、すべての AWS のサービスとリージョン (中国と GovCloud を除く) を集計して、1 か月あたり 100 GB のインターネットへのデータ転送 (アウト) を無料でご利用いただけます。

プライベートワークフローの料金

プライベートワークフローは、バイオインフォマティクスまたは創薬パイプラインを実行するために選択したワークフロー言語に基づいて定義するカスタムワークフローです。コストには、ワークフロータスクインスタンスと実行ストレージの 2 つのコンポーネントがあります。

ワークフローの各タスクに使用されるオミクスインスタンスに対して料金が発生します。ワークフロー内の各タスクは、そのタスクに求められる vCPU、メモリ、GPU を満たす、利用可能な最小のオミクスインスタンスにマップされます。例えば、8 コア CPU と 60 GiB の RAM を使用するように定義されたタスクは、omics.r.2xlarge インスタンスタイプにマッピングされて実行されます。HealthOmics は常にリクエストされたリソースを正確にプロビジョニングします。この例では、8 個の CPU と 60 GiB の RAM がタスクで使用できるようになります。タスクは 1 秒単位で課金されます。ただし、1 タスクあたりの最低請求時間は 60 秒です。タスクに vCPU またはメモリを指定しない場合、HealthOmics はこのようなタスクに使用可能な最小インスタンスタイプ omics.c.large を自動的にプロビジョニングします。また、データのステージングに関連するコンピューティング (インポートやエクスポートなど) には課金されず、AZ 間料金もありません。

実行ストレージには、ファイルシステムのスループットが高い静的にプロビジョニングされたファイルシステムか、動的にスケーリングするファイルシステムを選択できます。静的実行ストレージは、1200 GiB、2400 GiB、その後は 2400 GiB 単位で利用でき、プロビジョニングされる最小サイズは 1200 GiB です。動的実行ストレージは使用量に応じてスケールし、ストレージプロビジョニングの最小要件はありません。

実行が実行中の状態にあるときのみ、リソースに対して課金されます。保留中、開始、または停止状態での実行には料金は発生しません。キャンセルまたは失敗した実行については、キャンセルまたは失敗の時点までに消費されたリソース分が請求されます。

実行ごとの合計コストを AWS 請求書で確認できるため、コストをすばやく簡単に判断できます。HealthOmics には、ランニングリソース、コスト、パフォーマンスの最適化に役立つオープンソースの実行アナライザーツールも用意されています。本番ワークフローを大規模に実行する予定で、3 年または 5 年の利用を約束したい場合は、割引料金についてお問い合わせください。

 

Ready2Run ワークフローの料金

Ready2Run ワークフローは、NVIDIA、Sentieon、Element Biosciences、Ultima といった業界をリードするサードパーティソフトウェア企業が、Broad Institute の GATK ワークフローやタンパク質構造予測の AlphaFold といった一般的なオープンソースのパイプラインとともに設定した構築済みワークフローです。ソフトウェアツールやワークフロースクリプトを管理することなく、Ready2Run ワークフローを使用してデータを処理できます。Ready2Run ワークフローは実行ごとに課金され、実行が正常に完了すると、実行時間に関係なく同じ定額料金が請求されます。実行がキャンセルされたり、最初の 1 時間以内に正常に完了できなかったりした場合、実行単価は最初の 1 時間の使用量に基づいて案分計算されます。実行時間が 1 時間を超える実行には、その実行の全額が請求されます。Sentieon Ready2Run ワークフローには、Sentieon から別途サブスクリプションを購入する必要があります。Sentieon Ready2Run を初めて使用するユーザーには、Sentieon から追加費用なしで 2 週間の無料評価サブスクリプションが自動的に提供されます。入力パラメータ、ワークフロー図、推定実行時間など、利用可能な Ready2Run ワークフローの詳細情報を表示するには、HealthOmics コンソールにアクセスしてください。

データストアの料金

HealthOmics データストアは、大規模なサンプルデータ用の検索可能、アクセス可能、相互運用可能、再利用可能 (FAIR) なマネージドストレージで、自動データ圧縮と最適化されたバリアント/アノテーションクエリ機能が搭載されています。

シーケンスストアは、使用量主導型の階層化と圧縮によりコスト削減を実現します。保存されたオブジェクトは、整理および検索しやすいように読み取りセットにグループ化されます。シーケンスストアにデータを保存する場合、1 か月あたりのギガベース単位の料金が発生します。ギガベースとは、インポートしたシーケンスファイル (FASTQ、BAM、CRAM など) から抽出された 10 億塩基対を指します。支払いはギガベース単位で行われるため、最適なファイル形式や圧縮技術を気にする必要はありません。AWS HealthOmics はお客様に代わってこれを最適化します。シーケンスストア内のデータには、2 つの方法でアクセスできます。1 つは、HealthOmics API を読み取り、書き込み、更新し、S3 API により読み取る方法です。HealthOmics API を介してアクセスする場合、読み取りセットオブジェクトに対して行われた GET リクエストの料金が発生します。読み取りセットに関するその他の HealthOmics リクエストタイプはすべて無料です。もう 1 つは、S3 の LIST API と GET API による方法です。S3 API を介したアクセスの場合、COPY リクエストと LIST リクエストは他のすべてのリクエストタイプとは別に請求されます。HealthOmics のシーケンスストアのコストを他のストレージオプションと比較する方法については、当社のブログ (https://aws.amazon.com/blogs/industries/store-omics-data-cost-effectively-at-any-scale-with-aws-healthomics/) をご覧ください。

バリアントストアとアノテーションストアでは、ゼロ ETL を使用してバリアントデータとアノテーションデータを準備し、Amazon Athena や Amazon SageMaker などの AWS サービスでクエリ、コホート、分析を行います。取り込まれたファイルは HealthOmics によって処理され、クエリに最適化された形式に変換されます。バリアントデータとアノテーションデータはいくつでも保存でき、支払いは保存されたデータに対してのみ発生します。請求されるデータサイズは、取り込みおよび変換後のデータサイズとして定義されます。バリアントストアとアノテーションストアのデータには、通常、他の AWS サービスを通じてアクセスします。他のサービスのデータをクエリおよび分析する場合は、それらのサービスの使用料を支払います。

AWS HealthOmics データストアに保存されたデータには、最小ストレージ期間である 30 日分の料金が請求されます。30 日が経過する前に削除されたデータには、残りの日数分のストレージ料金に等しい日割り料金が発生します。 

料金の例

  • バイオインフォマティクスの研究者が、米国東部 (バージニア北部) リージョンの AWS HealthOmics ワークフローで Nextflow ワークフローを実行したいと考えています。ワークフローには 3 つのタスクがあります。1 つ目のタスクでは 16 vCPU と 30 GB のメモリを確保し、3 時間かけて実行します。2 つ目のタスクには 32 vCPU と 160 GB のメモリが必要で、実行には 2 時間かかります。3 つ目のタスクでは 4 vCPU と 10 GB のメモリを予約し、10 分かけて実行します。お客様がワークフローを登録し、デフォルトの 1,200 GB のファイルシステムで StartRun API を呼び出します。合計コストは次のとおりです:
    タスク 1 (omics.c.4xlarge): 0.9180 USD/時間 * 3 時間 = 2.754 USD
    タスク 2 (omics.r.8xlarge): 2.7216 USD/時間 * 2 時間 = 5.4432 USD
    タスク 3 (omics.m.xlarge): 0.2592 USD/時間 * 1/6 時間 = 0.0432 USD
    ストレージ実行ストレージ: 0.0001918 USD/GB-時間 * (1,200 GB*(3 時間 +2 時間 + 1/6 時間)) = 1.18916 USD
    合計: 9.42956 USD

  • あるバイオインフォマティクスの科学者が、米国東部 (バージニア北部) リージョンで AWS HealthOmics 内で新しい WDL ワークフローを開発しています。ワークフローには 2 つのタスクがあります。1 つ目のタスクでは 16 vCPU と 30 GB のメモリを予約し、3.5 時間かけて実行します。2 つ目のタスクには 32 vCPU と 160 GB のメモリが必要で、実行には 2.25 時間かかります。お客様がワークフローを登録し、動的ファイルシステムで StartRun API を呼び出します。5.75 時間のワークフロー実行中に、ファイルシステムは 0 GB から 1,043 GB まで直線的に増加し、ファイルストレージの合計は 3,000 GB-時間となります。合計コストは次のとおりです:
    タスク 1 (omics.c.4xlarge): 0.9180 USD/時間 * 3.5 時間 = 3.213 USD
    タスク 2 (omics.r.8xlarge): 2.7216 USD/時間 * 2.25 時間 = 6.1236 USD
    動的実行ストレージ: 0.0004110 USD/GB-時間 * 3,000 GB-時間 = 1.233 USD
    合計: 10.5696 USD

  • ある計算科学者は、米国東部 (バージニア北部) リージョンで、30x のゲノム Ready2Run ワークフローで GATK-BP Germline fq2vcf を 3 つのサンプルに対して実行したいと考えています。顧客はデータを入力し、サンプルごとに StartRun API を呼び出します。3 回の実行のコストは次のとおりです。
    30x のゲノムの Ready2Run ワークフロー用の GATK-BP Germline fq2vcf: 10.00 USD / 実行 * 3 = 30.00 USD
    合計: 30.00 USD

  • ある集団シーケンシングイニシアチブでは、収集したバイオバンクから個人の配列を開始しました。これは、欧州西部 (アイルランド) リージョンで行うことにします。それぞれ 130 ギガベース、50 ギガバイトの 10 万人の個人を配列し、生のシーケンシングデータを AWS HealthOmics ストレージに保存します。今後 5 年間は、インポート後 30 日経過してもアーカイブストレージクラスに残り、アクティブストレージクラスに移動した後は 30 日間で平均 2 回アクセスされます。ファイルへのアクセスには、S3 API を使用します。各ゲノムは 500 回に分けてダウンロードされ、500 の GET API コールが生成されます。1 つのゲノムにかかる 5 年間の合計コストは、次のとおりです。
    アクティブストレージクラス: 0.005769 USD ギガベース/月 * 130 ギガベース * 90 日 = 2.22 USD
    アーカイブストレージクラス: 0.001154 USD ギガベース/月 * 130 ギガベース * (1,825 – 90) 日 = 8.56 USD。
    S3 GET API: 0.0004 USD/1000 API コール * (2 x 500 API コール) = 0.0004 USD
    5 年間の合計コスト: 2.22 USD + 8.56 USD + 0.0004 USD = 10.78 USD (または 2.15 USD/年)

  • あるデータサイエンティストが、バリアント呼び出しフォーマット (VCF) ファイルを 3,202 個持っていて、米国東部 (バージニア北部) リージョンの Amazon Athena で分析したいと考えています。バリアントストアを作成し、AWS HealthOmics API を使用してこれらのファイルを取り込みます。取り込まれたデータのサイズは 1.5 TB です。その後 1 か月の間に、Athena でクエリを 1000 回実行し、異なる亜母集団の対立遺伝子頻度を計算し、各実行で平均 50 GB を消費しました。全体的な月間コストは次のとおりです。
    バリアントストア: 0.035 USD GB/month * (1,024 GB/TB * 1.5 TB) = 53.76 USD
    Amazon Athena: 5 USD/TB * 1,000 * 50 / 1,024 = 244.14 USD

データ転送料金

HealthOmics の帯域幅についてはすべてお客様にお支払いいただきます。データ転送料金は、データストアと同じ AWS リージョン内の AWS サービスに転送されるデータには適用されません。以下に示す料金は、Amazon S3 との間で (パブリックインターネット経由で)「受信 (イン)」および「送信 (アウト)」されるデータ転送量に基づきます†††。AWS Direct Connect の料金の詳細500 TB/月を越えるデータ転送については、お問い合わせください。

料金は、すべての AWS のサービスのインターネットへのデータ送信の利用合計量で決まります。

††† 接続がユーザーにより途中で終了された場合は、送信転送量がアプリケーションで受信したデータとは異なる場合があります。たとえば、10 GB のオブジェクトをリクエストし、データの最初の 2 GB を受信したところで接続を終了したとします。Amazon S3 はデータのストリーミングを停止しようとしますが、すぐには停止しません。この事例では、送信データは 3 GB になる可能性があります (受信した 2 GB より 1 GB 多い)。結果的に、この場合は 3 GB のデータ送信の料金が請求されます。