AWS HealthOmics の機能

AWS HealthOmics は、ゲノム、トランスクリプトーム、およびその他のオミクスデータにおける保存、クエリ、分析を簡略化し、そのデータを利用してインサイトをもたらします。また、研究および臨床アプリケーションで用いるマルチオミクス情報の保存および解析プロセスの簡略化、高速化を実現します。これにより、データからさらに深いインサイトを引き出すことに集中できます。

AWS HealthOmics ストレージを使用すると、ペタバイト規模のオミクスデータを効率的かつ効果的に保存できるため、集団規模の科学的発見を可能にします。 AWS HealthOmics のプライベートおよび Ready2Run ワークフローは、コンピューティングインフラストラクチャのプロビジョニングおよびスケーリングを自動化するため、バイオインフォマティクスに関する分析パイプラインを本番環境のスケールで実行できるようになります。インフラストラクチャの管理に費やす時間が削減されるため、研究に充てる時間を増やすことが可能です。 AWS HealthOmics にはあらかじめ構築された Ready2Run ワークフローのコレクションが付属しており、実行ごとに料金が決定されます。 AWS HealthOmics 分析は、マルチモーダル分析で使用するオミクスデータの準備を簡略化します。マルチオミクスデータと健康記録データを組み合わせて、さらにターゲットを絞り込んでパーソナライズされた治療を実現します。これらの機能は、HIPAA にも対応しています。

全般

AWS HealthOmics ストレージは、FASTQ、BAM、CRAM といったバイオインフォマティクスのファイル形式に対応しています。そのため、これらのデータを効率的かつ低コストで保存、発見、共有できます。これらのファイル形式は、シーケンスストア内のリードセットオブジェクトとして保存されます。また、リファレンスゲノムを FASTA 形式で保存することも可能です。データは、一意の識別子を持つイミュータブルなオブジェクトとしてインポートされ、厳密なデータの出所を必要とするワークロードに対応します。AWS Identity and Access Management (IAM) のタグおよび属性ベースのアクセス制御を使用することで、リファレンスやリードセットオブジェクトを含む個々のデータオブジェクトへのアクセスを制御できます。また、長期保管コストを削減するため、30 日以内にアクセスされなかったデータオブジェクトは、自動的にアーカイブストレージクラスに移動されます。アーカイブされたオブジェクトは、API コールでいつでも最有効化できます。

AWS HealthOmics は、大規模なバイオインフォマティクスワークフローを実行するのに役立ちます。基盤のインフラストラクチャを管理することなく、Ready2Run ワークフローまたは独自のプライベートワークフローを選択して生物学的データを処理できます。

Ready2Run ワークフローは、Sentieon, Inc、NVIDIA、Element Biosciences といった業界をリードするサードパーティソフトウェア企業が、Broad Institute の GATK ベストプラクティスワークフローやタンパク質構造予測の AlphaFold といった一般的なオープンソースのパイプラインとともに設計した構築済みワークフローです。ソフトウェアツールやワークフロースクリプトを管理することなく、Ready2Run ワークフローを使用してデータを処理できます。Ready2Run のワークフローは、実行ごとにあらかじめ決められた料金が発生します。

プライベートワークフローでは、最も一般的に使用されるワークフロー言語であるワークフロー記述言語 (WDL) または Nextflow で記述された独自のワークフロースクリプトを持ち込むことができます。これらのプライベートワークフローは「ラン」と呼ばれる 1 回の実行のみで動作します。プライベートワークフローの場合、料金はリクエストした分のみ発生します。Omics インスタンスタイプと実行ストレージごとに個別に請求されます。ワークフロー内のすべてのタスクは、定義されたリソースに最適なインスタンスにマッピングされます。

AWS HealthOmics を使用すると、(g)VCF、GFF3、TSV/CSV などのゲノミクスデータ形式を迅速に取り込み、Apache Iceberg テーブルに変換できます。Amazon Athena などの分析サービスを介して、ゲノミクスデータにアクセス可能になります。バリアントデータ (個々のサンプルからのデータ) とアノテーションデータ (ゲノム内の位置に関する既知の情報) は、どちらも変換できます。AWS Lake Formation を使用すると、分析ストアへのアクセスを制御できます。これにより、きめ細かいアクセス制御を実装するとともに、さまざまなデータソースにわたってクエリを実行しやすくなります。例えば、個人のゲノムデータと、Amazon HealthLake に保存された病歴 (過去の治療、投薬、検査報告などを含めることが可能) を安全に組み合わせることで、精密医療を容易にします。

AWS Healthomics では、タグ付け、権限の設定、共同作業者との安全なデータ共有により、研究者の共同作業が容易になります。また、オミクスデータの検索可能、アクセス可能、相互運用可能、再利用可能 (FAIR) を実現する方法を簡略化します。ドメイン固有のメタデータを使用すると、AWS HealthOmics データストアを他のオミクスデータやヘルスケアデータにリンクできます。そのため、マルチオミクスおよびマルチモーダル分析が容易になります。AWS Healthomics では、データの出所を確認するために、すべてのワークフロー実行メタデータを CloudWatch ログにアーカイブし、この情報を保存して簡単にクエリできるようにしています。この情報を CloudWatch から S3 にエクスポートして、長期保存することができます。この情報は、コンプライアンス要件を満たす出力データを生成するために入力データに使用されたアルゴリズムを追跡するのに役立ちます。

セキュリティ、プライバシー、コンプライアンス

AWS HealthOmics は HIPAA の対象です。属性ベースの制御を適用して、きめ細かいデータアクセスおよびガバナンスを定義できます。包括的なログ記録と出所の取得機能が組み込まれているため、どのデータに、誰が、いつアクセスしたかを把握できます。