ベイラー医科大学の HGSC は、Illumina DRAGEN on AWS を利用してゲノミクスデータをより迅速に分析しています
2022 年
ベイラー医科大学 (ベイラー) の Human Genome Sequencing Center (HGSC) は、米国の National Institutes of Health の All of Us Research Program から資金提供を受けている数少ないゲノミクスシーケンスラボの 1 つです。2019 年、HGSC は、大規模なゲノミクスデータセットの高度にスケーラブルで安全な分析を提供するソリューションの検討を開始しました。HGSC は、AWS のアドバンストパートナーである Illumina と協力して、Illumina DRAGEN (Dynamic Read Analysis for GENomics) Bio-IT Platform を徹底的に評価しました。このプラットフォームは、シーケンスデータの非常に正確で包括的かつ効率的な二次ゲノム分析を可能にし、高速化のために FPGA (Field Programmable Gate Array) テクノロジーを利用するバイオインフォマティクスソリューションです。
HGSC は、DRAGEN と AWS のサービスを併用することで、1 日あたり何百ものゲノムサンプルを分析できます。このソリューションにより、ベイラーは National Institutes of Health All of Us Research Program などの研究イニシアチブへの参加を増やすことができました。このプログラムは、100 万名のボランティアの健康および遺伝子データを収集して分析することで精密医療への進歩を加速させる全国的な取り組みです。
シーケンス機器から大量のデータが取得された際、当社は AWS の FPGA を利用してそのデータを迅速に処理します」
Eric Venner 氏
ベイラー医科大学、Human Genome Sequencing Center、准教授兼臨床情報学グループ長
研究を加速するソリューションを求めて
ベイラーは、テキサス州ヒューストンにある健康科学大学です。National Institutes of Health の資金提供額では米国において第 20 位、遺伝学分野では第 1 位にランクされています。2016 年、ベイラーは臨床用のゲノミクスデータを準備する大規模なシーケンシングの取り組みを支援するために、HGSC Clinical Laboratory を立ち上げました。HGSC は、 Human Genome Project および All of Us Research Program において重要な役割を果たしました。このプログラムでは、ベイラー、ジョンズホプキンズ大学、テキサス大学ヒューストン医療科学センターが、米国の他のグループとともにゲノムセンターの役割を担っています。
ベイラーがこのプログラムに参加するためには、HGSC は大規模なシーケンシングワークロードに対応できるようにスケールし、コンピューティングとストレージの管理を簡素化する必要がありました。また、100 を超えるセキュリティ要件や、データアクセシビリティや機密情報を規制する連邦規則で構成される ISO/IEC 27001 など、厳しいコンプライアンス基準を満たす必要もありました。遺伝子データは Controlled Unclassified Information とみなされ、追加の保護措置を講じる必要があります。「これまで HIPAA で対応しなければならなかった基準よりも数段階高い基準を満たす必要がありました」と HGSC のディレクターである Richard Gibbs 氏は述べています。
ベイラーは以前、シーケンシングおよびソフトウェアテクノロジーを提供する Illumina と連携したことがあり、2012 年から AWS をゲノミクスコンピューティングに利用していました。All of Us Research Program に参加しているすべての研究センターは、二次分析のために DRAGEN で標準化しています。しかし、HGSC は、オンプレミスからクラウド上の DRAGEN への移行が、極めて短期的に効果が得られ、長期的にも恩恵をもたらす可能性を秘めていることに気付きました。これには、チームメンバーを惹き付け、それらのメンバーを維持するということも含まれます。「人々は今後数十年にわたって人気を博すであろうテクノロジーを学びたがっているため、クラウドを利用することにはメリットがあります」と HGSC の准教授兼臨床情報学グループ長である Eric Venner 氏は述べています。「今では、何名かの非常に才能のあるジュニアエンジニアに関心を抱いてもらうことができます」。
AWS で DRAGEN を利用して、精度、スケーラビリティ、セキュリティを確認する
2019 年春、シーケンスデータ内のバリアントを特定するバリアント呼び出しテクノロジーについて、ベイラーのチームは Illumina とのコラボレーションを開始しました。2019 年秋、チームのエンジニアである Noora Siddiqui 氏は、Illumina DRAGEN on AWS を利用して本番パイプラインの構築を開始しました。これは、DRAGEN 用に設定可能な AWS 環境をセットアップする AWS Quick Start です。3 週間後には最初のスケールテストが実施され、わずか 3 か月強でパイプラインは稼働を開始しました。「当センターでは、AWS のテクニカルサポートを利用してパイプラインを完成させました」と Venner 氏は述べています。「当センターのエンジニアは、Illumina DRAGEN on AWS を利用することで、ソリューションを新しい本番システムに組み込むことができました」。
Illumina の DRAGEN on AWS を利用することで、ベイラーはオンデマンドでスケールし、以前よりも大幅に高速にデータを処理できるようになりました。HGSC は毎月約 5,000 のゲノムを処理します。「誰もがシーケンサーと計画を持っていますが、毎月 5,000 のゲノムを確実に抽出することは非常に困難です」と Gibbs 氏は述べています。「私たちは、まさにそのことに取り組んでいるのです。多くのエンジニアリングスキルとサポートが必要ですが、業界に対する多大な貢献となります」。
ベイラーの DRAGEN ソリューションでは、Amazon Elastic Compute Cloud (Amazon EC2) F1 インスタンスを利用してゲノムデータの分析を高速化します。DRAGEN は、FPGA を利用してカスタムハードウェアアクセラレーションを提供します。「当センターのワークロードは、短時間に送信され、突然急増します」と Venner 氏は述べています。「シーケンス機器から大量のデータが取得された際、当社は AWS の FPGA を利用してそのデータを迅速に処理します」。 センターでは、Amazon EC2 F1 インスタンスと Amazon EC2 スポットインスタンスを利用しています。これは、Amazon EC2 オンデマンドインスタンスと比較して 90% 割引の料金で、耐障害性のあるワークロードをユーザーが実行できるようにします。「スポットインスタンスを利用することで、コンピューティングコストを節約できます」と Venner 氏は述べています。
HGSC は、Amazon Simple Storage Service (Amazon S3) を利用してライブデータを保存します。Amazon S3 は、どこからでも任意の量のデータを取得できるように構築されたオブジェクトストレージサービスです。すぐに利用する必要のないデータは自動的に Amazon S3 Glacier に渡されます。Amazon S3 Glacier は、データアーカイブと長期バックアップのために、安全で耐久性に優れた、極めて低コストのクラウドストレージクラスを提供します。「AWS におけるストレージ管理と自動データライフサイクルは非常に重要です」と Venner 氏は述べています。HGSC の情報技術チームは、セキュリティとコンプライアンスの基準の充足に役立てるために AWS を利用しています。「新しいクラウドソリューションでセキュリティ監査を実施する方が、多くの組み込み機能を備えたレガシー環境よりも簡単です」と Venner 氏は述べています。
HGSC では、その DRAGEN ソリューションが Amazon Elastic Container Service (Amazon ECS) を利用しているため、コンピューティング環境を迅速に構築できます。Amazon ECS は、コンテナ化されたアプリケーションをデプロイ、管理、スケーリングするためのフルマネージド型のコンテナオーケストレーションサービスです。「ジョブが実行されている環境を把握することは重要です」と Venner 氏は述べています。「これまでは、人々が同じ場所でさまざまな種類のジョブを実行しようとした場合、複雑な環境を作成して管理していたことでしょう。現在では、実行中のジョブに固有の環境を作成するだけなので、デバッグが簡単になります」。
Illumina と AWS のソリューションをヘルスケアに適用する
HGSC は、Illumina の DRAGEN を AWS で利用して、そのテクノロジーを医療現場に完全に統合したいと考えています。HGSC のヒトゲノムの分析は、個人の健康リスクを予測し、基礎疾患を説明し、臨床管理を変えることができるため、患者により包括的なケアを提供することが容易になります。例えば、HGSC は最近、Texas Medical Center の心臓血管クリニックと協力して、心臓血管疾患に関連する遺伝子の同定に焦点を当てた HeartCare 研究を実施しました。「当センターは、主要な遺伝子に含まれる高浸透度の心臓血管アレルと、臨床ケアモデルの下で個人がその情報からどのような恩恵を受けることができるかを調べてきました」と Venner 氏は述べています。
今後、ベイラーは AWS のサービスとIllumina のソリューションを引き続き検討して、データ処理のセキュリティと速度をさらに向上させる予定です。「当センターは、特に医療制度で十分なサービスを受けていない人や医療において多くの不公平を感じている人々のために、遺伝子データへのアクセスを拡大したいと考えています」と Gibbs 氏は述べています。「これらの人々は最前線で対応することになります。当センターは、これらの人々が健康プロファイリングに役立つ遺伝情報にアクセスできるように支援したいと考えています」。
ベイラー医科大学について
テキサス州ヒューストンにあるベイラー医科大学には、National Institutes of Health から資金提供を受けている米国でも数少ないゲノムシーケンシングセンターの 1 つである Human Genome Sequencing Center があります。
AWS の利点
- わずか 3 か月強でデータパイプラインを構築
- 以前のパイプラインに比べてデータ処理が速い
- 1 か月あたり約 5,000 のゲノムを処理
- 優秀なエンジニア人材を採用
- セキュリティとコンプライアンスを簡素化
- ストレージ管理とデータライフサイクルプロセスを自動化
- 作業量の急増に合わせて自動的にスケール
利用されている AWS のサービス
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) は、安全でサイズ変更可能なコンピューティング性能をクラウド内で提供するウェブサービスです。デベロッパーがウェブスケールのクラウドコンピューティングを簡単に利用できるように設計されています。
Amazon EC2 F1 インスタンス
Amazon EC2 F1 インスタンスは、FPGA を使用してカスタムハードウェアアクセラレーションを実現します。F1 インスタンスは、FPGA Developer AMI とクラウドでのハードウェアレベルの開発サポートを含めて、ハードウェアアクセラレーションコードの開発、シミュレーション、デバッグ、コンパイルに必要なすべての機能を備えているため、簡単にプログラミングできます。
Amazon EC2 スポットインスタンス
Amazon EC2 スポットインスタンスを使うと、AWS クラウド内の使用されていない EC2 キャパシティーを活用できます。スポットインスタンスは、オンデマンド料金に比べ最大 90% の割引価格でご利用いただけます。
Illumina DRAGEN on AWS
DRAGEN Bio-IT プラットフォームは、次世代シークエンシング (NGS) データの超高速分析を可能にし、ゲノムデータの分析に必要な時間を大幅に短縮し、正確性を向上させます。
開始方法
あらゆる業界のさまざまな規模の組織が AWS を活用してビジネスを変革し、日々ミッションを遂行しています。当社のエキスパートにお問い合わせいただき、今すぐ AWS ジャーニーを開始してください。