Ancestry が Amazon EFS を利用してゲノミクスデータのインサイトを加速

2020 年

Ancestry® は家族史と消費者ゲノミクスの分野における世界的リーダーであり、家系図、歴史的記録、DNA を利用して、人々が自分に関する情報を発掘するのをサポートしています。Ancestry の消費者 DNA ネットワークには 1,800 万名以上の人々が参加しています。AncestryDNA® は、高度なゲノム科学を駆使し、DNA の一致を詳しく調べたり、より詳細な領域にアクセスしたり、遺伝的健康情報と個人の特徴に関するインサイトを得たりするためのより多くの方法を提供することによって、メンバーが家族史に関する新たな情報を発見できるようサポートしています。

AncestryDNA チームは、集団遺伝学者、計算生物学者、統計学者、疫学者、ゲノムデータ科学者、生物情報学者など、数テラバイトのストレージに相当する遺伝子データや他のデータを分析するアルゴリズムを開発する数十名の科学者を擁しています。このチームは以前、スケールアウトした Network Attached Storage (NAS) クラスターをオンプレミスで自己管理していましたが、将来の要件を予測するためにモニタリングおよびプロビジョニングしたり、高度な計画を立てたりすることなく、ストレージとコンピューティングリソースを迅速にスケールする能力を備えていませんでした。「当社のデータは常に増え続けており、当社の課題の 1 つは、遺伝子ネットワークの拡大に合わせてどのようにスケールするかということでした」とAncestryDNA のゲノミクス担当バイスプレジデントである Eurie Hong 博士は述べています。「分析用のデータセットサイズが二次関数的に増加する状況に対応するために、コンピューティングキャパシティを拡張したいと考えていました」。

AncestryDNA のサイエンスチームも、予測不能なワークロードをサポートするために、より高い伸縮性を必要としていました。「当社のワークフローは一気に急増することがあります。1 年間に必要なディスクとコンピューティングの量を予測できなかったときには、予算を割り当てることが困難でした」とAncestry のバイオインフォマティクスマネージャーである Asher Baltzell 博士は述べています。

lab analysis of new corona virus, clinic laboratory chemical research of infection. Covid-19 concept.
kr_quotemark

Amazon EFS を利用することで、研究ワークロードのスケーリングについて心配する必要がなくなりました。システムは、コンピューティングやストレージの要件にかかわらず、研究者のニーズに合わせて自動的に拡張できます」

EurieHong 博士
AncestryDNA 、ゲノミクス担当バイスプレジデント

ゲノミクス研究のワークロードを AWS に移行

AncestryDNA のサイエンスチームは、Amazon Web Services (AWS) に移行することを決定しました。「当社は全社的に AWS への移行を開始しました。クラウドのスケーラビリティと柔軟性に関心が寄せられていました」と Baltzell 氏は述べています。

チームは、オンデマンドコンピューティングのために Amazon Elastic Compute Cloud (Amazon EC2) を利用し、スケーラブルかつフルマネージドで伸縮性の高い Network File System (NFS) である Amazon Elastic File System (Amazon EFS) を共有データファイルシステムとして利用しています。「科学者は通常、従来のファイルサーバーを使用しているため、当社では、研究者が以前に使用していたものと類似のものを実現したいと考えていました」と Hong 氏は述べています。「Amazon EFS を利用すると、変化するワークロードに対処するためのスケーラビリティと伸縮性の恩恵を受けることができるため、実装や継続的な管理について心配する必要はありません」。 AncestryDNA は Amazon Simple Storage Service (Amazon S3) も利用しています。

AncestryDNA のサイエンスチームは、プロジェクトのタイムラインに影響を生じさせたり、データサイエンスチームの生産性を損なったりすることなく、スケジュールを前倒しして移行を完了することができました。

コンピューティングとストレージに関する科学者のニーズに合わせて簡単にスケール

Ancestry は、データストレージの制限について心配することなく、Ancestry Human Diversity Project に整合的な研究を行うことができるようになりました。「Amazon EFS を利用することで、研究ワークロードのスケーリングについて心配する必要がなくなりました。システムは、コンピューティングやストレージの要件にかかわらず、研究者のニーズに合わせて自動的に拡張できます」と Hong 氏は述べています。

さらに、Amazon EFS はフルマネージド型のクラウドファイルシステムであるため、AncestryDNA では独自の NFS サーバーを構築して管理する必要はありません。「当社は独自のファイルシステムの作成と管理に時間とお金をかけたくありません。研究に集中したいのです」と Hong 氏は述べています。「Amazon EFS を利用することでそれが可能です」。

伸縮性を向上させてワークロードの急増に対応し、コストを最適化

Ancestry には、予測不能なワークロードの増減を管理しなければならないときに必要な伸縮性が備わりました。「Amazon EFS を利用することで得られる伸縮性と柔軟性は、当社にとって非常に大きなメリットです」と Baltzell 氏は述べています。さらに、Amazon EC2 を利用することで、チームはコストを最適化できます。「研究者は一度により多くのリソースを利用でき、アイドル状態のリソースにお金を払う必要はありません。常に 10 台のサーバーを稼働させるのではなく、100 台のサーバーを必要な時間だけ稼働させることができます。これにより、コストの予測と管理もより簡単になりました」。

新しい科学者をより迅速にオンボーディング

Amazon EFS は Ancestry の以前のオンプレミスシステムと整合的な環境を提供し、データサイエンティストがプロジェクトフォルダと個人フォルダを共有できるようにします。これらはすべて Jupyter と RStudio のデータサイエンス分析ノートブックからマウントできるため、ジョブ管理が簡単になります。さらに、新しい科学者が作業するクラウド環境では、慣れ親しんだ以前と同じ方法でデータにアクセスしたり、データを保存したりできるため、これらの科学者のオンボーディングも簡単です。科学者は、使い慣れたファイルシステムを利用できるため、コンピューティングや分析の方法を学ぶのに時間を費やす代わりに、イノベーションのペースを加速するのに役立つ可能性のある、関連する AWS のサービスを利用できます。チームの科学者は、Hadoop ビッグデータフレームワークを利用する研究のために Amazon EMR も利用しています。

現在では、AncestryDNA の科学者はイノベーションにさらに集中できるようになりました。「当社は AWS を利用することで、お客様が独自の家族史を発見するのに役立つ新しい方法を見つけることに、より多くの時間を費やすことができます」と Hong 氏は述べています。「当社は、お客様がご家族のことをより良く理解し、ご自身の遺伝的特徴が将来の健康にどのように役立つかを知るのに役立つ方法を今後も模索していきます」。

Ancestry について

Ancestry は、家族史と消費者ゲノミクスの大手プロバイダーです。270 億件を超える記録を収集し、その拡大し続ける DNA ネットワークには 1,800 万名を超える人々が参加している Ancestry は、お客様が家族のストーリーを発見し、健康とウェルネスに関する実用的なインサイトを得られるようサポートしています。30 年を超える期間にわたって、何百万もの人々が、自分自身と家族に関する最も重要な情報を発見、保存、共有するためのプラットフォームとして Ancestry を選択してきました。

AWS のメリット

  • 複数の科学者がゲノミクス研究を実施することを可能にする
  • コンピューティングおよびストレージのリソースを自動的にスケールアップまたはスケールダウン
  • 新しい科学者をより迅速かつ簡単にオンボーディング

利用されている AWS のサービス

Amazon Elastic File System

Amazon Elastic File System (Amazon EFS) は、AWS クラウドサービスおよびオンプレミスリソースで使用するための、シンプルでスケーラブル、かつ伸縮自在な完全マネージド型の NFS ファイルシステムを提供します。

詳細はこちら »

Amazon S3

Amazon Simple Storage Service (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。

詳細はこちら »

Amazon Elastic Compute Cloud

Amazon Elastic Compute Cloud (Amazon EC2) は、安全かつサイズ変更可能なコンピューティングキャパシティをクラウド内で提供するウェブサービスです。

詳細はこちら »

Amazon EMR

Apache Spark、Hive、Presto、その他のビッグデータフレームワークを簡単に実行してスケール

詳細はこちら »


開始方法

あらゆる業界のさまざまな規模のお客様が、AWS を活用してビジネスを日々変革しています。AWS のエキスパートにお問い合わせのうえ、今すぐ AWS クラウドジャーニーを開始しましょう。