Baylor College of Medicine 的 HGSC 使用 Illumina DRAGEN on AWS 更快速地分析基因體資料
2022 年
Baylor College of Medicine (Baylor) 的人類基因體定序中心 (HGSC) 是在美國獲得國立衛生研究院的研究計劃 All of Us 資助為數不多的基因體定序實驗室之一。在 2019 年,HGSC 開始探索解決方案,為其大量基因體資料集提供可高度擴展且安全的分析。HGSC 與 AWS 進階合作夥伴 Illumina 徹底評估 Illumina DRAGEN (GENomics 的動態讀取分析) Bio-IT 平台,這是一種生物資訊學解決方案,可針對定序資料提供高度準確、全面且高效的二次基因體分析,並使用現場可程式化閘道陣列 (FPGA) 技術進行加速。
將 DRAGEN 與 AWS 服務搭配使用,HGSC 每天可分析數百個基因體樣本。該解決方案使 Baylor 能夠更多參與各種研究計劃,例如美國國家衛生研究院的 All or Us 研究計劃,此計劃透過收集和分析 100 萬名志願者的健康和遺傳資料,在全國範圍內致力於加快精準醫學的進步。
當大量資料從定序儀器到來時,我們會在 AWS 上使用 FPGA 來快速處理該資料。」
Eric Venner
Baylor College of Medicine 副教授兼人類基因體定序中心臨床資訊學組主任
搜尋加速研究的解決方案
Baylor 是德州休斯頓的一所衛生科學大學。它在美國國立衛生研究院資助中排名第二十,並在遺傳學中排名第一。2016 年,Baylor 推出 HGSC 臨床實驗室,以支援準備基因體資料供臨床使用的大規模定序工作。HGSC 在人類基因體專案和 All of Us 研究計劃中扮演了重要的角色,Baylor、約翰霍普金斯大學和休斯頓的德州大學衛生科學中心 (University of Texas Health Science Center) 與美國其他團體一起作為此研究計劃的基因體中心。
為了 Baylor 能夠參與該計劃,HGSC 需要進行擴展以滿足大型定序工作負載,並簡化運算和儲存管理。HGSC 還必須符合嚴格的合規標準,包括 ISO/IEC 27001,該標準包括 100 多個安全要求和控制資料可存取性和機密資訊的聯邦法規。遺傳資料被視為「受控制的未分類資訊」,這些資料受到額外的保護控制。HGSC 總監 Richard Gibbs 表示:「我們必須達到比我們為 HIPAA 所做的高幾個等級的標準。」
Baylor 先前曾與 Illumina 合作,該公司提供定序和軟體技術,並自 2012 年以來一直將 AWS 用於基因體運算。參與 All of Us 研究計劃的所有研究中心都在 DRAGEN 上進行了標準化,以進行二次分析。但是,HGSC 意識到,從內部部署遷移至 DRAGEN 具有最直接和長期的潛力,包括吸引和留住團隊成員的部分。HGSC 副教授兼臨床資訊學組主管 Eric Venner 表示:「在雲端上工作是一項優勢,因為人們希望學習在未來幾十年內會受到歡迎的技術。現在我們可以吸引到一些非常有才華的初級工程師。」
使用 DRAGEN on AWS 找到準確性、可擴展性和安全性
2019 年春季,Baylor 團隊開始與 Illumina 合作開發變體檢測技術,該技術可識別定序資料中的變體。在 2019 年秋季,團隊的工程師 Noora Siddiqui 開始使用 Illumina DRAGEN on AWS 建置生產管道,這是一個為 DRAGEN 設置可設定 AWS 環境的 AWS 快速入門。3 週後,執行了第一次規模測試,並且在僅僅 3 個月後,管道已啟動並運行。Venner 表示:「我們使用 AWS 技術支援,使管道更完善。透過使用 Illumina DRAGEN on AWS,我們的工程師能夠將解決方案建置到新的生產系統中。」
使用 Illumina 的 DRAGEN on AWS,Baylor 能夠以比以往更快的速度隨需擴展和處理資料。HGSC 每月處理約 5,000 個基因體。Gibbs 說:「每個人都有一個定序器和計劃,但是每個月要可靠地製定 5,000 個基因體是非常困難的。這就是我們在這裡致力從事的。這項任務需要大量的工程技能和支援,但對該產業非常有幫助。」
Baylor 的 DRAGEN 解決方案使用 Amazon Elastic Compute Cloud (Amazon EC2) F1 執行個體加速基因體資料的分析;DRAGEN 使用 FPGA 提供自訂硬體加速。Venner 表示:「我們的工作負載在短暫而爆量的情況下傳輸。當大量資料從定序儀器到來時,我們會在 AWS 上使用 FPGA 來快速處理該資料。」 該中心使用 Amazon EC2 F1 執行個體和 Amazon EC2 Spot 執行個體,與 Amazon EC2 隨需執行個體相比,使用者可以以 90% 的折扣執行容錯工作負載執行個體。Venner 表示:「我們可以使用 Spot 執行個體節省運算成本。」
HGSC 使用 Amazon Simple Storage Service (Amazon S3) 儲存其即時資料,這是一種專為從任何地方擷取任意數量資料而建置的物件儲存服務。不需要立即使用的資料會自動傳遞至 Amazon S3 Glacier,Amazon S3 Glacier 為資料存檔和長期備份提供安全、耐用且極低成本的雲端儲存類別。Venner 表示:「AWS 上的儲存管理和自動化資料生命週期非常重要。」HGSC 的資訊技術團隊使用 AWS 協助符合安全和合規標準。Venner 表示:「在新的雲端解決方案中,比在有大量內建包袱的舊式環境中執行安全性稽核要簡單。」
HGSC 可以快速建置運算環境,因為其 DRAGEN 解決方案使用 Amazon Elastic Container Service (Amazon ECS),這是一種用於部署、管理和擴展容器化應用程式的全受管容器協同運作服務。Venner 表示:「擷取正在執行任務的環境非常有價值。傳統上,人們會建立和管理複雜的環境,以便在同一地點執行不同類型的任務。現在,我們只是建立一個特定於正在執行任務的環境,這使得偵錯更簡單。」
將 Illumina 和 AWS 解決方案應用到醫療保健
HGSC 希望使用 Illumina 的 DRAGEN on AWS,將其技術完全整合到醫療實務中。HGSC 對人類基因體的分析可以預測個人的健康風險、解釋潛在狀況並變更臨床管理,從而促進更全面的病患護理。例如,HGSC 最近與德州醫學中心的心血管診所協作,進行了 HeartCare 研究,該研究重點是識別與心血管疾病有關的基因。Venner 說:「我們一直在研究關鍵基因中的高滲透性心血管對偶基因,以及個人如何在臨床護理模型下從該資訊中受益。」
未來,Baylor 將繼續探索 AWS 服務和 Illumina 解決方案,以進一步提高其資料處理的安全性和速度。Gibbs 說:「我們希望擴展對遺傳資料的可存取性,特別是對於那些在醫療系統中服務不足或在護理方面遇到許多差距的人來說。他們將處於最前沿。我們希望幫助他們存取遺傳資訊,這些資訊對他們的健康檔案非常有用。」
關於 Baylor College of Medicine
德州休士頓的 Baylor College of Medicine 是人類基因體定序中心的所在地,是在美國獲得國立衛生研究院資助為數不多的基因體定序中心之一。
AWS 的優勢
- 在短短 3 個月內建置資料管道
- 相較於先前的管道,處理資料速度更快
- 每月處理約 5,000 個基因體
- 招聘頂尖工程人才
- 簡化安全與合規
- 自動化儲存管理和資料生命週期流程
- 自動調整以滿足數量突增
使用的 AWS 服務
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) 是一種 Web 服務,可在雲端提供安全、可調整大小的運算容量。該服務旨在降低開發人員進行 Web 規模雲端運算的難度。
Amazon EC2 F1 執行個體
Amazon EC2 F1 執行個體使用 FPGA,以提供自訂硬體加速。F1 執行個體的程式很容易設定,而且隨附了開發、模擬、偵錯及編譯硬體加速程式碼所需的所有物件,包括 FPGA 開發人員 AMI 和支援雲端硬體層級開發。
Amazon EC2 Spot 執行個體
透過 Amazon EC2 Spot 執行個體,您可以利用 AWS 雲端中未使用的 EC2 容量。與隨需價格相比,Spot 執行個體最高可享受 90% 的折扣。
Illumina DRAGEN on AWS
DRAGEN Bio-IT Platform 可以對下一代定序 (NGS) 資料進行超快速分析,大幅縮短分析基因組資料所需的時間,並提高準確性。
入門
各行各業各種規模的組織每天都在使用 AWS 來變革其業務和履行其使命。聯絡我們的專家,立即開始您的專屬 AWS 雲端之旅。