工作流程

  • HealthOmics 提供兩種類型的工作流程:私有工作流程和 Ready2Run 工作流程。私有工作流程是自訂工作流程,可讓您使用以最常用工作流程語言所編寫的專屬生物資訊學指令碼。Ready2Run 工作流程是在常見的產業分析的基礎上預先建置的生物資訊管道,可讓您快速開始使用,而無需編寫程式碼。 

  • 可以使用 Nextflow、WDL 和 CWL 編寫 HealthOmics 私有工作流程。如需受支援的版本資訊,請參閱文件

  • HealthOmics 提供各種 Ready2Run 工作流程,從 Broad Institute 的 GATK 和 AlphaFold,到 NVIDIA、Element Biosciences、Sentieon 和 Ultima 等第三方發布者的工作流程。您可以在此處檢視可用 Ready2Run 工作流程的完整清單。

  • 是,HealthOmics 可執行 bioFM,例如 NVIDIA NIM、AlphaFold 和 ESMFold。您可以在工作流程內協調多個 bioFM,大規模解鎖藥物探索管道。例如,如需使用 bioFM 的藥物探索工作流程,請參閱 GitHub 上的藥物探索工作流程儲存器。

  • 若要執行您的第一個私人工作流程,您需要使用以 Nextflow、WDL 或 CWL 編寫的工作流程指令碼。此外,所有工具和相依項必須容器化並存放在私有 ECR 儲存器中。輸入資料可在 S3 中或 HealthOmics 序列儲存中提供。

  • 您可以使用執行群組來管理私有工作流程資源。執行群組可讓您控制指派給執行群組的執行期間上限、vCPU 和 GPU。此外,HealthOmics 還提供適當大小的工具,例如執行分析器,可協助您最佳化資源配置以改善執行效率。 

  • HealthOmics 私人工作流程提供兩種執行儲存選項:靜態執行儲存和動態執行儲存。若使用靜態執行儲存,在執行開始時會佈建固定大小的檔案系統,並在執行期間用於任務的中間檔案儲存。執行完成後,執行輸出將匯出至 S3,並取消佈建檔案系統。動態執行儲存會根據您的儲存需求,在執行期間自動向上擴展和向下縮減,並提供更快的佈建時間。建議在快速、反覆運作的開發週期,以及小型、較短的執行管道使用動態執行儲存。靜態執行儲存適用於大型工作流程。相較於動態執行儲存,其提供每 GiB 更高的檔案系統輸送量和更低的每 GiB 成本。

  • HealthOmics 工作流程在執行期間將即時記錄交付至 CloudWatch,並在執行完成後交付額外的日誌。您可以使用 EventBridge 根據您定義的條件來建置自動提醒。 

  • 是,使用資源共用功能,可與同一區域中的不同 AWS 帳戶共用 HealthOmics 工作流程。若要共用工作流程,您需要與其共用 AWS 帳戶的帳戶 ID。共用工作流程會將共用邀請傳送給收件者。收件者必須接受共用請求,才能執行共用工作流程。工作流程擁有者可隨時撤銷存取權,而收件者無法修改或刪除共用工作流程。 

  • 用做 S3 和 HealthOmics 序列儲存中執行輸入的檔案,會被指派一個不重複的 ETag 用於檔案識別;存放在您的私有 ECR 儲存器中的容器,會被指派一個不重複的雜湊,並且工作流程建立後不可變,以確保執行的完全可重複性。每個執行都會被指派一個全域不重複的 uuid,可用於識別每個不重複的執行、執行結果和關聯的日誌。此 uuid 可連線至您的內部實驗室資訊系統 (LIMS)、電子實驗室筆記本 (ELN) 或範例管理系統,以滿足可追溯性和執行可重複性要求。  

  • 客戶可將工作流程和資料存放區一起使用,或做為獨立解決方案使用。HealthOmics 工作流程與 S3 和 HealthOmics 序列及參考儲存相容。HealthOmics 序列及參考儲存可與 HealthOmics 工作流程、AWS Batch 和其他運算解決方案搭配使用。

資料存放區

  • HealthOmics 提供兩種類型的資料存放區:物件集中存放區和可查詢存放區。物件集中存放區是參考和序列存放區。其專為經濟高效地存放和整理分子檔案而設計。可查詢存放區是變體和註解存放區。其設計旨在以經濟高效的方式,將變體和註解資料轉換到用於查詢和同類群組整合的最佳化存放區。這些存放區會一起設計,旨在以 PB 級規模提供 FAIR (可查找、可存取、可互操作、可重複使用) 範例儲存、查詢、同類群組整合及擷取。 

  • HealthOmics 資料存放區採用許多不同的方式來促進費用節省。序列存放區使用以用量驅動的分層和壓縮,來降低 30 天未存取物件的儲存成本。相較於傳統 AWS 物件儲存,可顯著節省成本

    HealthOmics 變體和註解存放區是零 ETL 存放區,因此,您只需依查詢時的儲存和掃描的資料付費。成本節省透過移除 ETL 的成本,以及分隔變體和註解資料來驅動,從而在需要變更註解時不必複寫變體資料。此外,由於變體存放區依範例資訊分割,因此,以範例為基礎的查詢會掃描較少的資料,從而進一步節省下游成本。

  • 每個資料存放區針對不同的資料類型而設計。HealthOmics 參考存放區支援 FASTA 檔案。HealthOmics 序列存放區支援 FASTQ、uBAM、BAM 和 CRAM 檔案。變體存放區支援從 VCF 檔案中擷取資料。註解存放區支援從 GFF、TSV、CSV、VCF 檔案中擷取資料。

  • 您可以在 AWS HealthOmics 中存放的總資料量和物件數量幾乎不受限制。雖然每個存放區針對支援的檔案大小和數量會調整配額,但客戶仍然可以視需要繼續新增檔案,並且客戶可在存放區中定期存放數十 PB 的資料。

  • HealthOmics 資料存放區在 Amazon S3 耐用性和彈性的基礎上建置,其中包括在 AWS 區域中多個裝置及可用區域備援式存放的物件。序列存放區會保留並監控物件語義識別,確保在啟用和封存週期保留檔案的內容。

  • HealthOmics 序列存放區可透過物件的 S3 存取 URI 或使用配套工具,直接與大多數分析工具整合。儲存在序列存放區中的每個物件都有一個不重複的 S3 URI,可用於使用大多數 S3 相容系統來讀取。如果系統需要以檔案為基礎的介面,可以使用 Mountpoint for S3,使讀取集或序列存放區前綴做為掛載檔案來讀取。如需自訂項,可以使用 Amazon’s SDKHealthOmics 傳輸管理器來完成整合。

  • HealthOmics 序列存放區旨在存放定期和經常存取的靜態分子資料。序列存放區內建壓縮和分層,同時還具有在 S3 上建置的物件讀取擴展,因此適用於從日常使用到每年的各種存取頻率、各種規模的資料。每次擷取會建立新的讀取集,而序列存放區以最低儲存期間 30 天計費,因此不適用於臨時、暫存或經常更新的檔案。

    Amazon S3 非常適合經常變更的動態檔案、短期存放的檔案,以及不符合支援格式的非分子檔案。針對因資料封存及合規而需要維護,但存取需求非常低的檔案,Amazon S3 Glacier 提供不同的儲存選項。

安全與隱私權