Flussi di lavoro

  • HealthOmics offre due tipi di flussi di lavoro: flussi di lavoro privati e flussi di lavoro Ready2Run. I flussi di lavoro privati consentono di portare i propri script bioinformatici scritti nei linguaggi di flusso di lavoro più comunemente usati. I flussi di lavoro Ready2Run sono pipeline bioinformatiche predefinite basate su analisi di settore comuni che consentono di iniziare rapidamente senza scrivere codice. 

  • I flussi di lavoro privati di HealthOmics possono essere scritti in Nextflow, WDL e CWL. Per informazioni sulle versioni supportate, consultare la documentazione.

  • HealthOmics offre un'ampia varietà di flussi di lavoro Ready2Run che vanno dal GATK e AlphaFold del Broad Institute ai flussi di lavoro di publisher di terze parti come NVIDIA, Element Biosciences, Sentieon e Ultima. L'elenco completo dei flussi di lavoro Ready2Run disponibili è consultabile qui.

  • Sì, HealthOmics può eseguire bioFM, come NVIDIA NiM, AlphaFold ed ESMFold. È possibile orchestrare più bioFM all'interno di un flusso di lavoro, sbloccando pipeline di scoperta di farmaci su larga scala. Per maggiori informazioni e flussi di lavoro di esempio per la scoperta di farmaci che utilizzano bioFM, consultare il repository dei flussi di lavoro per la scoperta di farmaci su GitHub.

  • Per eseguire il primo flusso di lavoro privato, è necessario uno script di flusso di lavoro scritto in Nextflow, WDL o CWL. Inoltre, tutti gli strumenti e le dipendenze devono essere inseriti in container e archiviati in un repository ECR privato. I dati di input possono essere forniti in S3 o dall'archivio di sequenze di HealthOmics.

  • È possibile gestire le risorse private del flusso di lavoro con i gruppi di esecuzione. I gruppi di esecuzione consentono di controllare il numero massimo di esecuzioni simultanee, la durata massima dell'esecuzione, le vCPU e le GPU delle esecuzioni assegnate al gruppo di esecuzione. Inoltre, HealthOmics fornisce strumenti di dimensionamento corretto, come Run Analyzer, che consentono di ottimizzare l'allocazione delle risorse per migliorare l'efficienza dell'esecuzione. 

  • I flussi di lavoro privati di HealthOmics offrono due opzioni di archiviazione per le esecuzioni: archiviazione a esecuzione statica e archiviazione a esecuzione dinamica. Con l'archiviazione a esecuzione statica, all'inizio dell'esecuzione viene eseguito il provisioning di un file system di dimensioni fisse e viene utilizzato dalle attività per l'archiviazione intermedia dei file durante l'esecuzione. Al termine dell'esecuzione, gli output dell'esecuzione vengono esportati in S3 e viene effettuato il deprovisioning del file system. L'archiviazione a esecuzione dinamica aumenta e diminuisce automaticamente in base alle esigenze di archiviazione per tutta la durata dell'esecuzione e offre tempi di provisioning più rapidi. L'archiviazione a esecuzione dinamica è consigliata per cicli di sviluppo rapidi e iterativi e pipeline di piccole dimensioni e di breve durata. L'archiviazione a esecuzione statica è adatta per flussi di lavoro di grandi dimensioni. Fornisce un throughput del file system per GiB più elevato e un costo per GiB inferiore rispetto all'archiviazione a esecuzione dinamica.

  • I flussi di lavoro di HealthOmics forniscono log in tempo reale a CloudWatch durante l'esecuzione e log aggiuntivi al termine dell'esecuzione. È possibile usare EventBridge per creare avvisi automatici per le condizioni che si stabiliscono. 

  • Sì, i flussi di lavoro di HealthOmics possono essere condivisi con diversi account AWS nella stessa Regione utilizzando la funzionalità di condivisione delle risorse. Per condividere un flusso di lavoro, è necessario l'ID dell'account AWS con cui si desidera effettuare la condivisione. La condivisione di un flusso di lavoro invierà un invito alla condivisione al destinatario. Il destinatario deve accettare la richiesta di condivisione prima di poter eseguire il flusso di lavoro condiviso. Il proprietario del flusso di lavoro può revocare l'accesso in qualsiasi momento e il destinatario non può modificare o eliminare il flusso di lavoro condiviso. 

  • Ai file utilizzati come input di esecuzione da S3 e dall'archivio di sequenze di HealthOmics viene assegnato un ETag univoco per l'identificazione dei file, ai container archiviati nel repository ECR privato viene assegnato un hash univoco e i flussi di lavoro sono immutabili una volta creati per garantire la piena riproducibilità delle esecuzioni. A ogni esecuzione viene assegnato un uuid univoco a livello globale che può essere utilizzato per identificare ogni esecuzione univoca, i risultati dell'esecuzione e i log associati. Questo uuid può essere collegato ai sistemi informativi di laboratorio interni (LIMS), ai quaderni elettronici di laboratorio (ELN) o ai sistemi di gestione dei campioni per soddisfare i requisiti di tracciabilità e riproducibilità delle operazioni.  

  • I clienti possono utilizzare i flussi di lavoro e gli archivi di dati insieme o come soluzioni autonome. I flussi di lavoro di HealthOmics sono compatibili con S3 e l'archivio di sequenze e di riferimenti di HealthOmics. Gli archivi di sequenze e di riferimenti di HealthOmics possono essere utilizzati con i flussi di lavoro di HealthOmics, Batch AWS e altre soluzioni di calcolo.

Datastore

  • HealthOmics offre due tipi di datastore: datastore incentrati sugli oggetti e datastore interrogabili. I datastore incentrati sugli oggetti sono gli archivi di riferimenti e di sequenze. Sono progettati per archiviare e organizzare i file molecolari in modo economico. I datastore interrogabili sono l'archivio di varianti e di annotazioni. Sono progettati per trasformare in modo conveniente i dati di varianti e di annotazioni in un archivio ottimizzato per l'interrogazione e il coorte. Insieme, questi datastore sono progettati per fornire archiviazione, interrogazione, coorte e recupero dei campioni FAIR (reperibile, accessibile, interoperabile, riutilizzabile) su scala di petabyte. 

  • I datastore di HealthOmics consentono di risparmiare in molti modi diversi. L'archivio di sequenze utilizza i livelli e la compressione basati sull'utilizzo per ridurre i costi di archiviazione per gli oggetti a cui non si accede da 30 giorni. Ciò può portare a risparmi significativi rispetto all'archiviazione tradizionale di oggetti di AWS.

    Gli archivi di varianti e di annotazioni di HealthOmics sono archivi zero-ETL, quindi i prezzi sono calcolati solo in base all'uso effettivo dello spazio di archiviazione e dei dati scansionati durante l'interrogazione. I risparmi vengono ottenuti eliminando il costo dell'ETL e separando i dati delle varianti e delle annotazioni in modo che i dati delle varianti non debbano essere replicati quando c'è bisogno di modificare le annotazioni. Inoltre, poiché gli archivi di varianti sono suddivisi in base alle informazioni di esempio, le query basate su campioni scansionano meno dati, con conseguente ulteriore risparmio sui costi a valle.

  • Ogni datastore è progettato per diversi tipi di dati. Gli archivi di HealthOmics supportano i file FASTA. Gli archivi di sequenze di HealthOmics supportano i file FASTQ, uBAM, BAM e CRAM. Gli archivi di varianti supportano l'estrazione di dati dai file VCF. Gli archivi di annotazioni supportano l'estrazione di dati da GFF, TSV, CSV, VCF.

  • Il volume totale di dati e numero di oggetti che è possibile archiviare in AWS HealthOmics è praticamente illimitato. Sebbene ogni archivio disponga di quote regolabili sulle dimensioni e sul numero di file supportati, i file possono continuare ad essere aggiunti secondo necessità, con i clienti che archiviano regolarmente fino a 10 petabyte in un archivio.

  • I datastore di HealthOmics si basano sulla durabilità e resilienza di Amazon S3, che include oggetti archiviati in modo ridondante su più dispositivi e zone di disponibilità in una Regione AWS. L'archivio di sequenze preserva e monitora l'identità semantica degli oggetti assicurando che il contenuto del file venga preservato durante i cicli di attivazione e archiviazione.

  • Gli archivi di sequenze di HealthOmics possono essere integrati direttamente con la maggior parte degli strumenti analitici tramite l'URI di accesso S3 per gli oggetti o utilizzando strumenti complementari. Ogni oggetto memorizzato nell'archivio delle sequenze ha un URI S3 univoco che può essere utilizzato per leggerlo tramite la maggior parte dei sistemi compatibili con S3. Se un sistema richiede un'interfaccia basata su file, Mountpoint per S3 può rendere disponibile un set di lettura o un prefisso di archivio di sequenze come file montato per la lettura. Se sono necessarie personalizzazioni, le integrazioni possono essere eseguite utilizzando l'SDK di Amazon o il gestore di trasferimenti di HealthOmics.

  • L'archivio di sequenze di HealthOmics è progettato per archiviare dati molecolari statici a cui si accede periodicamente e frequentemente. L'archivio di sequenze è dotato di compressione e livelli integrati, oltre alla scalabilità della lettura degli oggetti basata su S3, quindi è adatto per dati di tutte le dimensioni con vari livelli di frequenza di accesso, dall'uso quotidiano a quello annuale. Ogni inserimento crea un nuovo set di lettura e l'archivio di sequenze addebita una durata di archiviazione minima di 30 giorni, quindi non è pensato per file temporanei, scratch o file che vengono aggiornati di frequente.

    Amazon S3 è ideale per i file dinamici che cambiano frequentemente, per i file di breve durata e per i file non molecolari che non soddisfano i formati supportati. Per i file che devono essere mantenuti per motivi di archiviazione e conformità dei dati ma hanno esigenze di accesso molto basse, Amazon S3 Glacier offre diverse opzioni di archiviazione.

Sicurezza e privacy