Flujos de trabajo

  • HealthOmics ofrece dos tipos de flujos de trabajo: flujos de trabajo privados y flujos de trabajo Ready2Run. Los flujos de trabajo privados son flujos de trabajo personalizados que le permiten usar sus propios scripts de biocomputación escritos en los lenguajes de flujo de trabajo más utilizados. Los flujos de trabajo Ready2Run son canalizaciones de biocomputación prediseñadas basadas en análisis comunes del sector que permiten empezar rápidamente sin necesidad de escribir código. 

  • Los flujos de trabajo privados de HealthOmics se pueden escribir en Nextflow, WDL y CWL. Para obtener información sobre las versiones compatibles, consulte la documentación.

  • HealthOmics ofrece una amplia variedad de flujos de trabajo Ready2Run que van desde GATK y AlphaFold de Broad Institute hasta flujos de trabajo de editores externos, como NVIDIA, Element Biosciences, Sentieon y Ultima. Puede ver la lista completa de los flujos de trabajo Ready2Run disponibles aquí.

  • Sí, HealthOmics puede poner en marcha bioFM, como NIM de NVIDIA, AlphaFold y ESMFold. Puede organizar varios bioFM dentro de un flujo de trabajo y desbloquear las canalizaciones de descubrimiento de fármacos a escala. Para ver, por ejemplo, los flujos de trabajo de descubrimiento de fármacos que utilizan bioFM, consulte el repositorio de flujos de trabajo de descubrimiento de fármacos en GitHub.

  • Para poner en marcha su primer flujo de trabajo privado, necesita un script de flujo de trabajo escrito en Nextflow, WDL o CWL. Además, todas las herramientas y dependencias deben organizarse en contenedores y almacenarse en un repositorio de ECR privado. Los datos de entrada se pueden proporcionar en S3 o desde el almacén de secuencias de HealthOmics.

  • Puede administrar los recursos de flujo de trabajo privados con grupos de ejecución. Los grupos de ejecución le permiten controlar el número máximo de ejecuciones simultáneas, la duración máxima de las ejecuciones, las vCPU y las GPU de las ejecuciones asignadas al grupo de ejecución. Además, HealthOmics proporciona herramientas de ajuste de tamaño, como el Analizador de ejecución, que le permiten optimizar las asignaciones de recursos para mejorar la eficiencia de las operaciones. 

  • Los flujos de trabajo privados de HealthOmics ofrecen dos opciones de almacenamiento de ejecuciones: almacenamiento de ejecuciones estático y almacenamiento de ejecuciones dinámico. Con el almacenamiento de ejecuciones estático, se aprovisiona un sistema de archivos de tamaño fijo al inicio de la ejecución y las tareas lo utilizan para el almacenamiento intermedio de archivos durante la ejecución. Cuando finaliza la ejecución, sus resultados se exportan a S3 y el sistema de archivos se desaprovisiona. El almacenamiento de ejecuciones dinámico se escala y desescala verticalmente según sus necesidades de almacenamiento durante la ejecución y ofrece tiempos de aprovisionamiento más rápidos. Se recomienda el almacenamiento de ejecuciones dinámico para ciclos de desarrollo rápidos e iterativos y para canalizaciones de ejecución pequeñas y cortas. El almacenamiento de ejecuciones estático es adecuado para grandes flujos de trabajo. Proporciona un mayor rendimiento del sistema de archivos por GiB y un menor costo por GiB que el almacenamiento de ejecuciones dinámico.

  • Los flujos de trabajo de HealthOmics envían registros en tiempo real a CloudWatch durante la ejecución y registros adicionales cuando esta finaliza. Puede usar EventBridge para crear alertas automatizadas cuando se cumplan las condiciones que defina. 

  • Sí, los flujos de trabajo de HealthOmics se pueden compartir con diferentes cuentas de AWS en la misma región mediante la característica de uso compartido de recursos. Para compartir un flujo de trabajo, necesita el ID de la cuenta de AWS con la que desea compartirlo. Al compartir un flujo de trabajo, se enviará una invitación de uso compartido al destinatario. El destinatario debe aceptar la solicitud de uso compartido antes de poder ejecutar el flujo de trabajo compartido. El propietario del flujo de trabajo puede revocar el acceso en cualquier momento y el destinatario no puede modificar ni eliminar el flujo de trabajo compartido. 

  • A los archivos que se utilizan como entradas de ejecución de S3 y al almacén de secuencias de HealthOmics se les asigna una ETag única para identificar los archivos. A los contenedores almacenados en su repositorio de ECR privado se les asigna un hash único y los flujos de trabajo son inmutables una vez creados para garantizar la reproducibilidad total de las ejecuciones. A cada ejecución se le asigna un uuid único global que se puede usar para identificar cada ejecución única, sus resultados y los registros asociados. Este uuid se puede conectar a los sistemas de información de laboratorio internos (LIMS), a los cuadernos electrónicos de laboratorio (ELN) o a los sistemas de gestión de muestras para cumplir con los requisitos de trazabilidad y reproducibilidad.  

  • Los clientes pueden usar los flujos de trabajo y los almacenes de datos de forma conjunta o como soluciones independientes. Los flujos de trabajo de HealthOmics son compatibles con S3 y el almacén de secuencias y referencias de HealthOmics. Los almacenes de secuencias y referencias de HealthOmics se pueden usar con los flujos de trabajo de HealthOmics, AWS Batch y otras soluciones de computación.

Almacenes de datos

  • HealthOmics ofrece dos tipos de almacenes de datos: almacenes centrados en objetos y almacenes consultables. Los almacenes centrados en objetos son los almacenes de referencias y secuencias. Están diseñados para almacenar y organizar archivos moleculares de forma rentable. Los almacenes consultables son los almacenes de variantes y anotaciones. Están diseñados para convertir de manera rentable los datos de variantes y anotaciones en un almacén optimizado para consultas y agrupaciones. En conjunto, estos almacenes están diseñados para ofrecer almacenamiento, consulta, agrupamiento y recuperación de muestras localizables, accesibles, interoperables y reutilizables (FAIR) a escala de petabytes. 

  • Los almacenes de datos de HealthOmics generan ahorros de muchas maneras diferentes. El almacén de secuencias utiliza la compresión y la organización en niveles en función del uso para reducir los costos de almacenamiento de los objetos a los que no se ha accedido durante 30 días. Esto puede generar ahorros significativos en comparación con el almacenamiento de objetos de AWS tradicional.

    Las variantes de HealthOmics y los almacenes de anotaciones son almacenes sin ETL, por lo que solo paga por el almacenamiento y los datos analizados al realizar consultas. Los ahorros se obtienen al eliminar el costo de ETL y al separar los datos de variantes y anotaciones para que los datos de variantes no tengan que replicarse cuando se desee cambiar las anotaciones. Además, dado que los almacenes de variantes están divididos según la información de la muestra, las consultas basadas en muestras analizan menos datos, lo que posteriormente genera un mayor ahorro de costos.

  • Cada almacén de datos está diseñado para diferentes tipos de datos. Los almacenes de referencias de HealthOmics admiten archivos FASTA. Los almacenes de secuencias de HealthOmics admiten archivos FASTQ, uBAM, BAM y CRAM. Los almacenes de variantes admiten la extracción de datos de archivos VCF. Los almacenes de anotaciones admiten la extracción de datos de GFF, TSV, CSV y VCF.

  • El volumen total de datos y la cantidad de objetos que puede almacenar en AWS HealthOmics es prácticamente ilimitado. Si bien cada almacén tiene límites ajustables en cuanto a los tamaños y recuentos de archivos admitidos, se pueden seguir agregando archivos según sea necesario; los clientes almacenan habitualmente decenas de petabytes en un almacén.

  • Los almacenes de datos de HealthOmics se basan en la durabilidad y resiliencia de Amazon S3, que incluye objetos almacenados de forma redundante en varios dispositivos y zonas de disponibilidad en una región de AWS. El almacén de secuencias conserva y supervisa la identidad semántica de los objetos para garantizar que el contenido del archivo se conserve durante los ciclos de activación y archivo.

  • Los almacenes de secuencias de HealthOmics se pueden integrar directamente con la mayoría de las herramientas de análisis mediante la URI de acceso de S3 para objetos o mediante herramientas complementarias. Cada objeto almacenado en el almacén de secuencias tiene un URI de S3 único que se puede usar para leerlo en la mayoría de los sistemas compatibles con S3. Si un sistema requiere una interfaz basada en archivos, se puede usar Mountpoint para S3 para hacer que un conjunto de lectura o un prefijo de almacenamiento de secuencias esté disponible como archivo montado para su lectura. Si se necesitan personalizaciones, las integraciones se pueden realizar mediante el SDK de Amazon o el administrador de transferencias de HealthOmics.

  • El almacén de secuencias de HealthOmics está diseñado para almacenar datos moleculares estáticos a los que se accede de forma periódica y frecuente. El almacén de secuencias ha incorporado la compresión y la organización en niveles, y también tiene un escalamiento de lectura de objetos integrado en S3, por lo que es adecuado para datos de todas las escalas con varios niveles de frecuencia de acceso, desde el uso diario hasta el anual. Cada ingesta crea un nuevo conjunto de lectura y el almacén de secuencias cobra por un periodo mínimo de almacenamiento de 30 días, por lo que no está diseñado para archivos temporales, de uso provisional o que se actualicen con frecuencia.

    Amazon S3 es ideal para archivos dinámicos que cambian con frecuencia, archivos de corta duración y archivos no moleculares que no cumplen con los formatos admitidos. Para los archivos que deben mantenerse por motivos de cumplimiento y archivo de datos, pero a los que no es necesario acceder con frecuencia, Amazon S3 Glacier ofrece diferentes opciones de almacenamiento.

Seguridad y privacidad