Preguntas frecuentes sobre AWS HealthOmics
Flujos de trabajo
-
¿Cuál es la diferencia entre los flujos de trabajo privados y los flujos de trabajo Ready2Run?
HealthOmics ofrece dos tipos de flujos de trabajo: flujos de trabajo privados y flujos de trabajo Ready2Run. Los flujos de trabajo privados son flujos de trabajo personalizados que le permiten usar sus propios scripts de biocomputación escritos en los lenguajes de flujo de trabajo más utilizados. Los flujos de trabajo Ready2Run son canalizaciones de biocomputación prediseñadas basadas en análisis comunes del sector que permiten empezar rápidamente sin necesidad de escribir código.
-
¿Qué lenguajes de flujo de trabajo de biocomputación admite HealthOmics?
Los flujos de trabajo privados de HealthOmics se pueden escribir en Nextflow, WDL y CWL. Para obtener información sobre las versiones compatibles, consulte la documentación.
-
¿Qué tipos de flujos de trabajo Ready2Run hay disponibles?
HealthOmics ofrece una amplia variedad de flujos de trabajo Ready2Run que van desde GATK y AlphaFold de Broad Institute hasta flujos de trabajo de editores externos, como NVIDIA, Element Biosciences, Sentieon y Ultima. Puede ver la lista completa de los flujos de trabajo Ready2Run disponibles aquí.
-
¿Puedo poner en marcha modelos fundacionales biológicos (bioFM) en HealthOmics?
Sí, HealthOmics puede poner en marcha bioFM, como NIM de NVIDIA, AlphaFold y ESMFold. Puede organizar varios bioFM dentro de un flujo de trabajo y desbloquear las canalizaciones de descubrimiento de fármacos a escala. Para ver, por ejemplo, los flujos de trabajo de descubrimiento de fármacos que utilizan bioFM, consulte el repositorio de flujos de trabajo de descubrimiento de fármacos en GitHub.
-
¿Qué necesito para empezar con los flujos de trabajo privados?
Para poner en marcha su primer flujo de trabajo privado, necesita un script de flujo de trabajo escrito en Nextflow, WDL o CWL. Además, todas las herramientas y dependencias deben organizarse en contenedores y almacenarse en un repositorio de ECR privado. Los datos de entrada se pueden proporcionar en S3 o desde el almacén de secuencias de HealthOmics.
-
¿Cómo puedo gestionar los costos de mi flujo de trabajo privado?
Puede administrar los recursos de flujo de trabajo privados con grupos de ejecución. Los grupos de ejecución le permiten controlar el número máximo de ejecuciones simultáneas, la duración máxima de las ejecuciones, las vCPU y las GPU de las ejecuciones asignadas al grupo de ejecución. Además, HealthOmics proporciona herramientas de ajuste de tamaño, como el Analizador de ejecución, que le permiten optimizar las asignaciones de recursos para mejorar la eficiencia de las operaciones.
-
¿Cuáles son mis opciones de almacenamiento de ejecuciones?
Los flujos de trabajo privados de HealthOmics ofrecen dos opciones de almacenamiento de ejecuciones: almacenamiento de ejecuciones estático y almacenamiento de ejecuciones dinámico. Con el almacenamiento de ejecuciones estático, se aprovisiona un sistema de archivos de tamaño fijo al inicio de la ejecución y las tareas lo utilizan para el almacenamiento intermedio de archivos durante la ejecución. Cuando finaliza la ejecución, sus resultados se exportan a S3 y el sistema de archivos se desaprovisiona. El almacenamiento de ejecuciones dinámico se escala y desescala verticalmente según sus necesidades de almacenamiento durante la ejecución y ofrece tiempos de aprovisionamiento más rápidos. Se recomienda el almacenamiento de ejecuciones dinámico para ciclos de desarrollo rápidos e iterativos y para canalizaciones de ejecución pequeñas y cortas. El almacenamiento de ejecuciones estático es adecuado para grandes flujos de trabajo. Proporciona un mayor rendimiento del sistema de archivos por GiB y un menor costo por GiB que el almacenamiento de ejecuciones dinámico.
-
¿Cómo puedo supervisar mis flujos de trabajo?
Los flujos de trabajo de HealthOmics envían registros en tiempo real a CloudWatch durante la ejecución y registros adicionales cuando esta finaliza. Puede usar EventBridge para crear alertas automatizadas cuando se cumplan las condiciones que defina.
-
¿Puedo compartir flujos de trabajo con otras cuentas de AWS?
Sí, los flujos de trabajo de HealthOmics se pueden compartir con diferentes cuentas de AWS en la misma región mediante la característica de uso compartido de recursos. Para compartir un flujo de trabajo, necesita el ID de la cuenta de AWS con la que desea compartirlo. Al compartir un flujo de trabajo, se enviará una invitación de uso compartido al destinatario. El destinatario debe aceptar la solicitud de uso compartido antes de poder ejecutar el flujo de trabajo compartido. El propietario del flujo de trabajo puede revocar el acceso en cualquier momento y el destinatario no puede modificar ni eliminar el flujo de trabajo compartido.
-
¿Qué características garantizan la provisión de datos y la reproducibilidad de mis flujos de trabajo?
A los archivos que se utilizan como entradas de ejecución de S3 y al almacén de secuencias de HealthOmics se les asigna una ETag única para identificar los archivos. A los contenedores almacenados en su repositorio de ECR privado se les asigna un hash único y los flujos de trabajo son inmutables una vez creados para garantizar la reproducibilidad total de las ejecuciones. A cada ejecución se le asigna un uuid único global que se puede usar para identificar cada ejecución única, sus resultados y los registros asociados. Este uuid se puede conectar a los sistemas de información de laboratorio internos (LIMS), a los cuadernos electrónicos de laboratorio (ELN) o a los sistemas de gestión de muestras para cumplir con los requisitos de trazabilidad y reproducibilidad.
-
¿Tengo que usar los almacenes de datos y los flujos de trabajo de HealthOmics de forma conjunta o se pueden usar por separado?
Los clientes pueden usar los flujos de trabajo y los almacenes de datos de forma conjunta o como soluciones independientes. Los flujos de trabajo de HealthOmics son compatibles con S3 y el almacén de secuencias y referencias de HealthOmics. Los almacenes de secuencias y referencias de HealthOmics se pueden usar con los flujos de trabajo de HealthOmics, AWS Batch y otras soluciones de computación.
Almacenes de datos
-
¿Qué son los almacenes de datos de HealthOmics?
HealthOmics ofrece dos tipos de almacenes de datos: almacenes centrados en objetos y almacenes consultables. Los almacenes centrados en objetos son los almacenes de referencias y secuencias. Están diseñados para almacenar y organizar archivos moleculares de forma rentable. Los almacenes consultables son los almacenes de variantes y anotaciones. Están diseñados para convertir de manera rentable los datos de variantes y anotaciones en un almacén optimizado para consultas y agrupaciones. En conjunto, estos almacenes están diseñados para ofrecer almacenamiento, consulta, agrupamiento y recuperación de muestras localizables, accesibles, interoperables y reutilizables (FAIR) a escala de petabytes.
-
¿Cómo me ayudan los almacenes de datos de HealthOmics a ahorrar costos?
Los almacenes de datos de HealthOmics generan ahorros de muchas maneras diferentes. El almacén de secuencias utiliza la compresión y la organización en niveles en función del uso para reducir los costos de almacenamiento de los objetos a los que no se ha accedido durante 30 días. Esto puede generar ahorros significativos en comparación con el almacenamiento de objetos de AWS tradicional.
Las variantes de HealthOmics y los almacenes de anotaciones son almacenes sin ETL, por lo que solo paga por el almacenamiento y los datos analizados al realizar consultas. Los ahorros se obtienen al eliminar el costo de ETL y al separar los datos de variantes y anotaciones para que los datos de variantes no tengan que replicarse cuando se desee cambiar las anotaciones. Además, dado que los almacenes de variantes están divididos según la información de la muestra, las consultas basadas en muestras analizan menos datos, lo que posteriormente genera un mayor ahorro de costos.
-
¿Qué tipo de datos puedo almacenar en los almacenes de datos de HealthOmics?
Cada almacén de datos está diseñado para diferentes tipos de datos. Los almacenes de referencias de HealthOmics admiten archivos FASTA. Los almacenes de secuencias de HealthOmics admiten archivos FASTQ, uBAM, BAM y CRAM. Los almacenes de variantes admiten la extracción de datos de archivos VCF. Los almacenes de anotaciones admiten la extracción de datos de GFF, TSV, CSV y VCF.
-
¿Cuántos datos puedo almacenar en los almacenes de datos de HealthOmics?
El volumen total de datos y la cantidad de objetos que puede almacenar en AWS HealthOmics es prácticamente ilimitado. Si bien cada almacén tiene límites ajustables en cuanto a los tamaños y recuentos de archivos admitidos, se pueden seguir agregando archivos según sea necesario; los clientes almacenan habitualmente decenas de petabytes en un almacén.
-
¿Qué tan fiables son los almacenes de datos de HealthOmics?
Los almacenes de datos de HealthOmics se basan en la durabilidad y resiliencia de Amazon S3, que incluye objetos almacenados de forma redundante en varios dispositivos y zonas de disponibilidad en una región de AWS. El almacén de secuencias conserva y supervisa la identidad semántica de los objetos para garantizar que el contenido del archivo se conserve durante los ciclos de activación y archivo.
-
¿Cómo integro los almacenes de secuencias con mis herramientas de análisis?
Los almacenes de secuencias de HealthOmics se pueden integrar directamente con la mayoría de las herramientas de análisis mediante la URI de acceso de S3 para objetos o mediante herramientas complementarias. Cada objeto almacenado en el almacén de secuencias tiene un URI de S3 único que se puede usar para leerlo en la mayoría de los sistemas compatibles con S3. Si un sistema requiere una interfaz basada en archivos, se puede usar Mountpoint para S3 para hacer que un conjunto de lectura o un prefijo de almacenamiento de secuencias esté disponible como archivo montado para su lectura. Si se necesitan personalizaciones, las integraciones se pueden realizar mediante el SDK de Amazon o el administrador de transferencias de HealthOmics.
-
¿En qué se diferencia el almacén de secuencias de otras soluciones de almacenamiento de AWS?
El almacén de secuencias de HealthOmics está diseñado para almacenar datos moleculares estáticos a los que se accede de forma periódica y frecuente. El almacén de secuencias ha incorporado la compresión y la organización en niveles, y también tiene un escalamiento de lectura de objetos integrado en S3, por lo que es adecuado para datos de todas las escalas con varios niveles de frecuencia de acceso, desde el uso diario hasta el anual. Cada ingesta crea un nuevo conjunto de lectura y el almacén de secuencias cobra por un periodo mínimo de almacenamiento de 30 días, por lo que no está diseñado para archivos temporales, de uso provisional o que se actualicen con frecuencia.
Amazon S3 es ideal para archivos dinámicos que cambian con frecuencia, archivos de corta duración y archivos no moleculares que no cumplen con los formatos admitidos. Para los archivos que deben mantenerse por motivos de cumplimiento y archivo de datos, pero a los que no es necesario acceder con frecuencia, Amazon S3 Glacier ofrece diferentes opciones de almacenamiento.
Seguridad y privacidad
-
¿HealthOmics es un servicio que cumple con los requisitos de la HIPAA?
Sí, AWS HealthOmics es un servicio que cumple con los requisitos de la HIPAA. Si almacena información de salud protegida (PHI) en AWS, tiene la obligación de suscribir un anexo para socios empresariales (BAA). Puede suscribir rápidamente un anexo para socios empresariales (BAA) en línea mediante AWS Artifact.
-
¿Qué certificaciones de seguridad y cumplimiento tiene HealthOmics?
Los auditores externos evalúan la seguridad y el cumplimiento de AWS HealthOmics como parte de varios programas de cumplimiento de AWS. Esto incluye la HIPAA, FedRAMP y otros. Consulte la lista completa de validaciones de cumplimiento aquí.