Esta orientación ayuda a los usuarios a preparar los datos genómicos, clínicos, de mutaciones, de expresión y de imágenes para el análisis a gran escala y a realizar consultas interactivas contra un lago de datos. Incluye la automatización de la infraestructura como código (IaC), la integración y la entrega continuas (CI/CD) para una iteración rápida, una canalización de la ingesta para almacenar y transformar los datos, y cuadernos y paneles para el análisis interactivo. También se enseña cómo se almacenan y consultan los datos de las variantes y las anotaciones genómicas con el uso de cuadernos de Amazon SageMaker, AWS HealtHomics y Amazon Athena. Esta orientación se creó en colaboración con Bioteam.
Diagrama de la arquitectura
-
Arquitectura
-
CI/CD
-
Arquitectura
-
Paso 1
Ingiera, formatee y catalogue los datos del Archivo del Genoma del Cáncer (TCGA). Los datos sin procesar se extraen del Registro de datos abiertos en AWS (RODA) a través de la API del TCGA. Los datos se transforman en un trabajo de extracción, transformación y carga (ETL) de AWS Glue y los cataloga un rastreador de AWS Glue. Esto hace que los datos se encuentren disponibles para su consulta en Athena.Paso 2
Los datos del Atlas del Genoma del Cáncer (TCIA) se incorporan, formatean y catalogan. Los datos sin procesar se extraen del RODA a través de la API del TCIA. Los datos se transforman en un trabajo de ETL de AWS Glue y los cataloga un rastreador de AWS Glue. Las ubicaciones de las imágenes pueden consultarse y visualizarse mediante el uso de los cuadernos de SageMaker.
Paso 3
Los datos VCF del proyecto One Thousand Genomes, un VCF de muestra y el VCF de anotación ClinVar se ingieren en los almacenes de variantes y anotaciones de Amazon Omics y están disponibles como tablas en Lake Formation.
Paso 4
Los investigadores analizan los datos multimodales a través de una interfaz visual en QuickSight. Los datos se almacenan en caché en una base de datos SPICE (motor de cálculo superrápido, paralelo y en memoria), lo que optimiza el rendimiento de las consultas.
Paso 5
Los científicos de datos analizan los datos con código mediante cuadernos de Jupyter que se proporcionan a través de entornos de cuadernos de SageMaker.
-
CI/CD
-
Paso 1
Cree un proyecto de AWS CodeBuild que contenga el script setup.sh. Este script crea las pilas de AWS CloudFormation restantes, el código y los repositorios de código.Paso 2
La pila de zona de aterrizaje (zona) crea un repositorio de canalización de AWS CodeCommit. Después de que la pila de zona de aterrizaje (zona) completa su configuración, el script setup.sh envía el código fuente al repositorio de canalización de CodeCommit.Paso 3
La pila de canalización de implementación (canalización) crea el repositorio de código de CodeCommit, un evento de Amazon CloudWatch y la canalización de código de AWS CodePipeline. Después de que la pila de canalización de implementación (canalización) completa su configuración, el script setup.sh envía el código fuente al repositorio de código de CodeCommit.
Paso 4
La canalización de CodePipeline (código) implementa las pilas de CloudFormation de la base de código (genómica, imágenes y ómica). Después de que las canalizaciones de CodePipeline completan su configuración, los recursos implementados en su cuenta incluyen buckets de Amazon Simple Storage Service (Amazon S3) para almacenar registros de acceso a objetos, artefactos de compilación y datos en el lago de datos; repositorios de CodeCommit para código fuente; un proyecto de CodeBuild a fin de crear artefactos de código; una canalización de CodePipeline para automatizar la creación y la implementación de recursos, por ejemplo, trabajos, rastreadores y un catálogo de datos de AWS Glue; y una instancia de cuaderno de Jupyter de Amazon SageMaker.Se aprovisiona un almacén de referencia, un almacén de variantes y un almacén de anotaciones de Amazon Omics, y se ingiere un archivo de llamadas de variantes (VCF) de muestra, un VCF de subconjunto de 1000 genomas y un VCF de anotación de ClinVar para el análisis. Mediante el uso de AWS Lake Formation, un administrador de lago de datos puede habilitar el acceso a datos en almacenes de variantes y anotaciones ómicas a través deAmazon Athena y SageMaker. Se aprovisiona un almacén de referencia, un almacén de variantes y un almacén de anotaciones de Amazon Omics para almacenar datos de variantes y anotaciones disponibles públicamente y ponerlos a disposición para su consulta y análisis.
Paso 5
La pila de imágenes crea un hipervínculo a un inicio rápido de CloudFormation, que se puede lanzar para implementar la pila de Amazon QuickSight. La pila de QuickSight crea los recursos de Identity and Access Management (IAM) y QuickSight necesarios para explorar de forma interactiva el conjunto de datos multiómicos.
Pilares de Well-Architected
AWS Well-Architected Framework le permite comprender las ventajas y desventajas de las decisiones que tome durante la creación de sistemas en la nube. Los seis pilares de este marco permiten aprender las prácticas recomendadas arquitectónicas para diseñar y explotar sistemas confiables, seguros, eficientes, rentables y sostenibles. Con la Herramienta de AWS Well-Architected, que se encuentra disponible gratuitamente en la Consola de administración de AWS, puede revisar sus cargas de trabajo con respecto a estas prácticas recomendadas al responder a un conjunto de preguntas para cada pilar.
El diagrama de arquitectura mencionado es un ejemplo de una solución que se creó teniendo en cuenta las prácticas recomendadas de una buena arquitectura. Para tener completamente una buena arquitectura, debe seguir todas las prácticas recomendadas de buena arquitectura posibles.
-
Excelencia operativa
En esta orientación, se utilizan CodeBuild y CodePipeline para compilar, empaquetar e implementar todo lo necesario en la solución a fin ingerir y almacenar archivos de llamadas de variantes (VCF) y trabajar con datos multimodales y multiómicos de los conjuntos de datos del Atlas del Genoma del Cáncer (TCGA) y el Atlas de Imágenes Oncológicas (TCIA). Se demuestra la ingesta y el análisis de datos genómicos sin servidor mediante un servicio completamente administrado: Amazon Omics. Los cambios de código que se realicen en el repositorio de CodeCommit de la solución se implementarán a través de la canalización de implementación de CodePipeline proporcionada.
-
Seguridad
En esta orientación, se utiliza el acceso basado en roles con IAM y todos los buckets tienen el cifrado habilitado, son privados y bloquean el acceso público. El catálogo de datos en AWS Glue cuenta con el cifrado habilitado y todos los metadatos escritos por AWS Glue en Amazon S3 se encuentran cifrados. Todos los roles se definen con privilegios mínimos y todas las comunicaciones entre servicios permanecen en la cuenta del cliente. Los administradores pueden controlar el acceso al cuaderno de Jupyter, los datos de almacenes de variantes de Amazon Omics y al catálogo de AWS Glue con Lake Formation, y el acceso a los datos de Athena, el cuaderno de SageMaker y QuickSight con los roles de IAM proporcionados.
-
Fiabilidad
AWS Glue, Amazon S3, Amazon Omics y Athena no tienen servidor y escalarán el rendimiento del acceso a los datos a medida que aumente su volumen de datos. AWS Glue aprovisiona, configura y escala los recursos necesarios para ejecutar sus trabajos de integración de datos. Athena no tiene servidor, por lo que puede realizar consultas en sus datos con rapidez sin tener que configurar ni administrar servidores ni almacenamientos de datos. El almacenamiento en memoria SPICE de QuickSight escalará su exploración de datos a miles de usuarios.
-
Eficiencia en el rendimiento
Mediante el uso de tecnologías sin servidor, solo aprovisiona los recursos exactos que utiliza. Cada trabajo de AWS Glue aprovisionará un clúster de Spark bajo demanda para transformar los datos y desaprovisionar los recursos cuando termine. Si elige agregar conjuntos de datos del TCGA nuevos, puede agregar trabajos de AWS Glue y rastreadores de AWS Glue nuevos que también predicen recursos bajo demanda. Athena ejecuta consultas de manera simultánea automáticamente, por lo que la mayoría de los resultados se obtiene en cuestión de segundos. Amazon Omics optimiza el rendimiento de las consultas de variantes a escala al transformar archivos en Apache Parquet.
-
Optimización de costos
Mediante el uso de tecnologías sin servidor que escalan bajo demanda, solo paga por los recursos que utiliza. Para optimizar aún más los costos, puede detener los entornos de cuadernos en SageMaker cuando no se utilicen. El panel de QuickSight también se implementa a través de una plantilla de CloudFormation independiente, por lo que si no tiene la intención de utilizar el panel de visualización, puede optar por no implementarlo a fin de ahorrar costos. Amazon Omics optimiza el costo de almacenamiento de datos de variantes a escala. Los costos de las consultas vienen determinados por la cantidad de datos analizados por Athena y pueden optimizarse al escribir las respectivas consultas.
-
Sostenibilidad
Al utilizar ampliamente los servicios administrados y el escalado dinámico, minimiza el impacto ambiental de los servicios de backend. Un componente fundamental para la sostenibilidad es maximizar el uso de las instancias de servidores de cuadernos. Debería detener los entornos de cuadernos cuando no se utilicen.
Consideraciones adicionales
Transformación de datos
En esta arquitectura se eligió AWS Glue para el proceso de extracción, transformación y carga (ETL) necesario a fin de ingerir, preparar y catalogar los conjuntos de datos en la solución para consultas y rendimiento. Puede agregar trabajos de AWS Glue y rastreadores de AWS Glue nuevos para ingerir conjuntos de datos nuevos del Atlas del Genoma del Cáncer (TCGA) y el Atlas de Imágenes Oncológicas (TCIA), según sea necesario. También puede agregar trabajos y rastreadores nuevos para ingerir, preparar y catalogar sus propios conjuntos de datos.
Análisis de datos
En esta arquitectura, se eligieron los cuadernos de SageMaker a fin de proporcionar un entorno de cuadernos de Jupyter para el análisis. Puede agregar cuadernos nuevos al entorno existente o crear entornos nuevos. Si prefiere RStudio a los cuadernos de Jupyter, puede utilizar RStudio en Amazon SageMaker.
Visualización de datos
En esta arquitectura, se eligió QuickSight a fin de proporcionar paneles interactivos para la visualización y exploración de datos. La configuración del panel de QuickSight se realiza a través de una plantilla de CloudFormation independiente, por lo que si no tiene la intención de utilizar el panel, no es necesario que lo aprovisione. En QuickSight, puede crear su propio análisis, explorar filtros o visualizaciones adicionales y compartir conjuntos de datos y análisis con colegas.
Recursos de implementación
Este repositorio crea un entorno escalable en AWS a fin de preparar datos genómicos, clínicos, de mutaciones, de expresión y de imágenes para el análisis a gran escala y realizar consultas interactivas en un lago de datos. La solución muestra cómo 1) utilizar el almacén de variantes y el almacén de anotaciones de HealthOmics para almacenar datos de variantes genómicas y datos de anotaciones, 2) proporcionar canalizaciones de ingesta de datos sin servidor para la preparación y catalogación de datos multimodales, 3) visualizar y explorar datos clínicos a través de una interfaz interactiva y 4) ejecutar consultas analíticas interactivas en un lago de datos multimodales mediante Amazon Athena y Amazon SageMaker.
Se proporciona una guía detallada para experimentar y utilizar dentro de su cuenta de AWS. Se examina cada etapa de la creación de la guía, incluida la implementación, el uso y la limpieza, con el fin de prepararla para su implementación.
El código de muestra es un punto de partida. Está validado por el sector, es prescriptivo pero no definitivo, y le permite profundizar en su funcionamiento para que le sea más fácil empezar.
Contenido relacionado
Guía para el análisis de datos multimodales con servicios de IA y ML para el sector sanitario en AWS
Colaboradores
BioTeam es una empresa de consultoría de TI en ciencias biológicas apasionada por acelerar el descubrimiento científico al cerrar la brecha entre lo que los científicos quieren hacer con los datos y lo que pueden hacer. Al trabajar en la intersección de la ciencia, los datos y la tecnología desde 2002, BioTeam tiene las capacidades interdisciplinarias para aplicar estrategias, tecnologías avanzadas y servicios de TI que resuelven los problemas operativos, técnicos y de investigación más desafiantes. Expertos en convertir las necesidades científicas en poderosos ecosistemas de datos científicos, nos enorgullecemos de nuestra capacidad para asociarnos con una amplia gama de líderes en la investigación de las ciencias biológicas, desde empresas emergentes de biotecnología hasta las empresas farmacéuticas más grandes del mundo, desde agencias gubernamentales federales hasta instituciones académicas de investigación.
Descargo de responsabilidad
El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como ejecutar instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.
Las referencias a servicios u organizaciones de terceros en esta Guía no implican un respaldo, patrocinio o afiliación entre Amazon o AWS y el tercero. La orientación de AWS es un punto de partida técnico, y puede personalizar su integración con servicios de terceros al implementar la arquitectura.