Esta guía lo ayuda a conectar los instrumentos de datos de las ciencias biológicas y los archivos de sistemas de laboratorio a la nube de AWS, ya sea a través de Internet o de una conexión directa con baja latencia. Puede reducir los gastos de almacenamiento de los datos a los que se accede con menos frecuencia o hacer que sean accesibles para la computación de alto rendimiento para cargas de trabajo de genómica, procesamiento de imágenes y otras cargas de trabajo de uso intensivo, todo en AWS.
Diagrama de la arquitectura
Paso 1
Un técnico de laboratorio realiza un experimento o una prueba y los resultados se escriben en una carpeta de un servidor de archivos en las instalaciones. Se configura una tarea de AWS DataSync para sincronizar los datos del almacenamiento local con un bucket de Amazon Simple Storage Service (Amazon S3).
Paso 2
Los datos se transfieren a la nube de AWS a través de Internet o mediante una conexión directa de baja latencia que evita Internet, como AWS Direct Connect.
Paso 3
Los cuadernos electrónicos de laboratorio (ELN) y los sistemas de administración de la información de laboratorio (LIMS) comparten metadatos de experimentos y pruebas de forma bidireccional con la nube de AWS a través de eventos y API. Obtenga más información sobre esta integración en Guidance for a Laboratory Data Mesh on AWS.
Paso 4
Las entidades asociadas, como una organización de investigación por contrato (CRO), pueden cargar los resultados de los estudios en Amazon S3 mediante AWS Transfer Family para FTP, SFTP o FTPS.
Paso 5
Para optimizar los costos de almacenamiento, puede escribir los datos de los instrumentos en un bucket de S3 configurado para el acceso poco frecuente. Identifique los patrones de acceso al almacenamiento de S3 para configurar de manera óptima la política de ciclo de vida del bucket de S3 y transferir datos a Amazon S3 Glacier.
Paso 6
Con Amazon FSx para Lustre, los datos están disponibles para la computación de alto rendimiento (HPC) en la nube para cargas de trabajo de genómica, procesamiento de imágenes y otras cargas de trabajo de uso intensivo a fin de proporcionar un sistema de archivos compartidos de latencia baja de milisegundos.
Paso 7
Las canalizaciones de bioinformática se orquestan con AWS Step Functions, AWS HealthOmics y AWS Batch para una computación flexible de CPU y GPU.
Paso 8
El machine learning se lleva a cabo con un kit de herramientas de inteligencia artificial y machine learning (IA y ML) que utiliza Amazon SageMaker para la ingeniería de características, el etiquetado de datos, el entrenamiento de modelos, la implementación y las operaciones de ML. Amazon Athena se utiliza para consultas SQL flexibles.
Paso 9
Los investigadores que utilizan aplicaciones en las instalaciones para el análisis de datos y la elaboración de informes pueden ver los datos y acceder a ellos en Amazon S3 mediante Network File System (NFS) o el Bloque de mensajes del servidor (SMB) a través de Amazon S3 File Gateway.
Pilares de Well-Architected
AWS Well-Architected Framework le permite comprender las ventajas y desventajas de las decisiones que tome durante la creación de sistemas en la nube. Los seis pilares de este marco permiten aprender las prácticas recomendadas arquitectónicas para diseñar y explotar sistemas confiables, seguros, eficientes, rentables y sostenibles. Con la Herramienta de AWS Well-Architected, que se encuentra disponible gratuitamente en la Consola de administración de AWS, puede revisar sus cargas de trabajo con respecto a estas prácticas recomendadas al responder a un conjunto de preguntas para cada pilar.
El diagrama de arquitectura mencionado es un ejemplo de una solución que se creó teniendo en cuenta las prácticas recomendadas de una buena arquitectura. Para tener completamente una buena arquitectura, debe seguir todas las prácticas recomendadas de buena arquitectura posibles.
-
Excelencia operativa
A medida que surgen nuevos orígenes de datos y socios, se puede utilizar una variedad de servicios de transferencia de datos para adaptarse a los cambios de estos patrones de acceso. En el caso de los entornos de varios sitios, se puede usar S3 File Gateway para las transferencias mientras se conserva una caché local para otras aplicaciones. Transfer Family permite que las entidades asociadas, como las CRO, carguen fácilmente los resultados de los estudios.
-
Seguridad
Con fines de protección de datos, le recomendamos que proteja las credenciales de las cuentas de AWS y configure cuentas de usuario individuales con AWS Identity and Access Management (IAM), de modo que cada usuario reciba únicamente los permisos necesarios para cumplir con las obligaciones de su trabajo. También le sugerimos que utilice el cifrado en reposo y que los servicios utilicen el cifrado en tránsito de forma predeterminada.
-
Fiabilidad
DataSync utiliza uno o varios puntos de conexión de VPC para garantizar que, si una zona de disponibilidad no está disponible, el agente pueda acceder a otro punto de conexión. DataSync es un servicio escalable que utiliza conjuntos de agentes para mover datos. Las tareas y los agentes se pueden escalar en función de la demanda de la cantidad de datos que se deben migrar.
DataSync registra todos los eventos en Amazon CloudWatch. Si un trabajo falla, se pueden tomar unas medidas determinadas para comprender mejor el problema y dónde falla la tarea. Una vez finalizadas las tareas, se pueden iniciar los trabajos de posprocesamiento para completar la siguiente fase del proceso de la canalización.
Amazon S3 proporciona una infraestructura de almacenamiento de alta durabilidad diseñada para el almacenamiento de datos principales y críticos.
-
Eficiencia en el rendimiento
El almacenamiento de FSx para Lustre proporciona latencias de menos de un milisegundo, hasta cientos de GB/s de rendimiento y millones de IOPS.
-
Optimización de costos
Mediante el uso de tecnologías sin servidor que escalan bajo demanda, solo paga por los recursos que utiliza. Para optimizar aún más los costos, puede detener los entornos de cuadernos en SageMaker cuando no se utilicen. Si no tiene intención de utilizar el panel de visualización de Amazon QuickSight, puede optar por no implementarlo para ahorrar costos.
Los cargos por transferencia de datos se dividen en dos áreas principales: DataSync, que se cobra según una tarifa por GB transferido, y Direct Connect o los datos de VPN transferidos. Además, es posible que se apliquen cargos por uso entre zonas de disponibilidad si se utilizan puntos de conexión de VPC.
-
Sostenibilidad
Las métricas de CloudWatch permiten que los usuarios tomen decisiones basadas en datos en función de alertas y tendencias. Al utilizar ampliamente los servicios administrados y el escalado dinámico, minimiza el impacto ambiental de los servicios de backend. La mayoría de los componentes son autosuficientes.
Recursos de implementación
Se proporciona una guía detallada para experimentar y utilizar dentro de su cuenta de AWS. Se examina cada etapa de la creación de la guía, incluida la implementación, el uso y la limpieza, con el fin de prepararla para su implementación.
El código de muestra es un punto de partida. Está validado por el sector, es prescriptivo pero no definitivo, y le permite profundizar en su funcionamiento para que le sea más fácil empezar.
Contenido relacionado
Building Digitally Connected Labs with AWS
En esta publicación se describen las herramientas, las prácticas recomendadas y los socios que ayudan a los laboratorios de ciencias biológicas a aprovechar al máximo la escala y el rendimiento de la nube de AWS.
Orientación para una malla de datos de laboratorio en AWS
En esta orientación se muestra cómo crear un sistema de administración de datos científicos que integre los datos y el software de los instrumentos de laboratorio con la gobernanza de datos en la nube, el descubrimiento de datos y las canalizaciones bioinformáticas, y capture los metadatos clave a lo largo del proceso.
Resilience Builds a Global Data Mesh for Lab Connectivity on AWS
En este caso práctico se describe cómo Resilience, una empresa innovadora en biofabricación, revoluciona la forma en que se producen los nuevos medicamentos con una red conectada para la transferencia de datos en AWS.
Descargo de responsabilidad
El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como ejecutar instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.
Las referencias a servicios u organizaciones de terceros en esta Guía no implican un respaldo, patrocinio o afiliación entre Amazon o AWS y el tercero. La orientación de AWS es un punto de partida técnico, y puede personalizar su integración con servicios de terceros al implementar la arquitectura.