El HGSC de la Escuela de Medicina de Baylor analiza los datos genómicos más rápido con DRAGEN de Illumina en AWS
2022
El Centro de Secuenciación del Genoma Humano (HGSC) de la Escuela de Medicina de Baylor (Baylor) es uno de los pocos laboratorios de secuenciación genómica que recibe la financiación del programa de investigación All of Us de los Institutos Nacionales de Salud de Estados Unidos. En 2019, el HGSC comenzó a explorar soluciones para proporcionar un análisis seguro y altamente escalable de sus grandes conjuntos de datos genómicos. El HGSC contrató a Illumina, socio avanzado de AWS, para evaluar exhaustivamente la plataforma de tecnología bioinformática DRAGEN (análisis de lectura dinámica para genómica (GENomics)) de Illumina, una solución bioinformática que proporciona un análisis genómico secundario muy preciso, completo y eficiente de los datos de secuenciación y utiliza la tecnología de matriz de puertas programables en campo (FPGA) para la aceleración.
Al utilizar DRAGEN junto con los servicios de AWS, el HGSC puede analizar cientos de muestras genómicas al día. Esta solución ha ayudado a Baylor a aumentar su participación en las iniciativas de investigación, como el programa de investigación All of Us de los Institutos Nacionales de Salud, una iniciativa nacional para acelerar el progreso hacia la medicina de precisión mediante la recopilación y el análisis de los datos genéticos y de salud de un millón de voluntarios.
«Cuando salen grandes cantidades de datos de los instrumentos de secuenciación, utilizamos las FPGA en AWS para procesarlos rápido».
Eric Venner
Profesor titular y director del grupo de Informática Clínica del Centro de Secuenciación del Genoma Humano de la Escuela de Medicina de Baylor
Búsqueda de soluciones para acelerar la investigación
Baylor es una universidad de ciencias de la salud en Houston, Texas. Ocupa el vigésimo lugar en Estados Unidos en cuanto a la financiación de los Institutos Nacionales de Salud y el primer lugar en genética. En 2016, Baylor creó el Laboratorio clínico del HGSC para apoyar las iniciativas de secuenciación a gran escala que preparan los datos genómicos para su uso clínico. El HGSC desempeñó un papel crucial en el Proyecto del genoma humano y en el programa de investigación All of Us, en el que Baylor, la Universidad Johns Hopkins y el Centro de Ciencias de la Salud de la Universidad de Texas en Houston trabajan como centros genómicos junto con otros grupos de Estados Unidos.
Para que Baylor pudiera participar en el programa, el HGSC necesitaba escalar para cumplir con las grandes cargas de trabajo de secuenciación y simplificar la administración de la computación y el almacenamiento. También debía cumplir con estrictos estándares de cumplimiento, incluida la ISO/IEC 27001, que incluye más de 100 requisitos de seguridad y reglamentaciones federales que controlan la accesibilidad de los datos y la información clasificada. Los datos genéticos se consideran información controlada y no clasificada, que está sujeta a mayores controles de protección. «Teníamos que cumplir con unos estándares un par de niveles más altos que los que teníamos que cumplir con la HIPAA», afirma Richard Gibbs, director del HGSC.
Baylor ya había trabajado con Illumina, que proporciona una tecnología de secuenciación y software, y había utilizado AWS para la computación genómica desde 2012. Todos los centros de investigación que participan en el programa de investigación All of Us han estandarizado el uso de DRAGEN para el análisis secundario. Sin embargo, el HGSC se dio cuenta de que migrar a DRAGEN en la nube desde las instalaciones tenía el potencial más inmediato y a largo plazo, incluso en lo que respecta a atraer y retener a los miembros del equipo. «Trabajar en la nube es una ventaja porque las personas quieren aprender sobre las tecnologías que serán populares en las próximas décadas», afirma Eric Venner, profesor titular y director del grupo de Informática Clínica del HGSC. «Ahora podemos atraer a jóvenes ingenieros muy talentosos».
Uso de DRAGEN en AWS para obtener precisión, escalabilidad y seguridad
En la primavera de 2019, el equipo de Baylor comenzó a colaborar con Illumina en la tecnología de detección de variantes, que identifica las variantes en los datos de secuenciación. En el otoño de 2019, Noora Siddiqui, la ingeniera del equipo, comenzó a crear la canalización de producción con DRAGEN de Illumina en AWS, un AWS Quick Start que establece un entorno de AWS configurable para DRAGEN. La primera prueba a escala se realizó después de 3 semanas y, tras poco más de 3 meses, la canalización ya estaba en funcionamiento. «Terminamos la canalización con el soporte técnico de AWS», afirma Venner. «Al utilizar DRAGEN de Illumina en AWS, nuestra ingeniera pudo integrar la solución en un nuevo sistema de producción».
Al utilizar DRAGEN de Illumina en AWS, Baylor puede escalar según la demanda y procesar los datos considerablemente más rápido que antes. El HGSC procesa unos 5000 genomas al mes. «Todo el mundo tiene un secuenciador y un plan, pero procesar 5000 genomas al mes con fiabilidad es extremadamente difícil», señala Gibbs. «Eso es lo que estamos haciendo aquí. Se necesitan muchos conocimientos de ingeniería y soporte, pero es muy útil para la industria».
La solución DRAGEN de Baylor acelera el análisis de los datos genómicos mediante las instancias F1 de Amazon Elastic Compute Cloud (Amazon EC2); DRAGEN utiliza las FPGA para ofrecer aceleraciones de hardware personalizadas. «Nuestras cargas de trabajo se transmiten en ráfagas breves y repentinas», asegura Venner. «Cuando salen grandes cantidades de datos de los instrumentos de secuenciación, utilizamos las FPGA en AWS para procesarlos rápido». El centro utiliza las instancias F1 de Amazon EC2 junto con las instancias de spot de Amazon EC2, que permiten a los usuarios ejecutar cargas de trabajo tolerantes a errores con un descuento del 90 por ciento frente a las instancias bajo demanda de Amazon EC2. «Con las instancias de spot, podemos ahorrar en los costes de computación», advierte Venner.
El HGSC almacena sus datos en tiempo real mediante Amazon Simple Storage Service (Amazon S3), un servicio de almacenamiento de objetos creado para recuperar cualquier cantidad de datos desde cualquier lugar. Los datos que no necesitan ser utilizados de inmediato se transfieren automáticamente a Amazon S3 Glacier, que ofrece clases de almacenamiento en la nube seguras, duraderas y de muy bajo coste para archivar datos y realizar copias de seguridad a largo plazo. «La administración del almacenamiento y el ciclo de vida automatizado de los datos en AWS son muy importantes», afirma Venner. El equipo de Tecnología de la Información del HGSC utiliza AWS para cumplir con los estándares de seguridad y cumplimiento. «Es más sencillo realizar auditorías de seguridad en una nueva solución en la nube que en un entorno tradicional con un gran bagaje integrado», explica Venner.
El HGSC puede crear entornos informáticos rápidamente porque su solución DRAGEN utiliza Amazon Elastic Container Service (Amazon ECS), un servicio de orquestación de contenedores totalmente administrado para implementar, administrar y escalar aplicaciones en contenedores. «Es valioso captar el entorno en el que se ejecuta un trabajo», señala Venner. «Tradicionalmente, las personas creaban y administraban entornos complejos para ejecutar diferentes tipos de trabajos en la misma ubicación. Ahora simplemente creamos un entorno que sea específico para el trabajo que se está ejecutando, lo que simplifica la depuración».
Aplicación de las soluciones de Illumina y AWS a la sanidad
Al utilizar DRAGEN de Illumina en AWS, el HGSC espera integrar completamente su tecnología en los consultorios médicos. El análisis del genoma humano a cargo del HGSC puede predecir los riesgos para la salud de una persona, indicar las afecciones subyacentes y modificar el tratamiento clínico, lo que propicia una atención más integral para los pacientes. Por ejemplo, el HGSC recientemente colaboró con las clínicas cardiovasculares del Centro Médico de Texas para realizar el estudio HeartCare, que se centra en identificar los genes relacionados con las enfermedades cardiovasculares. «Hemos estado analizando los alelos cardiovasculares de alta penetrancia en genes clave y el modo en que las personas podrían beneficiarse de esa información según el modelo de atención clínica», informa Venner.
En el futuro, Baylor seguirá explorando los servicios de AWS y las soluciones de Illumina para mejorar aún más la seguridad y la velocidad de su procesamiento de datos. «Esperamos escalar la accesibilidad a los datos genéticos, especialmente para las personas desfavorecidas en el sistema de sanidad o que se enfrentan a muchas brechas en el cuidado de la salud», afirma Gibbs. «Estarán a la vanguardia. Queremos ayudarlos a acceder a la información genética que les será útil en sus perfiles de salud».
Escuela de Medicina de Baylor
La Escuela de Medicina de Baylor en Houston, Texas, alberga el Centro de Secuenciación del Genoma Humano, uno de los pocos centros de secuenciación genómica de Estados Unidos que recibe la financiación de los Institutos Nacionales de Salud.
Beneficios de AWS
- Construyó su canalización de datos en poco más de 3 meses
- Procesa los datos más rápido que su canalización anterior
- Procesa unos 5000 genomas al mes
- Recluta a los mejores talentos de ingeniería
- Simplifica la seguridad y el cumplimiento
- Automatiza la administración del almacenamiento y los procesos del ciclo de vida de los datos
- Escala automáticamente para adaptarse a las ráfagas de volumen
Servicios de AWS utilizados
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) es un servicio web que proporciona capacidad informática en la nube segura y de tamaño modificable. Está diseñado para facilitar a los desarrolladores la informática en la nube a escala web.
Instancias F1 de Amazon EC2
Las instancias F1 de Amazon EC2 usan las FPGA para posibilitar la entrega de aceleraciones personalizadas de hardware. Las instancias F1 son fáciles de programar e incluyen todos los recursos necesarios para desarrollar, simular, depurar y compilar su código de aceleración de hardware, incluida una AMI para desarrolladores de FPGA y el soporte del desarrollo en el nivel del hardware en la nube.
Instancias de spot de Amazon EC2
Las instancias de spot de Amazon EC2 permiten aprovechar la capacidad sin usar de EC2 en la nube de AWS. Las instancias de spot están disponibles con un descuento de hasta el 90 % en comparación con los precios bajo demanda.
DRAGEN de Illumina en AWS
La plataforma de tecnología bioinformática DRAGEN permite realizar análisis ultrarrápidos de los datos de secuenciación de última generación (NGS), reduce radicalmente el tiempo necesario para analizar los datos genómicos y mejora el nivel de precisión.
Introducción
Organizaciones de todos los tamaños y de todos los sectores se transforman en empresas y cumplen sus misiones todos los días con AWS. Contacte con nuestros expertos y comience su propio proceso de traspaso a AWS hoy mismo.