Logotipo de Stanford DDRCC

El DDRCC de la Universidad de Stanford utiliza AWS para la investigación en medicina de precisión y aprovecha los datos multimodales

2022

El Deep Data Research Computing Center (DDRCC) de la Universidad de Stanford, una de las muchas iniciativas que se originaron en Stanford Synder Labs, forma parte del Departamento de Genética de Stanford Medicine en Palo Alto, California. Su objetivo consiste en crear herramientas que cierren la brecha entre la biología y la informática, y ayudar a los investigadores en medicina de precisión a ofrecer soluciones médicas tangibles.

Para facilitar la investigación en medicina de precisión, el DDRCC creó My Personal Health Dashboard (MyPHD), un sistema de gestión de la salud seguro, escalable e interoperable para los consumidores. MyPHD proporciona capacidades eficientes de adquisición, almacenamiento y análisis de datos casi en tiempo real para los investigadores que utilizan Amazon Web Services (AWS). El equipo también desarrolló el Stanford Data Ocean (SDO), que es la primera solución educativa de medicina de precisión sin servidor para que los investigadores eduquen, innoven y colaboren a través del código y los datos. Al basarse en AWS, DDRCC utiliza la elasticidad, la escalabilidad y la seguridad de la nube para beneficiar tanto a los consumidores como a los biólogos y mejorar el campo de la medicina de precisión.

El equipo de DDRCC
kr_quotemark

Puede estar en cualquier parte del mundo y seguir accediendo a estos grandes conjuntos de datos médicos. Lo hemos conseguido mediante la ejecución de nuestra infraestructura en AWS».

Doctor Amir Bahmani
Director del Deep Data Research Computing Center (DDRCC), Stanford

 

Diseño de soluciones para la investigación en medicina de precisión utilizando datos multimodales

La investigación en medicina de precisión se basa en una comprensión individualizada de los datos multimodales (como los datos genómicos, microbiómicos y proteómicos) para que los médicos y los investigadores puedan personalizar la terapia para los pacientes. La gran cantidad de datos derivados de sensores portátiles, registros médicos electrónicos y perfiles moleculares añade otra dimensión. Este aumento de la escala y la complejidad plantean nuevos desafíos en torno a la disponibilidad, la adquisición, el almacenamiento, la integración y el análisis de datos. Por lo tanto, es imperativo que los investigadores cuenten con una estrategia de datos ágil y elástica. «Los datos profundos son el futuro de la medicina. Lo necesitamos para supervisar la salud y para el diagnóstico, el pronóstico y los tratamientos, todo a nivel personal», afirma el Dr. Michael Snyder, catedrático y profesor de genética en la Universidad de Stanford.

MyPHD del DDRCC proporciona un entorno seguro e integral para el análisis de datos biométricos a gran escala. Puede almacenar, organizar y procesar conjuntos de datos de salud complejos y respaldar el análisis y la visualización de datos casi en tiempo real a nivel individual y de cohorte. Está diseñado para perfeccionar la precisión de los diagnósticos y las recetas médicas y mejorar la medicina de precisión. Para respaldar el análisis a gran escala de los datos de los participantes para la gestión de la salud individual, el DDRCC puede escalar los recursos de MyPHD en función de la cantidad de cargas de trabajo. También utiliza los servicios de seguridad de AWS como base para sus aplicaciones médicas, que gestionan grandes volúmenes de datos personales altamente confidenciales.

La medicina de precisión depende de la integración de conjuntos de datos multimodales dispares para extraer inferencias. Por lo general, estos conjuntos de datos son grandes y están agrupados en diferentes fuentes. Para los investigadores, es importante determinar las configuraciones de computación y almacenamiento correctas que se necesitan para aplicar algoritmos computacionales complejos a estos grandes conjuntos de datos. El equipo del DDRCC desarrolló el SDO para ayudar a los investigadores a asignar recursos de manera eficiente para experimentar con código. Con la SDO, los investigadores pueden explorar cuestiones importantes en torno a la medicina de precisión y escalar soluciones innovadoras. Al ejecutar cargas de trabajo de SDO en AWS, DDRCC ha logrado una alta escalabilidad y, al mismo tiempo, cumple con los estrictos requisitos de seguridad.

Creación de soluciones innovadoras en AWS para el análisis de datos multimodales

Para mejorar la capacidad de los biólogos para completar investigaciones de salud vitales, el DDRCC utiliza Amazon SageMaker y Service Workbench de AWS. Con SageMaker, los bioinformáticos pueden crear, entrenar e implementar modelos de machine learning para prácticamente cualquier caso de uso con una infraestructura, herramientas y flujos de trabajo totalmente gestionados. El equipo utiliza Service Workbench en AWS para facilitar el control seguro, repetible y federado del acceso a los datos, las herramientas y la potencia informática que los investigadores necesitan. Los investigadores pueden acceder de forma segura a grandes conjuntos de datos en Amazon Simple Storage Service (Amazon S3), un servicio de almacenamiento de objetos con una escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes del sector.

El DDRCC requiere una alta escalabilidad para procesar los datos de MyPHD y SDO y se basa en Amazon Elastic Compute Cloud (Amazon EC2), un servicio web que proporciona una capacidad informática segura y redimensionable en la nube. «No solo podemos escalar MyPHD y admitir diferentes números de usuarios, sino que también podemos escalar nuestros algoritmos en función de la cantidad de cargas de trabajo», afirma el Dr. Arash Alavi, director de investigación y desarrollo del DDRCC de la Universidad de Stanford. Para ejecutar procesos de preprocesamiento para aplicaciones de genómica y transcriptómica a gran escala, el equipo también utiliza CLI de Amazon Genomics, una herramienta de código abierto para los clientes de genómica y ciencias biológicas, y AWS Batch, un servicio para el procesamiento por lotes totalmente gestionado a prácticamente cualquier escala. CLI de Amazon Genomics simplifica y automatiza las implementaciones de la infraestructura en la nube, mientras que AWS Batch facilita la ejecución de cientos de miles de trabajos de computación por lotes en AWS.

El DDRCC también utiliza Amazon Athena, un servicio de consultas interactivas, para facilitar el análisis de los datos almacenados en Amazon S3 mediante SQL estándar. Como este servicio es muy elástico, los investigadores pueden consultar los datos recopilados por SDO y MyPHD a pedido y avanzar con más rapidez en sus proyectos. Además, Athena no tiene servidores, por lo que no hay ninguna infraestructura que la DDRCC pueda gestionar. El equipo solo paga por las consultas que ejecuta, lo que reduce los costes. «La capacidad de escalar los recursos de forma dinámica en función del tamaño de la carga de trabajo (este modelo de pago por uso) es asombrosa», afirma el Dr. Amir Bahmani, director del DDRCC de la Universidad de Stanford.

La seguridad es un requisito importante para las aplicaciones que manejan datos médicos. Las soluciones del DDRCC no utilizan, almacenan ni procesan información médica protegida, y todos los datos en tránsito y en reposo están completamente cifrados y anonimizados. Para mantener un alto nivel de seguridad, DDRCC ha adoptado servicios de AWS como Amazon Cognito, un servicio que permite a los equipos añadir el registro, el inicio de sesión y el control de acceso de los usuarios a las aplicaciones web y móviles. «Las funciones de seguridad que ofrece AWS incluyen el registro, la auditoría y la supervisión listos para usar, que utilizamos para proteger nuestros datos», afirma Bahmani. 

Colaborando en medicina de precisión

En AWS, el equipo de DDRCC diseñó sus soluciones MyPHD y SDO para importar, consultar y analizar grandes bases de datos médicos de forma segura, a altas velocidades y a bajo coste. «Cada una de nuestras herramientas tiene necesidades únicas, especialmente a medida que salen del entorno de investigación y se utilizan para uso clínico», afirma el Dr. Philip Tsao, Jefe adjunto de personal de medicina de precisión del Sistema de atención médica VA Palo Alto y Profesor de medicina en la Universidad de Stanford. «Para diseñar aplicaciones médicas escalables y seguras, es fundamental formar equipos interdisciplinarios de expertos y facilitar una colaboración eficaz».
 
El apoyo de AWS fue increíblemente valioso para DDRCC, y la empresa tiene previsto seguir utilizando los servicios de AWS para diseñar soluciones innovadoras y creativas para la medicina de precisión en la nube. «Puede estar en cualquier parte del mundo y acceder a estos grandes conjuntos de datos médicos», afirma Bahmani. «Lo hemos conseguido mediante la ejecución de nuestra infraestructura en AWS».

Acerca del Deep Data Research Computing Center de Stanford

El Deep Data Research Computing Center de Stanford se encuentra en el Departamento de genética de Stanford Medicine en Palo Alto, California. El equipo trabaja en el diseño y desarrollo de soluciones sistemáticas e inteligentes para aplicaciones biomédicas a gran escala.

Beneficios de AWS

  • Mejora la seguridad de las soluciones de medicina de precisión
  • Logra la escalabilidad de MyPHD para prácticamente cualquier número de usuarios
  • Mejora la elasticidad del SDO para uso educativo
  • Reduce los costes con el modelo de pago por uso
  • Mejora la adaptabilidad para la investigación colaborativa

Servicios de AWS utilizados

Service Workbench de AWS

Service Workbench de AWS permite a los equipos de TI proporcionar un control seguro, repetible y federado del acceso a los datos, las herramientas y la potencia informática que necesitan los investigadores.

Más información »

Amazon Athena

Amazon Athena es un servicio de consultas interactivo que facilita el análisis de datos en Amazon S3 con SQL estándar.

Más información »

Amazon S3

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector.

Más información »

Amazon EC2

Amazon EC2 ofrece una capacidad de computación segura y de tamaño ajustable para admitir prácticamente cualquier carga de trabajo.

Más información »

Amazon Cognito

Amazon Cognito le permite agregar de manera rápida y sencilla el registro, inicio de sesión y control de acceso de usuarios a sus aplicaciones web y móviles.

Más información »


Introducción

Organizaciones de todos los tamaños y de todos los sectores se transforman y cumplen sus misiones todos los días gracias a AWS.
Contáctese con nuestros expertos e inicie hoy mismo su proceso de traspaso a la nube de AWS.