Esta orientação ajuda você a conectar instrumentos de dados de ciências biológicas e arquivos de sistemas de laboratório à Nuvem AWS, seja pela Internet ou por uma conexão direta com baixa latência. Você pode reduzir as despesas de armazenamento de dados que são acessados com menos frequência ou pode torná-los acessíveis para computação de alta performance nas áreas de genômica, geração de imagens e outras que tenham workloads intensas, tudo na AWS.
Diagrama de arquitetura
Etapa 1
Um técnico de laboratório executa um experimento ou teste, e os resultados são gravados na pasta de um servidor de arquivos on-premises. Uma tarefa do AWS DataSync é configurada para sincronizar os dados do armazenamento local com um bucket no Amazon Simple Storage Service (Amazon S3).
Etapa 2
Os dados são transferidos para a Nuvem AWS pela Internet ou por meio de uma conexão direta de baixa latência que evita a Internet, como o AWS Direct Connect.
Etapa 3
Cadernos eletrônicos de laboratório (ELN) e sistemas de gerenciamento de informações de laboratório (LIMS) compartilham metadados de experimentos e testes bidirecionalmente com a Nuvem AWS por meio de eventos e APIs. Saiba mais sobre essa integração em Guidance for a Laboratory Data Mesh on AWS.
Etapa 4
Entidades parceiras, como uma organização de pesquisa contratada (CRO), podem carregar resultados de estudos no Amazon S3 usando o AWS Transfer Family para FTP, SFTP ou FTPS.
Etapa 5
Você pode otimizar os custos de armazenamento gravando dados de instrumentos em um bucket do S3 configurado para acesso não frequente. Identifique seus padrões de acesso ao armazenamento do S3 para configurar de maneira ideal sua política de ciclo de vida de buckets do S3 e transferir dados ao Amazon S3 Glacier.
Etapa 6
Usando o Amazon FSx for Lustre, os dados são disponibilizados para computação de alta performance (HPC) na nuvem para genômica, geração de imagens e outras workloads intensas, com o objetivo de fornecer um sistema de arquivos compartilhado com baixa latência de milissegundos.
Etapa 7
Os pipelines de bioinformática são orquestrados com o AWS Step Functions, o AWS HealthOmics e o AWS Batch para computação de CPU e GPU flexível.
Etapa 8
O machine learning é realizado com um kit de ferramentas de inteligência artificial e machine learning (IA/ML) que usa o Amazon SageMaker para engenharia de atributos, rotulagem de dados, treinamento de modelos, implantação e operações de ML. O Amazon Athena é usado para consultas SQL flexíveis.
Etapa 9
Pesquisadores que usam aplicações on-premises para análise de dados e relatórios visualizam e acessam dados no Amazon S3 usando o Network File System (NFS) ou o Server Message Block (SMB) por meio do Amazon S3 File Gateway.
Pilares do Well-Architected
O AWS Well-Architected Framework ajuda a entender as vantagens e as desvantagens das decisões tomadas durante a criação de sistemas na nuvem. Os seis pilares do Framework permitem que você aprenda as melhores práticas de arquitetura, a fim de projetar e operar sistemas confiáveis, seguros, eficientes, econômicos e sustentáveis. Com a Ferramenta AWS Well-Architected, disponível gratuitamente no Console de Gerenciamento da AWS, você pode avaliar suas workloads em relação às práticas recomendadas ao responder a uma série de questões para cada pilar.
O diagrama de arquitetura acima exemplifica a criação de uma solução pautada nas melhores práticas do Well-Architected. Para ser totalmente Well-Architected, é preciso respeitar a maior quantidade possível das melhores práticas desse framework.
-
Excelência operacional
À medida que surgem novas fontes de dados e parceiros, uma variedade de serviços de transferência de dados pode ser usada para se adaptar a esses padrões de acesso em constante mudança. Para ambientes com vários locais, o S3 File Gateway pode ser usado para transferências enquanto você retém um cache no local para outras aplicações. O Transfer Family permite que entidades parceiras, como CROs, carreguem resultados de estudos facilmente.
-
Segurança
Para fins de proteção de dados, recomendamos proteger as credenciais da conta da AWS e configurar contas de usuários individuais com o AWS Identity and Access Management (IAM) para que cada usuário receba somente as permissões necessárias para cumprir suas tarefas. Também sugerimos o uso da criptografia em repouso. Os serviços usam criptografia em trânsito por padrão.
-
Confiabilidade
O DataSync aproveita um ou vários endpoints de VPC para garantir que, se uma zona de disponibilidade não estiver disponível, o agente possa acessar outro endpoint. O DataSync é um serviço escalável que utiliza conjuntos de agentes para movimentar dados. As tarefas e os agentes podem ser escalados com base na demanda da quantidade de dados que precisa ser migrada.
O DataSync registra todos os eventos no Amazon CloudWatch. Se um trabalho falhar, é possível tomar medidas para entender melhor o problema e em que ponto a tarefa está falhando. Concluídas as tarefas, é possível iniciar trabalhos de pós-processamento para concluir a próxima fase do processo de pipeline.
O Amazon S3 fornece uma infraestrutura de armazenamento altamente durável, projetada para armazenamento de dados de missão crítica e primários.
-
Eficiência de performance
O armazenamento do FSx para Lustre fornece latências inferiores a um milissegundo, até centenas de GBs/s de throughput e milhões de IOPS.
-
Otimização de custos
Ao usar tecnologias sem servidor que podem ser dimensionadas sob demanda, você paga apenas pelos recursos que usa. Para otimizar ainda mais os custos, você pode interromper os ambientes de cadernos no SageMaker quando não estão em uso. Se você não pretende usar o painel de visualização do Amazon QuickSight, pode optar por não implantá-lo para economizar custos.
As cobranças por transferências de dados são compostas por duas áreas principais: o DataSync, que é cobrado com base no throughput por GB, e dados transferidos pelo Direct Connect ou pela VPN. Além disso, cobranças entre zonas de disponibilidade poderão ser aplicáveis se endpoints de VPC forem usados.
-
Sustentabilidade
Métricas do CloudWatch permitem que os usuários tomem decisões orientadas por dados com base em alertas e tendências. Ao usar amplamente os serviços gerenciados e a escalabilidade dinâmica, você minimiza o impacto ambiental dos serviços de back-end. A maioria dos componentes é autossustentável.
Recursos de implementação
Com sua conta da AWS, um guia detalhado é fornecido para experimentação e uso. Cada etapa da criação das orientações, incluindo implantação, uso e limpeza, é examinada para prepará-las para a implantação.
O código de exemplo é um ponto de partida. Ele é validado para o setor, é prescritivo, mas não definitivo, e mostra o que há por trás de tudo para ajudar você a começar.
Conteúdo relacionado
Building Digitally Connected Labs with AWS
Essa publicação discute as ferramentas, as práticas recomendadas e os parceiros que ajudam os laboratórios de ciências biológicas a aproveitar ao máximo a escala e a performance da Nuvem AWS.
Orientação para um data mesh de laboratório na AWS
Esta orientação demonstra como criar um sistema de gerenciamento de dados científicos que integre dados de instrumentos de laboratório e software com governança de dados na nuvem, descoberta de dados e pipelines de bioinformática, capturando os principais eventos de metadados ao longo do caminho.
Resilience Builds a Global Data Mesh for Lab Connectivity on AWS
Este estudo de caso descreve como a Resilience, inovadora em biomanufatura, revoluciona a maneira como novos medicamentos são produzidos com uma rede conectada para transferência de dados na AWS.
Aviso de isenção de responsabilidade
O código de exemplo, as bibliotecas de software, as ferramentas de linha de comando, as provas de conceito, os modelos ou outra tecnologia relacionada (incluindo qualquer uma das anteriores fornecidas por nossa equipe) são fornecidos a você como Conteúdo da AWS nos termos do Contrato de Cliente da AWS ou o contrato por escrito pertinente entre você e a AWS (o que for aplicável). Você não deve usar esse Conteúdo da AWS em suas contas de produção, na produção ou em outros dados essenciais. Você é responsável por testar, proteger e otimizar o Conteúdo da AWS, como código de exemplo, conforme apropriado para uso em nível de produção com base em suas práticas e padrões específicos de controle de qualidade. A implantação de Conteúdo da AWS pode gerar cobranças da AWS para criar ou usar recursos cobráveis, como executar instâncias do Amazon EC2 ou usar armazenamento do Amazon S3.
As referências a serviços ou organizações terceirizadas nesta orientação não implicam em endosso, patrocínio ou afiliação entre a Amazon ou a AWS e terceiros. A orientação da AWS é um ponto de partida técnico, e você pode personalizar sua integração com serviços de terceiros ao implantar a arquitetura.