Fluxos de trabalho

  • O HealthOmics oferece dois tipos de fluxos de trabalho: fluxos de trabalho privados e fluxos de trabalho Ready2Run. Os fluxos de trabalho privados são personalizados e permitem que você traga seus próprios scripts de bioinformática escritos nas linguagens de fluxo de trabalho mais usadas. Os fluxos de trabalho do Ready2Run são canais de bioinformática pré-construídos com base em análises comuns do setor que permitem que você comece rapidamente sem escrever código. 

  • Os fluxos de trabalho privados do HealthOmics podem ser escritos em Nextflow, WDL e CWL. Para obter informações sobre a versão compatível, consulte a documentação.

  • O HealthOmics oferece uma ampla variedade de fluxos de trabalho do Ready2Run, desde o GATK e o AlphaFold do Broad Institute até fluxos de trabalho de editores terceirizados, como NVIDIA, Element Biosciences, Sentieon e Ultima. Você pode ver a lista completa dos fluxos de trabalho disponíveis do Ready2Run aqui.

  • Sim, o HealthOmics pode executar bioFMs, como NVIDIA NIMs, AlphaFold e ESMFold. Você pode orquestrar vários bioFMs em um fluxo de trabalho, desbloqueando canais de descoberta de medicamentos em grande escala. Por exemplo, fluxos de trabalho de descoberta de medicamentos que usam bioFMs, consulte o repositório de fluxos de trabalho de descoberta de medicamentos no GitHub.

  • Para executar seu primeiro fluxo de trabalho privado, você precisa de um script de fluxo de trabalho escrito em Nextflow, WDL ou CWL. Além disso, todas as ferramentas e dependências devem ser conteinerizadas e armazenadas em um repositório ECR privado. Os dados de entrada podem ser fornecidos no S3 ou no armazenamento de sequências do HealthOmics.

  • Você pode gerenciar recursos de fluxo de trabalho privados com grupos de execução. Os grupos de execução permitem que você controle o máximo de execuções simultâneas, a duração máxima da execução, vCPUs e GPUs de execuções atribuídas ao grupo de execução. Além disso, o HealthOmics fornece ferramentas de dimensionamento correto, como o Run Analyzer, que ajudam você a otimizar suas alocações de recursos para melhorar a eficiência da execução. 

  • Os fluxos de trabalho privados do HealthOmics oferecem duas opções de armazenamento de execução: armazenamento de execução estática e armazenamento de execução dinâmica. Com o armazenamento estático de execução, um sistema de arquivos de tamanho fixo é provisionado no início da execução e usado por tarefas para armazenamento intermediário de arquivos durante a execução. Quando a execução é concluída, as saídas da execução são exportadas para o S3 e o sistema de arquivos é desprovisionado. O armazenamento de execução dinâmica aumenta e diminui a escala verticalmente de maneira automática de acordo com suas necessidades de armazenamento durante a execução e oferece tempos de provisionamento mais rápidos. O armazenamento de execução dinâmica é recomendado para ciclos de desenvolvimento rápidos e iterativos e pipelines pequenos e curtos. O armazenamento de execução estática é adequado para grandes fluxos de trabalho. Ele fornece maior throughput do sistema de arquivos por GiB e menor custo por GiB do que o armazenamento de execução dinâmica.

  • Os fluxos de trabalho do HealthOmics entregam logs em tempo real para o CloudWatch durante a execução e registros adicionais após a conclusão da execução. Você pode usar o EventBridge para criar alertas automatizados para as condições que você definir. 

  • Sim, os fluxos de trabalho do HealthOmics podem ser compartilhados com diferentes contas da AWS na mesma região usando o recurso de compartilhamento de recursos. Para compartilhar um fluxo de trabalho, você precisa do ID da conta da AWS com a qual deseja compartilhar. Compartilhar um fluxo de trabalho enviará um convite de compartilhamento ao destinatário. O destinatário deve aceitar a solicitação de compartilhamento antes de poder executar o fluxo de trabalho compartilhado. O proprietário do fluxo de trabalho pode revogar o acesso a qualquer momento e o destinatário não pode modificar ou excluir o fluxo de trabalho compartilhado. 

  • Os arquivos usados como entradas de execução do S3 e do armazenamento de sequências do HealthOmics recebem uma ETag exclusiva para identificação de arquivos, os contêineres armazenados em seu repositório ECR privado recebem um hash exclusivo e os fluxos de trabalho são imutáveis depois de criados para garantir a reprodutibilidade total das execuções. Cada execução recebe um uuid global exclusivo que pode ser usado para identificar cada execução exclusiva, resultados de execução e logs associados. Esse uuid pode ser conectado aos seus sistemas internos de informações laboratoriais (LIMS), Electronic lab notebooks (ELN – Cadernos eletrônicos de laboratório) ou sistemas de gerenciamento de amostras para atender aos requisitos de rastreabilidade e reprodutibilidade.  

  • Os clientes podem usar fluxos de trabalho e armazenamentos de dados juntos ou como soluções independentes. Os fluxos de trabalho do HealthOmics são compatíveis com o S3 e o armazenamento de sequências e referências do HealthOmics. A sequência e os armazenamentos de referência do HealthOmics podem ser usados com fluxos de trabalho do HealthOmics, AWS Batch e outras soluções computacionais.

Armazenamentos de dados

  • O HealthOmics oferece dois tipos de armazenamentos de dados: armazenamentos focados em objetos e armazenamentos consultáveis. Os armazenamentos focados em objetos são os armazenamentos de referência e sequência. Eles são projetados para armazenar e organizar arquivos moleculares de forma econômica. Os armazenamentos que podem ser consultados são o armazenamento de variantes e anotações. Eles são projetados para transformar dados de variantes e anotações de forma econômica em um armazenamento otimizado para consulta e coorte. Juntas, essas lojas são projetadas para oferecer armazenamento, consulta, coorte e recuperação de amostras FAIR (localizáveis, acessíveis, interoperáveis e reutilizáveis) em escala de petabytes. 

  • Os armazenamentos de dados do HealthOmics geram economias de muitas maneiras diferentes. O armazenamento de sequências usa camadas e compressão orientadas pelo uso para reduzir o custo de armazenamento de objetos que não foram acessados por 30 dias. Isso pode levar a uma economia significativa em comparação com o armazenamento de objetos tradicional da AWS.

    Os armazenamentos de variantes e de anotações do HealthOmics são armazenamentos de ETL zero, então você paga apenas pelo armazenamento e pelos dados digitalizados durante a consulta. A economia é impulsionada pela remoção do custo do ETL e pela separação dos dados da variante e da anotação para que os dados da variante não precisem ser replicados quando houver o desejo de alterar as anotações. Além disso, como os armazenamentos de variantes são particionados pelas informações da amostra, as consultas baseadas em amostras digitalizam menos dados, o que resulta em maiores economias de custos posteriores.

  • Cada armazenamento de dados é projetado para diferentes tipos de dados. Os armazenamentos de referência do HealthOmics são compatíveis com arquivos FASTA. Os armazenamentos de sequências do HealthOmics suportam arquivos FASTQ, uBAM, BAM e CRAM. Os armazenamentos de variantes são compatíveis com a extração de dados de arquivos VCF. Os armazenamentos de anotações são compatíveis com a extração de dados de GFF, TSV, CSV, VCF.

  • O volume total de dados e o número de objetos que você pode armazenar no AWS HealthOmics são virtualmente ilimitados. Embora cada armazenamento tenha cotas ajustáveis nos tamanhos e contagens de arquivos suportados, os arquivos podem continuar sendo adicionados conforme necessário, com os clientes armazenando rotineiramente dezenas de petabytes em uma loja.

  • Os armazenamentos de dados do HealthOmics são construídos com base na durabilidade e resiliência do Amazon S3, que incluem objetos armazenados de forma redundante em vários dispositivos e zonas de disponibilidade em uma região da AWS. O armazenamento de sequências preserva e monitora a identidade semântica do objeto, garantindo que o conteúdo do arquivo seja preservado durante os ciclos de ativação e arquivamento.

  • Os armazenamentos de sequências do HealthOmics podem ser integrados diretamente com a maioria das ferramentas analíticas por meio do URI de acesso do S3 para objetos ou usando ferramentas complementares. Cada objeto armazenado no armazenamento de sequências tem um URI exclusivo do S3 que pode ser usado para lê-lo usando a maioria dos sistemas compatíveis com o S3. Se um sistema exigir uma interface baseada em arquivo, o Mountpoint for S3 pode ser usado para disponibilizar um conjunto de leitura ou um prefixo de armazenamento de sequência como um arquivo montado para leitura. Se forem necessárias personalizações, as integrações podem ser feitas usando o SDK da Amazon ou o gerenciador de transferência do HealthOmics.

  • O armazenamento de sequências HealthOmics foi projetado para armazenar dados moleculares estáticos que são acessados periodicamente e com frequência. O armazenamento de sequências tem compressão e hierarquização integradas, além de ter escalabilidade de leitura de objetos incorporada no S3, portanto, é adequado para dados de todas as escalas com vários níveis de frequência de acesso, do uso diário ao anual. Cada ingestão cria um novo conjunto de leitura e o armazenamento de sequências é cobrado por um período mínimo de armazenamento de 30 dias, portanto, não é destinado a arquivos temporários, provisórios ou atualizados com frequência.

    O Amazon S3 é ótimo para arquivos dinâmicos que mudam com frequência, arquivos de curta duração e arquivos não moleculares que não atendem aos formatos suportados. Para arquivos que precisam ser mantidos por motivos de arquivamento de dados e conformidade, mas que têm necessidades de acesso muito baixas, o Amazon S3 Glacier oferece diferentes opções de armazenamento.

Segurança e privacidade