FAQ sur AWS HealthOmics
Flux de travail
-
Quelle est la différence entre les flux de travail privés et les flux de travail Ready2Run ?
HealthOmics propose deux types de flux de travail : les flux de travail privés et les flux de travail Ready2Run. Les flux de travail privés vous permettent d'apporter vos propres scripts bioinformatiques écrits dans les langages de flux de travail les plus couramment utilisés. Les flux de travail Ready2Run sont des pipelines bioinformatiques prédéfinis basés sur des analyses industrielles courantes qui vous permettent de démarrer rapidement sans écrire de code.
-
Quels langages de flux de travail bioinformatiques sont pris en charge par HealthOmics ?
Les flux de travail privés de HealthOmics peuvent être écrits dans Nextflow, WDL et CWL. Pour plus d'informations sur les versions prises en charge, consultez la documentation.
-
Quels types de flux de travail Ready2Run sont disponibles ?
HealthOmics propose une grande variété de flux de travail Ready2Run, allant des flux GATK et AlphaFold du Broad Institute aux flux de travail d'éditeurs tiers tels que NVIDIA, Element Biosciences, Sentieon et Ultima. Vous pouvez consulter la liste complète des flux de travail Ready2Run disponibles ici.
-
Puis-je exécuter des modèles de base biologiques (BioFM) sur HealthOmics ?
Oui, HealthOmics peut exécuter des BioFM, tels que NVIDIA NIMs, AlphaFold et ESMFold. Vous pouvez orchestrer plusieurs bioFM au sein d'un flux de travail, ouvrant ainsi la voie à des pipelines de découverte de médicaments à grande échelle. Pour découvrir les flux de travail de découverte de médicaments qui utilisent des bioFM, consultez le référentiel des flux de travail de découverte de médicaments sur GitHub.
-
De quoi ai-je besoin pour commencer à utiliser les flux de travail privés ?
Pour exécuter votre premier flux de travail privé, vous avez besoin d'un script de flux de travail écrit en Nextflow, WDL ou CWL. De plus, tous les outils et dépendances doivent être conteneurisés et stockés dans un référentiel ECR privé. Les données d'entrée peuvent être fournies dans S3 ou à partir du magasin de séquences HealthOmics.
-
Comment puis-je gérer les coûts de mon flux de travail privé ?
Vous pouvez gérer les ressources de flux de travail privées à l'aide de groupes d'exécution. Les groupes d'exécutions vous permettent de contrôler le nombre maximal d'exécutions simultanées, la durée maximale d'exécution, les vCPU et les GPU des exécutions attribuées au groupe d'exécutions. En outre, HealthOmics fournit des outils de redimensionnement, tels que Run Analyzer, qui vous aident à optimiser vos allocations de ressources afin d'améliorer l'efficacité de l'exécution.
-
Quelles sont mes options de stockage d'exécution ?
Les flux de travail privés de HealthOmics offrent deux options de stockage d'exécution : le stockage d'exécution statique et le stockage d'exécution dynamique. Avec le stockage d'exécution statique, un système de fichiers de taille fixe est provisionné au début de l'exécution et est utilisé par les tâches pour le stockage de fichiers intermédiaires pendant l'exécution. Une fois l'exécution terminée, les sorties d'exécution sont exportées vers S3 et le système de fichiers est déprovisionné. Le stockage dynamique évolue automatiquement vers le haut et vers le bas en fonction de vos besoins de stockage pendant la durée de l'exécution et offre des temps de provisionnement plus rapides. Le stockage dynamique est recommandé pour les cycles de développement rapides et itératifs, et les pipelines courts et de petite taille. Le stockage statique convient aux flux de travail volumineux. Il fournit un débit de système de fichiers par Go plus élevé et un coût par Go inférieur à celui du stockage dynamique.
-
Comment puis-je surveiller mes flux de travail ?
Les flux de travail HealthOmics fournissent des journaux en temps réel à CloudWatch pendant l'exécution et des journaux supplémentaires une fois l'exécution terminée. Vous pouvez utiliser EventBridge pour créer des alertes automatisées pour les conditions que vous définissez.
-
Puis-je partager des flux de travail avec d'autres comptes AWS ?
Oui, les flux de travail HealthOmics peuvent être partagés avec différents comptes AWS dans la même région à l'aide de la fonctionnalité de partage des ressources. Pour partager un flux de travail, vous avez besoin de l'identifiant du compte AWS avec lequel vous souhaitez le partager. Le partage d'un flux de travail enverra une invitation de partage au destinataire. Le destinataire doit accepter la demande de partage pour pouvoir exécuter le flux de travail partagé. Le propriétaire du flux de travail peut révoquer l'accès à tout moment et le destinataire ne peut ni modifier ni supprimer le flux de travail partagé.
-
Quelles fonctionnalités garantissent la fourniture des données et la reproductibilité de mes flux de travail ?
Les fichiers utilisés comme entrées d'exécution depuis S3 et le magasin de séquences HealthOmics se voient attribuer un ETag unique pour l'identification des fichiers, les conteneurs stockés dans votre référentiel ECR privé reçoivent un hachage unique et les flux de travail sont immuables une fois créés pour garantir une reproductibilité totale des exécutions. Chaque exécution se voit attribuer un UUID unique au monde qui peut être utilisé pour identifier chaque exécution unique, les résultats des exécutions et les journaux associés. Cet UUID peut être connecté à vos systèmes d'information de laboratoire internes (LIMS), à vos carnets de laboratoire électroniques (ELN) ou à vos systèmes de gestion des échantillons pour répondre aux exigences de traçabilité et de reproductibilité des opérations.
-
Dois-je utiliser les magasins de données et les flux de travail HealthOmics ensemble ou puis-je les utiliser séparément ?
Les clients peuvent utiliser les flux de travail et les magasins de données ensemble ou en tant que solutions autonomes. Les flux de travail HealthOmics sont compatibles avec S3 et le magasin de séquences et de références HealthOmics. Les magasins de séquences et de références HealthOmics peuvent être utilisés avec les flux de travail HealthOmics, AWS Batch et d'autres solutions informatiques.
Magasins de données
-
Qu’est-ce que les magasins de données HealthOmics ?
HealthOmics propose deux types de magasins de données : les magasins centrés sur les objets et les magasins interrogeables. Les magasins axés sur les objets sont le magasin de références et le magasin de séquences. Ils sont conçus pour stocker et organiser les fichiers moléculaires de manière rentable. Les magasins interrogeables sont le magasin de variantes et le magasin d'annotations. Ils sont conçus pour transformer de manière rentable les données de variantes et d'annotations en un magasin optimisé pour les requêtes et les cohortes. Ensemble, ces magasins sont conçus pour fournir un stockage, une interrogation, une cohorte et une extraction d'échantillons FAIR (trouvables, accessibles, interopérables, réutilisables) à l'échelle du pétaoctet.
-
Comment les magasins de données HealthOmics m'aident-ils à réduire les coûts ?
Les magasins de données HealthOmics permettent de réaliser des économies de différentes manières. Le magasin de séquences utilise la hiérarchisation et la compression axées sur l'utilisation pour réduire les coûts de stockage des objets qui n'ont pas été consultés depuis 30 jours. Cela peut permettre de réaliser des économies importantes par rapport au stockage d'objets AWS traditionnel.
Les magasins de variantes et d'annotations HealthOmics sont des magasins Zéro ETL, vous ne payez donc que pour le stockage et les données scannées lors de la requête. Les économies sont réalisées en supprimant le coût de l'ETL et en séparant les données de variantes et d'annotations afin que les données de variantes n'aient pas à être répliquées lorsque l'on souhaite modifier les annotations. En outre, étant donné que les magasins de variantes sont partitionnés en fonction des informations d'échantillon, les requêtes basées sur des échantillons analysent moins de données, ce qui permet de réaliser de nouvelles économies en aval.
-
Quels types de données puis-je stocker dans les magasins de données HealthOmics ?
Chaque magasin de données est conçu pour différents types de données. Les magasins de références HealthOmics prennent en charge les fichiers FASTA. Les magasins de séquences HealthOmics prennent en charge les fichiers FASTQ, uBAM, BAM et CRAM. Les magasins de variantes prennent en charge l'extraction de données à partir de fichiers VCF. Les magasins d'annotations prennent en charge l'extraction de données depuis GFF, TSV, CSV, VCF.
-
Quelle quantité de données puis-je stocker dans les magasins de données HealthOmics ?
Le volume total de données et le nombre d'objets que vous pouvez stocker dans AWS HealthOmics sont pratiquement illimités. Bien que chaque magasin dispose de quotas ajustables quant à la taille et au nombre de fichiers pris en charge, les fichiers peuvent continuer à être ajoutés selon les besoins, les clients stockant régulièrement des dizaines de pétaoctets dans un magasin.
-
Dans quelle mesure les magasins de données HealthOmics sont-ils fiables ?
Les magasins de données HealthOmics s'appuient sur la durabilité et la résilience d'Amazon S3, qui incluent des objets stockés de manière redondante sur plusieurs appareils et zones de disponibilité dans une Région AWS. Le magasin de séquences préserve et surveille l'identité sémantique des objets en veillant à ce que le contenu du fichier soit préservé tout au long des cycles d'activation et d'archivage.
-
Comment intégrer les magasins de séquences à mes outils d'analytique ?
Les magasins de séquences HealthOmics peuvent être intégrés directement à la plupart des outils analytiques via l'URI d'accès S3 pour les objets ou à l'aide d'outils complémentaires. Chaque objet stocké dans le magasin de séquences possède un URI S3 unique qui peut être utilisé pour le lire sur la plupart des systèmes compatibles S3. Si un système nécessite une interface basée sur des fichiers, Mountpoint for S3 peut être utilisé pour rendre un préfixe d'ensemble de lecture ou de stockage de séquences disponible sous forme de fichier monté à des fins de lecture. Si des personnalisations sont nécessaires, les intégrations peuvent être effectuées à l'aide du SDK d'Amazon ou du gestionnaire de transferts HealthOmics.
-
Comment le magasin de séquences se compare-t-il aux autres solutions de stockage AWS ?
Le magasin de séquences HealthOmics est conçu pour stocker des données moléculaires statiques qui sont consultées périodiquement et fréquemment. Le magasin de séquences intègre une compression et une hiérarchisation, tout en intégrant une mise à l'échelle de lecture d'objets basée sur S3. Il convient donc aux données de toutes tailles avec différents niveaux de fréquence d'accès, de l'utilisation quotidienne à l'utilisation annuelle. Chaque ingestion crée un nouveau jeu de lecture et le magasin de séquences est facturé pour une durée de stockage minimale de 30 jours. Il n'est donc pas destiné aux fichiers temporaires, aux brouillons ni aux fichiers fréquemment mis à jour.
Amazon S3 est idéal pour les fichiers dynamiques qui changent fréquemment, les fichiers dont la durée de vie est courte et pour les fichiers non moléculaires qui ne répondent pas aux formats pris en charge. Pour les fichiers qui doivent être conservés pour des raisons d'archivage des données et de conformité, mais dont les besoins d'accès sont très faibles, Amazon S3 Glacier propose différentes options de stockage.
Sécurité et confidentialité
-
Est-ce que AWS HealthOmics est un service éligible HIPAA ?
Oui, AWS HealthOmics est un service éligible HIPAA. Si vous stockez des données de santé protégées (PHI) sur AWS, vous êtes tenu d'avoir un BAA. Vous pouvez rapidement conclure un BAA en ligne à l'aide d'AWS Artifact.
-
Quelles sont les certifications de sécurité et de conformité dont dispose HealthOmics ?
Des auditeurs tiers évaluent la sécurité et la conformité d'AWS HealthOmics dans le cadre de plusieurs programmes de conformité AWS. Cela inclut HIPAA, FedRAMP et d'autres. Consultez la liste complète des validations de conformité ici.