Workflows

  • Healthomics bietet zwei Arten von Workflows: private Workflows und Ready2Run-Workflows. Private Workflows ermöglichen es Ihnen, Ihre eigenen Bioinformatik-Skripts mitzubringen, die in den am häufigsten verwendeten Workflow-Sprachen geschrieben sind. Ready2Run-Workflows sind vorgefertigte Bioinformatik-Pipelines, die auf gängigen Branchenanalysen basieren und Ihnen einen schnellen Einstieg ermöglichen, ohne Code schreiben zu müssen. 

  • Private Workflows von Healthomics können in Nextflow, WDL und CWL geschrieben werden. Informationen zur unterstützten Version finden Sie in der Dokumentation.

  • Healthomics bietet eine Vielzahl von Ready2Run-Workflows, die von GATK und AlphaFold des Broad Institute bis hin zu Workflows von Drittanbietern wie NVIDIA, Element Biosciences, Sentieon und Ultima reichen. Die vollständige Liste der verfügbaren Ready2Run-Workflows finden Sie hier.

  • Ja, Healthomics kann bioFMS wie NVIDIA NIMs, AlphaFold und ESMFold ausführen. Sie können mehrere bioFMS innerhalb eines Workflows orchestrieren und so Pipelines für die Arzneimittelforschung in großem Maßstab erschließen. Beispiele für Workflows zur Wirkstoffforschung, die bioFMS verwenden, finden Sie im Workflow-Repository zur Wirkstoffforschung in GitHub.

  • Um Ihren ersten privaten Workflow auszuführen, benötigen Sie ein in Nextflow, WDL oder CWL geschriebenes Workflow-Skript. Darüber hinaus müssen alle Tools und Abhängigkeiten containerisiert und in einem privaten ECR-Repository gespeichert werden. Eingabedaten können in S3 oder aus dem Healthomics-Sequenzspeicher bereitgestellt werden.

  • Sie können private Workflow-Ressourcen mit Ausführungsgruppen verwalten. Mithilfe von Ausführungsgruppen können Sie die maximale Anzahl gleichzeitiger Ausführungen, die maximale Ausführungsdauer und die vCPUs und GPUs der der Ausführungsgruppe zugewiesenen Ausführungen steuern. Darüber hinaus bietet Healthomics Tools zur richtigen Dimensionierung wie Run Analyzer, mit denen Sie Ihre Ressourcenzuweisungen optimieren und die Ausführungseffizienz verbessern können. 

  • Private Workflows von Healthomics bieten zwei Ausführungsspeicheroptionen: statischen Ausführungsspeicher und dynamischen Ausführungsspeicher. Beim statischen Ausführungsspeicher wird zu Beginn der Ausführung ein Dateisystem mit fester Größe bereitgestellt, das von Aufgaben für die Zwischenspeicherung von Dateien während der Ausführung verwendet wird. Wenn die Ausführung abgeschlossen ist, werden die Ausführungsausgaben nach S3 exportiert und die Bereitstellung des Dateisystems wird aufgehoben. Dynamischer Ausführungsspeicher wird während der Dauer der Ausführung automatisch entsprechend Ihren Speicheranforderungen hoch- und herunterskaliert und bietet schnellere Bereitstellungszeiten. Dynamischer Ausführungsspeicher wird für schnelle, iterative Entwicklungszyklen und kleine Pipelines mit kurzer Laufzeit empfohlen. Statischer Ausführungsspeicher ist für große Workflows geeignet. Dieser bietet einen höheren Dateisystemdurchsatz pro GiB und niedrigere Kosten pro GiB als dynamischer Ausführungsspeicher.

  • Healthomics-Workflows liefern während des Laufs Echtzeitprotokolle an CloudWatch und zusätzliche Protokolle, nachdem die Ausführung abgeschlossen ist. Sie können EventBridge verwenden, um automatische Benachrichtigungen für von Ihnen definierte Bedingungen zu erstellen. 

  • Ja, Healthomics-Workflows können mithilfe des Features zur gemeinsamen Nutzung von Ressourcen für verschiedene AWS-Konten in derselben Region freigegeben werden. Um einen Workflow freizugeben, benötigen Sie die Konto-ID des AWS-Kontos, für das Sie die Freigabe erteilen möchten. Wenn Sie einen Workflow freigeben, wird eine Freigabe-Einladung an den Empfänger gesendet. Der Empfänger muss die Freigabeanfrage akzeptieren, bevor er den gemeinsamen Workflow ausführen kann. Der Workflow-Besitzer kann den Zugriff jederzeit widerrufen und der Empfänger kann den freigegebenen Workflow nicht ändern oder löschen. 

  • Dateien, die als Ausführungseingaben von S3 und dem Healthomics-Sequenzspeicher verwendet werden, erhalten ein eindeutiges ETag zur Dateiidentifikation. Containern, die in Ihrem privaten ECR-Repository gespeichert sind, wird ein eindeutiger Hash zugewiesen. Workflows sind unveränderlich, sobald sie erstellt wurden, um die vollständige Reproduzierbarkeit der Ausführungen zu gewährleisten. Jeder Ausführung wird eine global eindeutige UUID zugewiesen, die verwendet werden kann, um jede einzelne Ausführung, die Ausführungsergebnisse und die zugehörigen Protokolle zu identifizieren. Diese UUID kann mit Ihren internen Laborinformationssystemen (LIMS), elektronischen Labornotizbüchern (ELN) oder Probenmanagementsystemen verbunden werden, um die Anforderungen an Rückverfolgbarkeit und Reproduzierbarkeit zu erfüllen.  

  • Kunden können Workflows und Datenspeicher zusammen oder als eigenständige Lösungen verwenden. HealthOmics-Workflows sind mit S3 und dem HealthOmics-Sequenz- und Referenzspeicher kompatibel. Die Healthomics-Sequenz- und Referenzspeicher können mit Healthomics-Workflows, AWS Batch und anderen Rechenlösungen verwendet werden.

Datenspeicher

  • HealthOmics bietet zwei Arten von Datenspeichern: objektorientierte Speicher und abfragbare Speicher. Die objektorientierten Speicher sind die Referenz- und Sequenzspeicher. Sie sind für die kostengünstige Speicherung und Organisation molekularer Dateien konzipiert. Die abfragbaren Speicher sind der Varianten- und der Annotation-Speicher. Sie sind so konzipiert, dass sie Varianten- und Annotationsdaten kostengünstig in einen optimierten Speicher für Abfragen und Kohortierungen umwandeln. Zusammen sind diese Speicher so konzipiert, dass sie eine FAIRE (auffindbare, zugängliche, interoperable, wiederverwendbare) Probenspeicherung, -abfrage, -kohortierung und -abruf im Petabyte-Maßstab ermöglichen. 

  • Healthomics-Datenspeicher sorgen auf viele verschiedene Arten für Einsparungen. Der Sequenzspeicher verwendet nutzungsgesteuertes Tiering und Komprimierung, um die Speicherkosten für Objekte zu senken, auf die seit 30 Tagen nicht zugegriffen wurde. Dies kann im Vergleich zu herkömmlichem AWS-Objektspeicher zu erheblichen Einsparungen führen.

    Die Healthomics-Variante und die Annotationsspeicher sind Null-ETL-Speicher, sodass Sie nur für den Speicher und die bei der Abfrage gescannten Daten bezahlen. Die Einsparungen werden durch den Wegfall der ETL-Kosten und durch die Trennung der Varianten- und Annotationsdaten erzielt, sodass Variantendaten nicht repliziert werden müssen, wenn Annotationen geändert werden sollen. Da die Variantenspeicher außerdem nach den Probeninformationen partitioniert sind, scannen stichprobenbasierte Abfragen weniger Daten, was zu weiteren Kosteneinsparungen im Downstream-Bereich führt.

  • Jeder Datenspeicher ist für unterschiedliche Datentypen konzipiert. Healthomics-Referenzspeicher unterstützen FASTA-Dateien. Healthomics-Sequenzspeicher unterstützen FASTQ-, uBAM-, BAM- und CRAM-Dateien. Variantenspeicher unterstützen das Extrahieren von Daten aus VCF-Dateien. Annotationsspeicher unterstützen das Extrahieren von Daten aus GFF, TSV, CSV und VCF.

  • Das Gesamtvolumen an Daten und die Anzahl der Objekte, die Sie in AWS Healthomics speichern können, sind praktisch unbegrenzt. In jedem Speicher gibt es zwar anpassbare Kontingente für die unterstützten Dateigrößen und -zahlen, aber Dateien können weiterhin nach Bedarf hinzugefügt werden, wobei Kunden routinemäßig 10 Petabyte in einem Speicher speichern.

  • Healthomics-Datenspeicher basieren auf der Haltbarkeit und Ausfallsicherheit von Amazon S3, zu denen auch Objekte gehören, die redundant auf mehreren Geräten und Availability Zones in einer AWS-Region gespeichert sind. Der Sequenzspeicher bewahrt und überwacht die semantische Identität von Objekten und stellt sicher, dass der Inhalt der Datei während der Aktivierungs- und Archivierungszyklen erhalten bleibt.

  • Healthomics-Sequenzspeicher können direkt in die meisten Analytik-Tools integriert werden, entweder über den S3-Zugriffs-URI für Objekte oder mithilfe von Begleit-Tools. Jedes im Sequenzspeicher gespeicherte Objekt hat eine eindeutige S3-URI, die verwendet werden kann, um es mit den meisten S3-kompatiblen Systemen zu lesen. Wenn ein System eine dateibasierte Schnittstelle benötigt, kann Mountpoint für S3 verwendet werden, um ein Lesesatz- oder Sequenzspeicherpräfix als gemountete Datei zum Lesen verfügbar zu machen. Wenn Anpassungen erforderlich sind, können Integrationen mit dem Amazon SDK oder dem Healthomics Transfer Manager vorgenommen werden.

  • Der HealthOmics-Sequenzspeicher ist für die Speicherung statischer molekularer Daten konzipiert, auf die regelmäßig und häufig zugegriffen wird. Der Sequenzspeicher verfügt über integrierte Komprimierung und Tiering sowie über eine auf S3 basierende Skalierung des Objekt-Lesens, sodass er für Daten aller Größenordnungen mit unterschiedlichen Zugriffshäufigkeiten geeignet ist, vom täglichen bis hin zum jährlichen Gebrauch. Bei jeder Erfassung wird ein neuer Lesesatz erstellt, und der Sequenzspeicher berechnet eine Mindestspeicherdauer von 30 Tagen, sodass er nicht für temporäre Dateien, Scratch-Dateien oder häufig aktualisierte Dateien geeignet ist.

    Amazon S3 eignet sich hervorragend für dynamische Dateien, die sich häufig ändern, kurzlebig sind und für nichtmolekulare Dateien, die nicht den unterstützten Formaten entsprechen. Für Dateien, die aus Gründen der Datenarchivierung und Compliance verwaltet werden müssen, aber nur sehr geringe Zugriffsanforderungen haben, bietet Amazon S3 Glacier verschiedene Speicheroptionen.

Sicherheit und Datenschutz