AWS HealthOmics Features

AWS HealthOmics erleichtert das Speichern, Abfragen und Analysieren von Genom-, Transkriptom- und anderen Omics-Daten und ermöglicht die Gewinnung von Erkenntnissen aus diesen Daten. AWS HealthOmics vereinfacht und beschleunigt den Prozess der Speicherung und Analyse von Multiomics-Informationen für Forschung und klinische Anwendungen, sodass Sie sich darauf konzentrieren können, detailliertere Erkenntnisse aus Ihren Daten zu gewinnen.

Mit dem AWS-HealthOmics-Speicher können Sie Petabytes an Omics-Daten effizient und kostengünstig speichern und so wissenschaftliche Entdeckungen im Populationsmaßstab ermöglichen. Private AWS-HealthOmics- und Ready2Run-Workflows automatisieren die Bereitstellung und Skalierung der Datenverarbeitungsinfrastruktur, sodass Sie bioinformatische Analysepipelines im Produktionsmaßstab ausführen können und weniger Zeit für die Verwaltung der Infrastruktur müssen und mehr Zeit für die Forschung aufwenden können. Amazon HealthOmics enthält eine Sammlung von Ready2Run-Workflows, die vorkonfiguriert sind und pro Lauf berechnet werden. Die AWS-HealthOmics-Analytisen vereinfachen die Aufbereitung von Omics-Daten für multimodale Analysen und ermöglichen es Ihnen, Multiomics- und Gesundheitsdaten zusammenzuführen und eine gezieltere und personalisierte Therapie zu entwickeln. Diese Feature sind auch HIPAA-konform.

Allgemeines

Der AWS-HealthOmics-Speicher ist mit bioinformatischen Dateiformaten wie FASTQ, BAM und CRAM kompatibel und ermöglicht es Ihnen, diese Daten effizient und kostengünstig zu speichern, zu entdecken und zu teilen. Diese Dateiformate werden als Lesesatzobjekte in einem Sequenzspeicher gespeichert. Sie können auch Referenzgenome im FASTA-Format speichern. Daten werden als unveränderliche Objekte mit eindeutigen Bezeichnern importiert, um Workloads zu unterstützen, die eine strenge Datenprovenienz erfordern. Der Zugriff auf einzelne Datenobjekte, einschließlich Referenzen und Lesesatzobjekte, kann mithilfe von Tags und attributbasierten Zugriffskontrollen über AWS Identity and Access Management (IAM) kontrolliert werden. Um die langfristigen Speicherkosten zu senken, werden Datenobjekte, auf die innerhalb von 30 Tagen nicht zugegriffen wurde, automatisch in eine Archivspeicherklasse verschoben. Archivierte Objekte können jederzeit mit einem API-Aufruf reaktiviert werden.

AWS-HealthOmics unterstützt Sie bei der Ausführung von Bioinformatik-Workflows im großen Maßstab. Sie können Ready2Run-Workflows wählen oder Ihre eigenen privaten Workflows verwenden, um Ihre biologischen Daten zu verarbeiten, ohne die zugrunde liegende Infrastruktur verwalten zu müssen.

Ready2Run-Workflows sind vorgefertigte Workflows, die von branchenführenden Drittanbieter-Softwareunternehmen wie Sentieon, Inc., NVIDIA und Element Biosciences zusammen mit gängigen Open-Source-Pipelines wie dem GATK-Best-Practice-Workflow des Broad Institute und AlphaFold zur Vorhersage der Proteinstruktur entwickelt wurden. Sie können einfach Ready2Run-Workflows verwenden, um Ihre Daten zu verarbeiten, ohne die Softwaretools oder Workflow-Skripts verwalten zu müssen. Ready2Run-Workflows werden pro Lauf mit einem vorab festgelegten Preis abgerechnet.

Private Workflows ermöglichen es Ihnen, Ihre eigenen Workflow-Skripts mitzubringen, die in Workflow Description Language (WDL) oder Nextflow, den beiden am häufigsten verwendeten Workflow-Sprachen, geschrieben sind. Sie können diese privaten Workflows mit einer einzigen Ausführung ausführen, die als Run bezeichnet wird. Für private Workflows zahlen Sie nur für das, was Sie nutzen, und werden für die verschiedenen Typen von Omics-Instances und die Speicherung von Ausführungen separat abgerechnet. Alle Aufgaben in Ihrem Workflow werden der Instance zugeordnet, die am besten zu Ihren definierten Ressourcen passt.

Mit AWS HealthOmics können Sie genomische Datenformate wie (g)VCF, GFF3 und TSV/CSVs schnell in Apache-Iceberg-Tabellen einlesen und umwandeln. Sie können die Genomikdaten über Analytik-Services wie Amazon Athena zugänglich machen. Sie können sowohl Variantendaten (Daten aus einer einzelnen Probe) als auch Annotationsdaten (bekannte Informationen über Positionen im Genom) umwandeln. Mit AWS Lake Formation können Sie den Zugriff auf Analytics-Speicher steuern und so die Durchführung von Abfragen über verschiedene Datenquellen hinweg erleichtern, während Sie gleichzeitig eine feinkörnige Zugriffskontrolle implementieren. So können Sie zum Beispiel die Genomdaten von Personen sicher mit ihrer medizinischen Vorgeschichte aus Amazon HealthLake kombinieren, die frühere Behandlungen, Medikamente oder Laborberichte umfassen kann, um die Präzisionsmedizin zu erleichtern.

AWS HealthOmics erleichtert Forschern die Zusammenarbeit durch Markieren, Festlegen von Berechtigungen und die sichere Freigabe von Daten für Mitarbeiter. Dies vereinfacht es Ihnen, Ihre Omics-Daten auffindbar, zugänglich, interoperabel und wiederverwendbar (findable, accessible, interoperable, and reusable; FAIR) zu machen. Mit Domain-spezifischen Metadaten können Sie AWS-HealthOmics-Datenspeicher mit anderen Omics- und Gesundheitsdaten verknüpfen, um Multiomics- und multimodale Analysen zu erleichtern. Aus Gründen der Datenherkunft archiviert AWS HealthOmics alle Metadaten der Workflow-Ausführung in CloudWatch-Protokollen und ermöglicht es Ihnen, diese Informationen einfach abzufragen. Sie können diese Informationen zur langfristigen Speicherung aus CloudWatch nach S3 exportieren. Anhand dieser Informationen können Sie nachverfolgen, welche Algorithmen mit Ihren Eingabedaten verwendet wurden, um Ihre Ausgabedaten für Ihre Compliance-Anforderungen zu generieren.

Sicherheit, Datenschutz und Compliance

AWS HealthOmics ist HIPAA-fähig. Sie können attributbasierte Kontrollen anwenden, um einen fein abgestimmten Datenzugriff und Governance zu definieren. Umfassende Protokollierung und Provenance-Erfassung sind integriert, damit Sie wissen, auf welche Daten zugegriffen wurde, wer darauf zugegriffen hat und wann.