Diese Anleitung hilft Benutzern, genomische, klinische, Mutations-, Expressions- und Bildgebungsdaten für umfangreiche Analysen vorzubereiten und interaktive Abfragen für einen Data Lake durchzuführen. Es umfasst die Automatisierung von Infrastructure as Code (IaC), kontinuierliche Integration und kontinuierliche Bereitstellung (CI/CD) für schnelle Iterationen, eine Ingestion-Pipeline zum Speichern und Transformieren der Daten sowie Notebooks und Dashboards für interaktive Analysen. Wir demonstrieren auch, wie Genomik-Varianten- und Annotationsdaten gespeichert und mit AWS HealthOmics, Amazon Athena und Amazon SageMaker Notebooks abgefragt werden. Diese Anleitung wurde in Zusammenarbeit mit Bioteam erstellt.
Architekturdiagramm
-
Architektur
-
CI/CD
-
Architektur
-
Schritt 1
Erfassen, formatieren und katalogisieren Sie Daten aus dem The Cancer Genome Archive (TCGA). Die Rohdaten werden über die TCGA-API aus dem Register für offene Daten in AWS (RODA) bezogen. Die Daten werden in einem an AWS-Glue-Extract-Transform-and-Load-Auftrag (ETL) transformiert und von einem AWS Glue Crawler katalogisiert. Dadurch stehen die Daten für Abfragen in Athena zur Verfügung.Schritt 2
Die Daten aus dem The Cancer Imaging Atlas (TCIA) werden aufgenommen, formatiert und katalogisiert. Die Rohdaten werden über die TCIA-API aus RODA bezogen. Die Daten werden in einem AWS Glue-ETL-Auftrag transformiert und von einem AWS Glue Crawler katalogisiert. Bildpositionen können mit SageMaker-Notebooks abgefragt und angezeigt werden.
Schritt 3
VCF-Daten aus dem One Thousand Genomes-Projekt, eine Proben-VCF und ClinVar Annotation VCF werden in Amazon Omics Variant und Annotation Stores aufgenommen und als Tabellen in Lake Formation zur Verfügung gestellt.
Schritt 4
Forschungswissenschaftler analysieren die multimodalen Daten über eine visuelle Schnittstelle in QuickSight. Die Daten werden in einer SPICE-Datenbank (Super-fast, Parallel, In-Memory Calculation Engine) zwischengespeichert, wodurch die Abfrageleistung optimiert wird.
Schritt 5
Datenwissenschaftler analysieren die Daten mit Code mithilfe von Jupyter-Notebooks, die über SageMaker-Notebook-Umgebungen bereitgestellt werden.
-
CI/CD
-
Schritt 1
Erstellen Sie ein AWS-CodeBuild-Projekt, das das setup.sh-Skript enthält. Dieses Skript erstellt die verbleibenden AWS-CloudFormation-Stacks, Code-Repositories und Code.Schritt 2
Der Landing Zone-Stack (zone) erstellt das AWS-CodeCommit-Pipe-Repository. Nachdem das Setup des Landing Zone-Stacks (zone) abgeschlossen ist,überträgt das setup.sh-Skript Quellcode an das CodeCommit-Pipe-Repository.Schritt 3
Der Deployment-Pipeline-Stack (pipe) erstellt das CodeCommit-Code-Repository, ein Amazon-CloudWatch-Ereignis und die AWS-CodePipeline-Code-Pipeline. Nachdem das Setup des Bereitstellungs-Pipeline-Stacks (Pipe) abgeschlossen ist,überträgt das setup.sh-Skript Quellcode an das CodeCommit-Code-Repository.
Schritt 4
Die CodePipeline-(Code)-Pipeline stellt den Codebase (Genomik und Bildgebung) CloudFormation-Stacks bereit. Nachdem die CodePipeline-Pipelines ihre Einrichtung abgeschlossen haben, umfassen die in Ihrem Konto bereitgestellten Ressourcen Amazon-Simple-Storage-Service-Buckets (Amazon S3) zum Speichern von Objektzugriffsprotokollen, Build-Artefakten und Daten in Ihrem Data Lake; CodeCommit-Repositories für Quellcode; ein CodeBuild-Projekt zum Erstellen von Code-Artefakten; eine CodePipeline-Pipeline zum Automatisieren von Builds und Bereitstellen von Ressourcen; AWS-Glue-Beispielaufträge, Crawler und ein Datenkatalog sowie eine Amazon SageMaker-Jupyter-Notebook-Instance.Ein Amazon Omics Reference Store, Variant Store und Annotation Store wird bereitgestellt und eine Sample Variant Call File (VCF), eine Untergruppe 1000 Genomes VCF und ClinVar Annotation VCF wird zur Analyse eingelesen. Mit AWS Lake Formation kann ein Data-Lake-Administrator den Zugriff auf Daten in Omics Variant und Annotation Stores mit Amazon Athena und SageMaker ermöglichen. Ein Amazon Omics Reference Store, Variant Store und Annotation Store wird bereitgestellt, um öffentlich verfügbare Varianten- und Annotationsdaten zu speichern und für Abfragen und Analysen verfügbar zu machen.
Schritt 5
Der Imaging-Stack erstellt einen Hyperlink zu einem CloudFormation-Schnellstart, der gestartet werden kann, um den Amazon-QuickSight-Stack bereitzustellen. Der QuickSight-Stack erstellt Identity and Access Management (IAM) und QuickSight-Ressourcen, die für die interaktive Erkundung des Multi-omics-Datensatzes erforderlich sind.
Well-Architected-Säulen
Das AWS-Well-Architected-Framework hilft Ihnen, die Vor- und Nachteile der Entscheidungen zu verstehen, die Sie beim Aufbau von Systemen in der Cloud treffen. Die sechs Säulen des Frameworks ermöglichen es Ihnen, architektonische bewärhte Methoden für die Entwicklung und den Betrieb zuverlässiger, sicherer, effizienter, kostengünstiger und nachhaltiger Systeme zu erlernen. Mit dem AWS-Well-Architected-Tool, das kostenlos in der AWS-Managementkonsole verfügbar ist, können Sie Ihre Workloads anhand dieser bewährten Methoden überprüfen, indem Sie eine Reihe von Fragen für jede Säule beantworten.
Das obige Architekturdiagramm ist ein Beispiel für eine Lösung, die unter Berücksichtigung der bewährten Methoden von Well-Architected erstellt wurde. Um eine vollständige Well-Architected-Lösung zu erhalten, sollten Sie so viele bewährte Methoden von Well-Architected wie möglich befolgen.
-
Operative Exzellenz
Diese Empfehlung verwendet CodeBuild und CodePipeline um alles zu erstellen, zu verpacken und bereitzustellen, was in der Lösung benötigt wird, um Variant Call Files (VCFs) zu erfassen und zu speichern und mit multimodalen und multiautomatischen Daten aus den Datensätzen des The Cancer Genome Atlas (TCGA) und The Cancer Imaging Atlas (TCIA) zu arbeiten. Die serverlose Aufnahme und Analyse von Genomikdaten wird anhand eines vollständig verwalteten Services demonstriert – Amazon Omics. Codeänderungen, die im CodeCommit-Repository der Lösung vorgenommen werden, werden über die mitgelieferte CodePipeline-Bereitstellungspipeline bereitgestellt.
-
Sicherheit
Diese Empfehlung verwendet rollenbasierten Zugriff mit IAM und alle Buckets haben Verschlüsselung aktiviert, sind privat und blockieren den öffentlichen Zugriff. Der Datenkatalog in AWS Glue ist verschlüsselt und alle von AWS Glue in Amazon S3 geschriebenen Metadaten sind verschlüsselt. Alle Rollen werden mit den geringsten Privilegien definiert und die gesamte Kommunikation zwischen den Services bleibt innerhalb des Kundenkontos. Administratoren können den Datenzugriff auf Jupyter-Notebook, Amazon Omics Variant Stores und AWS Glue Catalog vollständig über Lake Formation steuern. Der Datenzugriff auf Athena, SageMaker Notebook und QuickSight wird über bereitgestellte IAM-Rollen verwaltet.
-
Zuverlässigkeit
AWS Glue, Amazon S3, Amazon Omics und Athena sind alle serverlos und skalieren die Datenzugriffsleistung, wenn Ihr Datenvolumen wächst. AWS Glue stellt die für die Ausführung Ihrer Datenintegrationsaufgaben erforderlichen Ressourcen bereit, konfiguriert und skaliert sie. Athena ist serverlos damit Sie schnell Daten abfragen können, ohne Server oder Data Warehouses einrichten und verwalten zu müssen. Der QuickSight-SPICE-In-Memory-Speicher skaliert Ihre Datenexploration auf Tausende von Benutzern.
-
Leistung und Effizienz
Durch den Einsatz serverloser Technologien stellen Sie nur genau die Ressourcen bereit, die Sie benötigen. Jeder AWS-Glue-Auftrag stellt bei Bedarf einen Spark-Cluster bereit, um Daten zu transformieren, und hebt die Bereitstellung der Ressourcen auf, wenn er fertig ist. Wenn Sie sich entscheiden, neue TCGA-Datensätze hinzuzufügen, können Sie neue AWS-Glue-Aufträge und AWS-Glue-Crawler hinzufügen, die ebenfalls Ressourcen auf Abruf bereitstellen. Athena führt automatisch Abfragen parallel aus, wodurch die meisten Ergebnisse innerhalb von Sekunden ausgegeben werden. Amazon Omics optimiert die Leistung von Variantenabfragen im großen Maßstab durch die Umwandlung von Dateien in Apache Parquet.
-
Kostenoptimierung
Durch den Einsatz serverloser Technologien, die nach Bedarf skalieren, zahlen Sie nur für die Ressourcen, die Sie nutzen. Um die Kosten weiter zu optimieren, können Sie die Notebook-Umgebungen in SageMaker anhalten, wenn sie nicht verwendet werden. Das QuickSight-Dashboard wird ebenfalls über eine separate CloudFormation-Vorlage bereitgestellt. Wenn Sie also nicht beabsichtigen, das Visualisierungs-Dashboard zu verwenden, können Sie es auch nicht bereitstellen, um Kosten zu sparen. Amazon Omics optimiert die Kosten für die Speicherung von Variantendaten im großen Maßstab. Die Abfragekosten werden durch die Menge der von Athena gescannten Daten bestimmt und können durch das Schreiben entsprechender Abfragen optimiert werden.
-
Nachhaltigkeit
Durch die umfassende Nutzung von Managed Services und dynamischer Skalierung minimieren Sie die Umweltauswirkungen der Back-End-Services. Eine entscheidende Komponente für die Nachhaltigkeit ist die Maximierung der Nutzung von Notebook-Server-Instances. Sie sollten die Notebook-Umgebungen anhalten, wenn Sie sie nicht benutzen.
Weitere Erwägungen
Datentransformation
Diese Architektur entschied sich für AWS Glue für das Extract, Transform and Load (ETL), das zum Aufnehmen, Aufbereiten und Katalogisieren der Datensätze in der Lösung für Abfragen und Leistung erforderlich ist. Sie können bei Bedarf neue AWS Glue Jobs und AWS Glue Crawler hinzufügen, um neue Datensätze The Cancer Genome Atlas (TCGA) und The Cancer Image Atlas (TCIA) zu importieren. Sie können auch neue Aufträge und Crawler hinzufügen, um Ihre eigenen Datensätze aufzunehmen, aufzubereiten und zu katalogisieren.
Datenanalyse
Diese Architektur wählte SageMaker-Notebooks, um eine Jupyter-Notebook-Umgebung für die Analyse bereitzustellen. Sie können der bestehenden Umgebung neue Notizbücher hinzufügen oder neue Umgebungen erstellen. Wenn Sie RStudio den Jupyter-Notebooks vorziehen, können Sie RStudio auf Amazon SageMaker verwenden.
Datenvisualisierung
Diese Architektur entschied sich für QuickSight, um interaktive Dashboards für die Visualisierung und Erkundung von Daten bereitzustellen. Die Einrichtung des QuickSight-Dashboards erfolgt über eine separate CloudFormation-Vorlage. Wenn Sie also nicht beabsichtigen, das Dashboard zu verwenden, müssen Sie es nicht bereitstellen. In QuickSight können Sie Ihre eigenen Analysen erstellen, zusätzliche Filter oder Visualisierungen erkunden und Datensätze und Analysen mit Kollegen teilen.
Implementierungsressourcen
Dieses Repository schafft eine skalierbare Umgebung in AWS, um genomische, klinische, Mutations-, Expressions- und Bildgebungsdaten für umfangreiche Analysen vorzubereiten und interaktive Abfragen gegen einen Data Lake durchzuführen. Die Lösung zeigt, wie Sie 1) HealthOmics Variant Store und Annotation Store verwenden, um genomische Variantendaten und Annotationsdaten zu speichern, 2) serverlose Dateneingabepipelines für die multimodale Datenaufbereitung und Katalogisierung bereitstellen, 3) klinische Daten über eine interaktive Schnittstelle visualisieren und erforschen und 4) interaktive analytische Abfragen gegen einen multimodalen Data Lake mit Amazon Athena und Amazon SageMaker ausführen.
Es wird eine detaillierte Anleitung zum Experimentieren und zur Verwendung in Ihrem AWS-Konto bereitgestellt. Jede Phase der Erstellung der Anleitung, einschließlich Bereitstellung, Verwendung und Bereinigung, wird untersucht, um sie für die Bereitstellung vorzubereiten.
Der Beispielcode dient als Ausgangspunkt. Er ist branchenerprobt, präskriptiv, aber nicht endgültig, und ein Blick unter die Motorhaube, der Ihnen den Einstieg erleichtert.
Ähnliche Inhalte
Leitfaden für die multimodale Datenanalyse mit KI-Services für das Gesundheitswesen und ML-Services auf AWS
Mitarbeiter
BioTeam ist ein IT-Beratungsunternehmen für Biowissenschaften, das sich der Beschleunigung wissenschaftlicher Entdeckungen verschrieben hat, indem es die Lücke zwischen dem, was Wissenschaftler mit Daten tun wollen, und dem, was sie tun können, schließt. BioTeam arbeitet seit 2002 an der Schnittstelle von Wissenschaft, Daten und Technologie und verfügt über die interdisziplinären Fähigkeiten, Strategien, fortschrittliche Technologien und IT-Dienstleistungen anzuwenden, um die schwierigsten Probleme in Forschung, Technik und Betrieb zu lösen. Wir sind in der Lage, wissenschaftliche Anforderungen in leistungsstarke wissenschaftliche Datenökosysteme zu übersetzen und sind stolz auf unsere Fähigkeit, mit einer Vielzahl von führenden Unternehmen in der biowissenschaftlichen Forschung zusammenzuarbeiten, von Biotech-Startups bis zu den größten globalen Pharmaunternehmen, von Bundesbehörden bis zu akademischen Forschungseinrichtungen.
Haftungsausschluss
Der Beispielcode, die Softwarebibliotheken, die Befehlszeilentools, die Machbarkeitsnachweise, die Vorlagen oder andere zugehörige Technologien (einschließlich derjenigen, die von unseren Mitarbeitern bereitgestellt werden) werden Ihnen als AWS-Inhalte im Rahmen der AWS-Kundenvereinbarung oder der entsprechenden schriftlichen Vereinbarung zwischen Ihnen und AWS (je nachdem, was zutrifft) zur Verfügung gestellt. Sie sollten diese AWS-Inhalte nicht in Ihren Produktionskonten oder für Produktions- oder andere kritische Daten verwenden. Sie sind verantwortlich für das Testen, Sichern und Optimieren des AWS-Inhalts, z. B. des Beispielcodes, für die Verwendung in der Produktion auf der Grundlage Ihrer spezifischen Qualitätskontrollverfahren und -standards. Bei der Bereitstellung von AWS-Inhalten können AWS-Gebühren für die Erstellung oder Nutzung von kostenpflichtigen AWS-Ressourcen anfallen, z. B. für den Betrieb von Amazon-EC2-Instances oder die Nutzung von Amazon-S3-Speicher.
Verweise auf Services oder Organisationen von Drittanbietern in diesen Leitlinien bedeuten nicht, dass Amazon oder AWS eine Billigung, Förderung oder Zugehörigkeit zwischen Amazon oder AWS und dem Drittanbieter darstellt. Die Beratung durch AWS ist ein technischer Ausgangspunkt, und Sie können Ihre Integration mit Services von Drittanbietern anpassen, wenn Sie die Architektur bereitstellen.