Beim 1000 Genomes-Projekt handelt es sich um eine internationale Kooperation, die den bisher detailliertesten Katalog humangenetischer Variationen erstellt hat, einschließlich SNPs, struktureller Varianten und deren Haplotyp-Kontext. In der Schlussphase des Projekts wurden über 2500 Personen aus 26 verschiedenen Populationen auf der ganzen Welt sequenziert und eine integrierte Zusammenstellung von phasierten Haplotypen mit mehr als 80 Millionen Varianten für diese Personen produziert.
Der Amazon-Spiegel enthält den vollständigen Datensatz des Projekts. Die Daten können unter s3.amazonaws.com/1000genomes eingesehen werden.
Weitere Informationen finden Sie unter http://www.1000genomes.org. Falls Sie Fragen dazu haben, senden Sie eine E-Mail an info@1000genomes.org.
AWS stellt die Daten des 1000 Genomes-Projekts der Öffentlichkeit kostenlos zur Verfügung. Öffentliche Datensätze in AWS stellen einen zentralen Speicherort für öffentliche Daten dar, die in Amazon Simple Storage Service (Amazon S3) gehostet werden. Auf die Daten kann über AWS-Services wie Amazon Elastic Compute Cloud (Amazon EC2) und Amazon Elastic MapReduce (Amazon EMR) reibungslos zugegriffen werden, die Organisationen mit den überaus skalierbaren Datenverarbeitungsressourcen versorgen, die zum Auswerten dieser großen Datensammlungen benötigt werden. AWS speichert die öffentlichen Datensätze für die Forschungswelt kostenlos. Forscher zahlen nur für die zusätzlichen AWS-Ressourcen, die für eine weitere Verarbeitung oder Analyse der Daten benötigt werden. Weitere Informationen zu Öffentlichen Datensätzen in AWS.
Die neuesten Daten des 1000-Genome-Projekts sind im Bucket 1000genomes Amazon S3 öffentlich verfügbar.
Sie können auf die Daten über einfache HTTP-Anforderungen zugreifen oder die AWS SDKs für Sprachen wie Ruby, Java, Python, .NET und PHP einsetzen.
Forscher können mit dem Cloud Computing-Service Amazon EC2 tief in diese Daten vordringen, und zwar ohne den üblichen Investitionsaufwand, der für das Arbeiten mit Daten in diesem Maßstab erforderlich ist. AWS bietet zudem verschiedene Orchestrierungs- und Automatisierungsservices, mit deren Hilfe Teams ihre Ergebnisse anderen zur Verfügung stellen können.
Dadurch, dass die Daten in einem Bucket in Amazon S3 zur Verfügung stehen, können Kunden die Informationen mithilfe von Hadoop über Amazon Elastic MapReduce auswerten und in den Genuss des wachsenden Angebots an Tools für die Ausführung bioinformatischer Auftragsabläufe wie CloudBurst und Crossbow kommen.
NIH National Center for Biotechnology Information (NCBI), eine Abteilung der National Library of Medicine bei den NIH:
- ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
- ftp6.ncbi.nlm.nih.gov (für IP6-Zugriff)
- 1000 Genomes : NCBI/NLM/NIH (über Aspera)
European Bioinformatics Institute (EMBL-EBI), mit Unterstützung vom Wellcome Trust:
Lehrkräfte, Forscher und Studenten können kostenlose Guthaben beantragen, um die Cloud Computing-Plattform von AWS sowie öffentliche Datensätze wie die 1000 Genomes-Projektdaten zu nutzen. Wenn Sie einen Genomik-Workshop veranstalten oder an einem Forschungsprojekt arbeiten, das die Datenmenge des 1000 Genomes-Projekts nutzen könnte, können Sie sich für ein AWS-Stipendium bewerben.