Zoox nutzt AWS für skalierbares High Performance Computing zum schnellen Testen autonomer Fahrzeuge
2021
Zoox, ein unabhängiges Tochterunternehmen von Amazon und ein Unternehmen für autonomen Fahrzeuge, musste über seine eigne On-Premises-Infrastruktur hinausgehen, um Simulationen ausführen zu können, die die Sicherheit seiner Fahrzeuge bestätigte. Seine Simulationsworkloads waren für Bursts anfällig. Das bedeutete, dass Zoox eine größere Nachfrage für Rechenleistung erlebte, die die Kapazität seiner Maschinen überschreitete. Das Unternehmen hat sich entschieden, ein hybrides Infrastruktur-Modell zu erstellen und hat sich an Amazon Web Services (AWS) gewendet, um leistungsstärkeres Computing zur Unterstützung seiner interne Supercomputer-Cluster zu erwerben.
Durch die Nutzung von Amazon Elastic Compute Cloud (Amazon EC2) – das eine umfassende Rechnungslösung mit auswählbarem Prozessor, Speicher, Netzwerk, Betriebssystem und Anschaffungsmodell anbietet – und dem gleichzeitigen Slurm von Open-Source-Workload-Manager vom AWS-Partner SchedMD hat Zoox die Tests und die Entwicklung für große Datenmengen beschleunigt und seine schnelle Markteinführung verbessert. Bis zum Jahresende 2024 werden Hunderte von Petabytes an Daten auf AWS erwartet.
Wir können bis zu 1 000 Knoten in einer einzelnen AWS-Region einrichten und eine Aufgaben binnen Stunden ausführen, um schnell Ergebnisse bei kritischen Forschungs- und Entwicklungsexperimenten zu erhalten.
Conrad Herrmann
Staff Software Engineer, Zoox
Effizienter Ausbau der Rechenleistung
Zoox, gegründet im Jahr 2014, baut eine Flotte von autonomen, symmetrischen, batterieelektrischen Fahrzeugen, die für seinen beliebten Fahrt-Service verwendet werden. Die Flotte soll den Stau und die Verschmutzung in Stadtgebieten verringern. Die Fahrzeuge priorisieren die Erfahrung des Passagiers gegenüber der des Fahrers; die Sitze fördern das gesellschaftliche Miteinander, weil die Passagiere sich gegenübersitzen. Jedes bidirektionale Fahrzeug kann bei einem Parkplatz einparken, die Passiere aussteigen lassen und so rückwärts ausparken, als würde es vorwärts fahren. Die Simulation von vielfältigen und verschiedenen Szenarien ist für die Entwicklung und Produktion dieser Fahrzeuge kritisch, um Ihre Sicherheit zu bestätigen.
Zoox verfügt über einen On-Premises-Cluster, der einen Großteil der erforderlichen Rechenleistung für verschiedene Workloads bereitstellt – meistens Simulationen, aber auch Machine Learning, um sowohl die Wahrnehmungsfähigkeiten als auch die Datenerfassung zu verbessern. Jedoch haben die Workloads bei der Entwicklung dramatisch geschwankt, Manchmal wurde die Kapazität seiner On-Premises-Cluster überschritten. Die Skalierung davon ist schwierig. Zoox musste die Anzahl seiner Maschinen erhöhen, um die Menge der Rechenleistung verarbeiten zu können.
Das Unternehmen hat sich für AWS entschieden, weil Zoox dadurch die Skalierbarkeit und Flexibilität erhalten würde, nur die Rechenleistung zu verwenden und dafür zu bezahlen, wenn es nötig ist. Zoox würde dann in der Lage sein, seine Ressourcen in Richtung innovative Projekte umzuleiten, um komplizierte technische Herausforderungen zu meistern. „Wir nutzen AWS, um mit spezialisierten Workloads umzugehen, die den Daten nahe sein müssen“, sagt Conrad Herrmann, Staff Software Engineer bei Zoox. Der Workload-Manager von SchedMD, Slurm (der die Geschwindigkeit, Durchsatz und Ressourcenverbrauch von missionskritischen Workloads für leistungsstarkes Computing und künstlicher Intelligenz optimiert) verwendet ebenfalls AWS. „Es gibt nur eine Handvoll Aufgaben-Controller, die die Leute in der leistungsstarken Computing-Welt verwenden. Slurm ist ein alter Dauerbrenner“, sagt Herrmann. „Wir waren sehr zuversichtlich, dass dies für uns funktionieren würde.“
Die Nutzung eines hybriden Modells zur Erhöhung der Geschwindigkeit, Zusammenarbeit und zur Kosteneinsparung
Zum Anfang begann Zoox mit dem Testen eines Workloads auf AWS, das Daten aus Amazon Simple Storage Service (Amazon S3) extrahiert. Die Kunden können diesen Workload verwenden, um eine beliebige Datenmengen für eine Reihe von Anwendungsfällen zu speichern und zu schützen. Anschließend hat Zoox experimentelle Versionen seiner Software erstellt, wie eine Machine-Learning-Aufgabe, die auf AWS ausgeführt werden soll. Dadurch wird sie an die Amazon-EC2-Instance angepasst, um zu messen, wie gut sie abgeschnitten hat. Als nächstes erstellte Zoox Produktionsworkloads und führte Sie auf AWS aus, um zu testen, ob in einem bestimmten Zeitraum fertiggestellt wurden. „Der Grund dafür, warum wir AWS für diese Simulationen verwenden, ist, dass wir die Ergebnisse schneller erzielen wollen, damit wir die Entwicklung beschleunigen können“, sagt Herrmann. „Wenn das Fahrzeug nicht das tut, was es bei Sicherheitssimulationen hat, ändern wir die Verhaltensweise des Fahrsystems und versuchen es erneut, bis wir bei Millionen von verschiedenen Situationen die richtige Verhaltensweise bekommen.“
Indem es sich auf AWS für Rechenleistung verlassen hat, kann Zoox die Amazon-EC2-Instances auswählen, die zu seiner Preisgestaltung, Zuverlässigkeits- und Verfügbarkeitsbedürfnissen passt, mit verschiedenen Skalen von Maschinen, Speicher und Netzwerkzugriff. „Wir müssen die beste Architektur der Umgebung für Kosten und Ergebnisse herausfinden“, sagt Herrmann. „Wenn alle anderen Kosten gesenkt werden, aber man anschließend auf die Ergebnisse warten muss, werden dadurch die Gesamtkosten für das ganze Unternehmen erhöht. Auf AWS können wir uns eine effektive Art und Weise der Entwicklung des Fahrzeugs ohne Verzögerung einfallen lassen.“ Diese Flexibilität hat Zoom-Teams dabei geholfen, effektiver zusammenzuarbeiten: „Es gibt eine komplizierte Reihe an Interaktionen zwischen Kosten, der Architektur und den Aufgaben“, sagt Herrmann. „Wir müssen sehr eng über viele Bereiche hinweg Zusammenarbeit, um alles auszugleichen. Mit AWS können wir all diese Puzzleteile zusammenfügen, um diese Aufgaben effizient auszuführen.“
Außerdem verwendet Zoox AWS, um bei der Verwaltung von rechenintensiven Zeiträumen behilflich zu sein. „Wenn Fahrzeugbauingenieure Änderungen am Antriebssteuerungssystem vornehmen, müssen diese Änderungen mit Hunderten von Stunden CPU- und GPU-Zeit validiert werden“, sagt Herrmann. „Mit Slurm und AWS kann unser Cluster die Anzahl der verfügbaren CPUs und GPUs mehr als verdoppeln, die für Rechenaufgaben zur Verfügung steht. Diese Burst-Kapazität beschleunigt die Sensor-Wahrnehmung, Machine Learning, und simulierte Fahrtszenarien, die wichtige Bestandteile sind, um ein autonomes Fahrsystem herzustellen, das bequem und sicher ist.“
Zur Verwaltung von Amazon-EC2-Instance für langanhaltende Services und gelegentliche Aufgaben verwendet ZooxAmazon Elastic Kubernetes Service (Amazon EKS) – das hilft den Unternehmen dabei, Ihre Kubernetes-Cluster und Anwendungen in hybriden Umgebungen zu verwalten. Slurm verwendet private Clouds, die Amazon-EC2-Instances enthalten, die dynamisch auf Grundlage de Nachfrage zugewiesen werden. Wenn jemand eine Aufgabe an den Slurm-Controller absendet, kann der Controller die Entscheidung treffen, die Aufgabe in der Cloud auszuführen und auswählen, wie viele Instances zu verwenden sind. „Wir können bis zu 1 000 Knoten in einer einzelnen AWS-Region einrichten und eine Aufgaben binnen Stunden ausführen, um schnell Ergebnisse bei kritischen Forschungs- und Entwicklungsexperimenten zu erhalten, ohne auf die Verfügbarkeit dieser Knoten in unserem On-Premises-Rechenzentrum warten zu müssen oder ein weiteres Rechenzentrum aufbauen zu müssen“, sagt Herrmann.
Zoox speichert Zehner von Petabyte von Daten in Amazon S3. „Unser Speicher muss sehr schnell Petabytes an Daten skalieren, während wir die Anzahl unserer Fahrzeuge und die Berechnungen und Simulationen, die wir tun, zu erhöhen“, sagt Herrmann. Slurm führt Amazon-EC2-Instances ein, die schnell auf die Daten zugreifen und Berechnungen effizient durchführen. Zoox überwacht die Daten in Amazon S3 mit Amazon CloudWatch. Das Programm erhebt Überwachungs- und Betriebsdaten und bietet einen Gesamtüberblick über AWS-Ressourcen und -Anwendungen sowie Services, die in AWS sowie auf On-Premises-Servern ausgeführt werden. „Mit Amazon CloudWatch können wir verstehen, was vor sich geht und was funktioniert“, sagt Herrmann.
Skalieren zum Speichern und Simulieren mit Hunderten von Petabytes Daten auf AWS
In den nächsten paar Jahren wird Zoox seine Workloads von der experimentellen zur Produktionsphase verschieben. Das Unternehmen erwartet, dass die Workloads Hunderte von Petabyte verwenden werden. Zoox hat auf AWS eine hybride Infrastruktur erstellt, die riesige Datenmengen schnell und kostengünstig erfasst und große Simulationen ausführt. Dadurch werden die Tests und die Entwicklung seiner autonomen Fahrzeuge beschleunigt. „Mit verwalteten AWS-Services können wir komplexe Systeme entwickeln, mit denen wir uns auf unsere Mission konzentrieren können, ohne uns über alle anderen Systeme sorgen machen zu müssen“, sagt Herrmann. „Wenn wir ein Problem entdecken, löst es AWS für uns.“
Über Zoox
Zoox, gegründet im Jahr 2014, ist ein Unternehmen, dass autonome Fahrzeuge herstellt. Es baut eine Flotte von autonomen, symmetrischen, bidirektionalen, batterieelektrischen Fahrzeugen, die für seinen beliebten Fahrt-Service verwendet werden. Die Flotte soll den Stau und die Verschmutzung in Stadtregionen verringern.
Vorteile von AWS
- Speichert und verarbeitet Zehner von Petabytes Daten
- Richtet bis zu 1 000 Knoten schnell ein
- Gewährleistet eine hybride Infrastruktur
- Erhöht die Zusammenarbeit zwischen Teams
- Optimiert Workloads mit Amazon-EC2-Instances
- Es wird erwartet, dass Hunderte von Petabytes Daten in den nächsten paar Jahren verwendet werden.
Verwendete AWS-Services
Amazon EC2
Der Web-Service Amazon Elastic Compute Cloud (Amazon EC2) stellt sichere, skalierbare Rechenkapazitäten in der Cloud bereit. Der Service ist darauf ausgelegt, Web-Scale-Cloud-Computing für Entwickler zu erleichtern.
Amazon S3
Amazon Simple Storage Service (Amazon S3) ist ein Objektspeicher-Service mit branchenführender Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung.
Amazon EKS
Amazon Elastic Kubernetes Service (Amazon EKS) ist ein verwalteter Container-Service zur Ausführung und Skalierung von Kubernetes-Anwendungen in der Cloud oder vor On-Premises.
Amazon CloudWatch
Amazon CloudWatch ist ein Dienst zur transparenten Überwachung und Beobachtung für DevOps-Techniker, Entwickler, Site Reliability Engineers (SRE) und IT-Manager.
Erste Schritte
Organisationen aller Größen aus verschiedenen Sektoren transformieren Ihre Unternehmen und erfüllen ihre Missionen täglich mithilfe von AWS. Kontaktieren Sie unsere Experten und begeben Sie sich noch heute auf Ihre eigene AWS-Reise.