Amazon-EC2-DL1-Instances

Niedrige Trainingskosten für Deep-Learning-Modelle

Erste Schritte mit Amazon-EC2-DL1-Instances

Amazon-EC2-DL1-Instances mit Gaudi-Accelerators von Habana Labs (einem Unternehmen von Intel) bieten kostengünstige Deep-Learning-Modelle für die natürliche Sprachverarbeitung, Objekterkennung und Image-Erkennungsanwendungsfälle. DL1-Instances liefern eine bis zu 40-prozentige Preis-Leistungs-Verbesserung im Vergleich zu aktuellen GPU-basierten EC2-Instances zum Trainieren von Deep-Learning-Modellen.

Amazon-EC2-DL1-Instances verfügen über 8 Gaudi-Accelerators mit 32 GiB Speicher mit hoher Bandbreite (HBM) pro Accelerator, 768 GiB Systemspeicher, benutzerdefinierte skalierbare Intel-Xeon-Prozessoren der 2.Generation, 400 Gbit/s Netzwerkdurchsatz und 4 TB lokalen NVMe-Speicher.

DL1-Instances umfassen das Habana SynapseAI® SDK, das in führende Machine-Learning-Frameworks wie TensorFlow und PyTorch integriert ist.

Sie können problemlos mit DL1-Instances beginnen, indem Sie AWS Deep Learning AMIs oder AWS Deep Learning Containers oder Amazon EKS und ECS für containerisierte Anwendungen verwenden. Die Unterstützung für DL1-Instances in Amazon SageMaker wird in Kürze verfügbar sein.

Neues Übersichtsvideo zu Amazon-EC2-DL1-Instances (1:33)

Vorteile

Niedrige Trainingskosten für Deep-Learning-Modelle

DL1-Instances bieten im Vergleich zu unseren neuesten GPU-basierten EC2-Instances ein bis zu 40 % besseres Preis-Leistungs-Verhältnis für das Training von Deep-Learning-Modellen. Diese Instances verfügen über Gaudi-Accelerators, die speziell für das Training von Deep-Learning-Modellen entwickelt wurden. Sie können auch weitere Kosteneinsparungen erzielen, indem Sie den EC2 Savings Plan verwenden, um die Kosten für das Training Ihrer Deep-Learning-Modelle erheblich zu senken.

Einfache Nutzung und Code-Übertragbarkeit

Entwickler aller Erfahrungsstufen können problemlos mit DL1-Instances beginnen. Sie können weiterhin ihre eigenen Workflow-Management-Services verwenden, indem sie AWS-DL-AMIs und DL-Container verwenden, um mit DL1-Instances zu beginnen. Fortgeschrittene Benutzer können auch benutzerdefinierte Kernel erstellen, um ihre Modellleistung mit Gaudis programmierbaren Tensor-Verarbeitungskernen zu optimieren. (TPCs). Mit den Habana-SynapseAI®-Tools können sie ihre bestehenden Modelle, die auf GPU- oder CPU-basierten Instances laufen, mit minimalen Codeänderungen nahtlos auf DL1-Instances migrieren.

Unterstützung führender ML-Frameworks und -Modelle

DL1-Instances unterstützen führende ML-Frameworks wie TensorFlow und PyTorch, sodass Sie Ihre bevorzugten ML-Workflows weiterhin verwenden können. Sie können auf optimierte Modelle wie Mask-R-CNN für die Objekterkennung und BERT für die Verarbeitung natürlicher Sprache im GitHub-Repository von Habana zugreifen, um Ihre Modelle schnell zu erstellen, zu trainieren und bereitzustellen. Die umfangreiche Tensor Processing Core (TPC)-Kernelbibliothek von SynapseAI unterstützt eine Vielzahl von Operatoren und mehrere Datentypen für eine Reihe von Modell- und Leistungsanforderungen.

Funktionen

Angetrieben von Gaudi-Accelerators von Habana Labs

DL1-Instances werden von Gaudi-Accelerators von Habana Labs (einem Intel-Unternehmen) angetrieben, die über acht voll programmierbare TPCs und 32 GiB Speicher mit hoher Bandbreite pro Accelerator verfügen. Sie verfügen über eine heterogene Computing-Architektur zur Maximierung der Trainingseffizienz und eine konfigurierbare zentralisierte Engine für Matrix-Mathematik-Operationen. Sie verfügen außerdem über die branchenweit einzige native Integration von zehn 100-Gigabit-Ethernet-Ports an jedem Gaudi-Accelerator für die Kommunikation zwischen den Accelerators mit geringer Latenz.

Habana SynapseAI® SDK

Das SynapseAI® SDK besteht aus einem Graph-Compiler und einer Laufzeit, einer TPC-Kernel-Bibliothek, Firmware, Treibern und Tools. Es ist in führende Frameworks wie TensorFlow und PyTorch integriert. Seine Kommunikationsbibliotheken helfen bei der schnellen Skalierung auf mehrere Accelerators mit denselben Operationen, die Sie heute für GPU-basierte Instances verwenden. Diese deterministische Skalierung führt zu einer höheren Auslastung und gesteigerten Effizienz über eine Vielzahl von neuronalen Netzwerktopologien. Mit SynapseAI®-Tools können Sie Ihre vorhandenen Modelle mit minimalen Codeänderungen nahtlos auf DL1-Instances migrieren und ausführen.

Hochleistungsnetzwerk und -speicher

DL1-Instances bieten 400 Gbit/s Netzwerkdurchsatz und Konnektivität zu Amazon Elastic Fabric Adapter (EFA) und Amazon Elastic Network Adapter (ENA) für Anwendungen, die Zugriff auf Hochgeschwindigkeitsnetzwerke benötigen. Für den schnellen Zugriff auf große Datensätze enthalten DL1-Instances außerdem 4 TB lokalen NVMe-Speicher und liefern einen Lesedurchsatz von 8 GB/s.

Baut auf dem AWS Nitro System auf

Die DL1-Instances basieren auf dem AWS Nitro System, einer umfangreichen Sammlung von Modulbausteinen, die viele der herkömmlichen Virtualisierungsfunktionen auf dedizierte Hardware und Software auslagern, um hohe Leistung, hohe Verfügbarkeit und hohe Sicherheit zu bieten und gleichzeitig den Virtualisierungsaufwand zu reduzieren.

Produktdetails

Instance-Größe	vCPU	Instance-Arbeitsspeicher (GiB)	Gaudi-Beschleuniger	Netzwerkbandbreite (Gbps)	Accelerator Peer-to-Peer Bidirektional (Gbit/s)	Instance-Speicher (GB)	EBS-Bandbreite (Gbit/s)	On-Demand (Preis/Std.)	1 Jahr lang Reserved Instance pro Stunde*	3 Jahre lang Reserved Instance pro Stunde*
dl1.24xlarge	96	768	8	400	100	4 x 1 000 NVMe SSD	19	13,11 USD	7,87 USD	5,24 USD

*Die angegebenen Preise gelten für die Regionen USA Ost (Nord-Virginia) und USA West (Oregon).

Kundenreferenzen

Seagate Technology ist seit über 40 Jahren ein weltweit führender Anbieter von Lösungen für die Datenspeicherung und -verwaltung. Die Datenwissenschafts- und Machine-Learning-Ingenieure von Seagate haben ein fortschrittliches Deep-Learning (DL)-Fehlererkennungssystem entwickelt und es weltweit in den Produktionsstätten des Unternehmens eingesetzt. In einem kürzlich durchgeführten Machbarkeitsnachweis-Projekt übertraf Habana Gaudi die Leistungsziele für das Training eines der semantischen Segmentierungsmodelle von DL, die derzeit in der Produktion von Seagate verwendet werden. 

„Wir gehen davon aus, dass der signifikante Preis-Leistungs-Vorteil von Amazon-EC2-DL1-Instances, die von Habana Gaudi-Accelerators angetrieben werden, eine überzeugende zukünftige Ergänzung zu AWS-Computingclustern darstellen könnte. Da sich Habana Labs weiterentwickelt und eine breitere Abdeckung von Betreibern ermöglicht, besteht das Potenzial, auf zusätzliche Anwendungsfälle in Unternehmen auszuweiten und dadurch zusätzliche Kosteneinsparungen zu erzielen.“

Darrell Louder, Senior Engineering Director of Operations, Technology and Advanced Analytics – Seagate

Leidos

Leidos ist als einer der Top 10 Anbieter von Gesundheits-IT anerkannt und bietet eine breite Palette anpassbarer, skalierbarer Lösungen für Krankenhäuser und Gesundheitssysteme, biomedizinische Organisationen und jede US-Bundesbehörde, die sich auf Gesundheit konzentriert.

„Eine der zahlreichen Technologien, die wir heute ermöglichen, um das Gesundheitswesen voranzutreiben, ist der Einsatz von Machine Learning und Deep Learning für die Krankheitsdiagnose basierend auf medizinischen Bildgebungsdaten. Unsere riesigen Datensätze erfordern zeitnahes und effizientes Training, um Forscher bei der Lösung einiger der dringendsten medizinischen Rätsel zu unterstützen. Angesichts des Bedarfs von Leidos und seinen Kunden nach schnellen, einfachen und kostengünstigen Trainings für Deep-Learning-Modelle freuen wir uns, diese Reise mit Intel und AWS begonnen zu haben, um Amazon-EC2-DL1-Instances basierend auf Habana-Gaudi-KI-Prozessoren zu verwenden. Durch die Verwendung von DL1-Instances erwarten wir eine Steigerung der Geschwindigkeit und Effizienz des Modelltrainings mit einer anschließenden Reduzierung des Risikos und der Kosten für Forschung und Entwicklung.“

Chetan Paul, CTO Gesundheit und Gesundheitswesen - Leidos

Intel

Intel hat eine 3D-Athlete-Nachverfolgungs-Technologie entwickelt, die das Video von Athleten in Aktion in Echtzeit analysiert, um über Leistungstrainingsprozesse zu informieren und die Zuschauererfahrungen während der Wettkämpfe zu verbessern.

„Das Training unserer Modelle auf Amazon-EC2-DL1-Instances, unterstützt von Gaudi-Accelerators von Habana Labs, wird es uns ermöglichen, Tausende von Videos genau und zuverlässig zu verarbeiten und zugehörige Leistungsdaten zu generieren, während gleichzeitig die Trainingskosten gesenkt werden. Mit DL1-Instances können wir jetzt mit der Geschwindigkeit und den Kosten trainieren, die erforderlich sind, um Athleten, Teams und Sendern aller Niveaus in einer Vielzahl von Sportarten produktiv zu dienen.“

Rick Echevarria, Vice President, Sales and Marketing Group - Intel

Riskfuel

RiskFuel bietet Unternehmen, die Finanzportfolios verwalten, Echtzeitbewertungen und Risikosensitivitäten und hilft ihnen, die Genauigkeit und Leistung des Handels zu verbessern.

„Zwei Faktoren haben uns zu Amazon-EC2-DL1-Instances geführt, die auf Habana-Gaudi-KI-Accelerators basieren. Erstens möchten wir sicherstellen, dass unsere Bank- und Versicherungskunden Riskfuel-Modelle ausführen können, die die neueste Hardware nutzen. Glücklicherweise fanden wir die Migration unserer Modelle zu DL1-Instances einfach und unkompliziert – eigentlich mussten nur ein paar Codezeilen geändert werden. Zweitens sind Trainingskosten ein wichtiger Bestandteil unserer Ausgaben und das Versprechen einer bis zu 40 %igen Verbesserung des Preis-Leistungs-Verhältnisses bietet potenziell erhebliche Vorteile für unser Endergebnis.“

Ryan Ferguson, CEO - Riskfuel

Fractal ist ein weltweit führendes Unternehmen im Bereich künstliche Intelligenz und Analytik und unterstützt Entscheidungen in Fortune-500-Unternehmen.

„KI und Deep Learning bilden den Kern unserer Machine-Vision-Fähigkeit und ermöglichen es unseren Kunden, in allen von uns bedienten Branchen bessere Entscheidungen zu treffen. Um die Genauigkeit zu verbessern, werden Datensätze immer größer und komplexer, was größere und komplexere Modelle erfordert. Dies treibt den Bedarf an einer verbesserten Computingpreisleistung voran. Die neuen Amazon-EC2-DL1-Instances versprechen deutlich günstigere Trainingskosten als GPU-basierte EC2-Instances. Wir erwarten, dass dies das Training von KI-Modellen in der Cloud für ein breites Spektrum von Kunden kostengünstiger und zugänglicher macht als zuvor.“

Srikanth Velamakanni, Group CEO - Fractal

Erste Schritte

The AWS Deep Learning AMIs (DLAMI) und AWS Deep Learning Containers (DLC)

AWS Deep Learning AMIs (DLAMI) und AWS Deep Learning Containers (DLC) stellen Datenwissenschaftlern, ML-Praktikern und Forschern Maschinen- und Container-Images zur Verfügung, die mit Deep-Learning-Frameworks vorinstalliert sind, um den Einstieg zu erleichtern, indem Sie den komplizierten Prozess des Erstellens und Optimierens Ihrer Softwareumgebungen von Grund auf einfach überspringen können. Das SynapseAI SDK für die Gaudi-Accelerators ist in die AWS DL AMIs und DLCs integriert, sodass Sie schnell mit DL1-Instances beginnen können.

Amazon Elastic Kubernetes Service (EKS) oder Elastic Container Service (ECS)

Kunden, die es vorziehen, ihre eigenen containerisierten Workloads über Container-Orchestrierungsdienste zu verwalten, können DL1-Instances mit Amazon EKS oder ECS bereitstellen.

Weitere Ressourcen

Demo: Training von Deep-Learning-Modellen mit Amazon-EC2-DL1-Instances (2:03)

Einführung von Amazon-EC2-DL1-Instances (3:41)

Kosten-zum-Training-Vergleich für Amazon EC2 DL1 (0:50)

Erste Schritte mit Amazon-EC2-DL1-Instances (0:49)

Habana® Gaudi® v0.15 Dokumentation

Dokumentation besuchen »

Habana®-Forum für Entwickler

Forum besuchen »

Habana®-GitHub-Repository

GitHub besuchen »

Erste Schritte mit AWS

Registrieren Sie sich für ein AWS-Konto

Registrieren Sie sich für ein AWS-Konto

Sie erhalten sofort Zugriff auf das kostenlose Kontingent für AWS.

Mit einfachen Tutorials lernen

Erfahren Sie mehr in unseren 10-minütigen Tutorials

Entdecken und lernen Sie mit einfachen Tutorials.

Beginnen Sie mit der Entwicklung mit EC2 in der Konsole

Beginnen Sie mit der Entwicklung in der Konsole

Erstellen Sie mithilfe von schrittweisen Anleitungen AWS-Projekte.