Amazon-EC2-Trn1-Instances

Leistungsstarkes, kostengünstiges Training generativer KI-Modelle

Warum Amazon-EC2-Trn1-Instances?

Amazon Elastic Compute Cloud (EC2)-Trn1-Instances, die von AWS-Trainium-Chips unterstützt werden, wurden speziell für das leistungsstarke Deep Learning (DL)-Training generativer KI-Modelle, einschließlich großer Sprachmodelle (LLMs) und latenter Diffusionsmodelle, entwickelt. Trn1-Instances bieten Einsparungen von bis zu 50 % der Kosten gegenüber anderen vergleichbaren Amazon-EC2-Instances. Sie können Trn1-Instances verwenden, um mehr als 100 B Parameter-DL- und generative KI-Modelle für eine Vielzahl von Anwendungen wie Textzusammenfassung, Codegenerierung, Fragenbeantwortung, Bild- und Videogenerierung, Empfehlungen und Betrugserkennung zu trainieren.

Das AWS-Neuron-SDK hilft Entwicklern, Modelle auf AWS Trainium zu trainieren und Modelle auf AWS-Inferentia-Chips bereitzustellen. Es lässt sich nativ in Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie Ihren vorhandenen Code und Ihre Workflows weiterhin verwenden können, um Modelle auf Trn1-Instances zu trainieren. Informationen zur aktuellen Neuron-Unterstützung für Frameworks und Bibliotheken für Machine Learning (ML), Modellarchitekturen und Hardwareoptimierungen finden Sie in der Neuron-Dokumentation.

Einführung von Amazon-EC2-Trn1-Instances, die von AWS Trainium unterstützt werden

Vorteile

Trn1-Instances wurden speziell für Hochleistungs-DL entwickelt und reduzieren die Trainingszeiten von Monaten auf Wochen oder sogar Tage. Dank kürzerer Trainingszeiten können Sie schneller iterieren, innovativere Modelle erstellen und die Produktivität steigern. Trn1n-Instances bieten bei Modellen, die von einer erhöhten Netzwerkbandbreite profitieren, eine bis zu 20 % schnellere Trainingszeit als Trn1-Instances.

Trn1-Instances bieten eine hohe Leistung und bieten gleichzeitig Einsparungen von bis zu 50 % gegenüber anderen vergleichbaren Amazon-EC2-Instances.

Verwenden Sie das AWS Neuron SDK, um die volle Leistung von Trn1-Instances zu nutzen. Mit Neuron können Sie beliebte ML-Frameworks wie PyTorch und TensorFlow verwenden und weiterhin Ihren vorhandenen Code und Ihre Workflows verwenden, um Modelle auf Trn1-Instances zu trainieren. Um schnell mit Trn1-Instances zu beginnen, sehen Sie sich die beliebten Modellbeispiele in der Neuron-Dokumentation an.

Trn1-Instances unterstützen bis zu 800 Gbit/s Netzwerkbandbreite der zweiten Generation von Elastic Fabric Adapter (EFAv2). Trn1n-Instances unterstützen bis zu 1 600 Gbit/s EFAv2-Netzwerkbandbreite, um eine noch höhere Leistung für netzwerkintensive Modelle zu bieten. Beide Instances werden in EC2-UltraClustern bereitgestellt, die eine Skalierung auf bis zu 30 000 Trainium-Chips ermöglichen, die über ein nicht blockierendes Petabit-Netzwerk miteinander verbunden sind und bis zu 6 Exaflops an Datenverarbeitungsleistung bereitstellen.

Funktionen

Trn1-Instances werden von bis zu 16 AWS-Trainium-Chips angetrieben, die speziell dafür entwickelt wurden, das DL-Training zu beschleunigen und bis zu 3 Petaflops FP16/BF16-Datenverarbeitungsleistung bereitzustellen. Jeder Chip enthält zwei NeuronCores der zweiten Generation.

Um eine effiziente Daten- und Modellparallelität zu unterstützen, verfügt jede Trn1-Instance über 512 GB Shared Accelerator Memory (HBM) mit einer Gesamtspeicherbandbreite von 9,8 TB/s.

Um das Training netzwerkintensiver Modelle wie Mixture of Experts (MoE) und Generative Pre-Trained Transformers (GPT) zu unterstützen, bietet jede Trn1n-Instance bis zu 1 600 Gbit/s EFAv2-Netzwerkbandbreite. Jede Trn1-Instance unterstützt bis zu 800 Gbit/s EFAv2-Bandbreite. EFAv2 verteilt die kollektive Kommunikationsleistung im Vergleich zu EFA der ersten Generation um bis zu 50 % besser und beschleunigt so verteiltes Training. Diese Instances unterstützen außerdem bis zu 80 Gbit/s Amazon Elastic Block Store (EBS)-Bandbreite und bis zu 8 TB lokalen NVMe Solid State Drive (SSD)-Speicher für schnellen Workload-Zugriff auf große Datensätze.

Für eine schnelle Konnektivität zwischen Trainium-Chips und eine optimierte kollektive Kommunikation unterstützen Trn1-Instances bis zu 768 GB/s an NeuronLink, einer blockierfreien Hochgeschwindigkeitsverbindung.

Um eine hohe Leistung zu bieten und gleichzeitig die Genauigkeitsziele zu erreichen, sind Trn1-Instances für die Datentypen FP32, TF32, BF16, FP16, UINT8 und den neuen konfigurierbaren FP8-Datentyp (cFP8) optimiert. Um das schnelle Tempo der DL-Innovation und der generativen KI zu unterstützen, verfügen Trn1-Instances über mehrere Innovationen, die sie flexibel und erweiterbar machen, damit sich ständig weiterentwickelnde DL-Modelle trainiert werden können. Trn1-Instances verfügen über Hardwareoptimierungen und Softwareunterstützung für dynamische Eingabeformen. Um in Zukunft die Unterstützung neuer Operatoren zu ermöglichen, unterstützen sie benutzerdefinierte Operatoren, die in C++ geschrieben wurden. Sie unterstützen auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.

Empfehlungen von Kunden und Partnern

Hier sind einige Beispiele dafür, wie Kunden und Partner ihre Geschäftsziele mit Amazon-EC2-Trn1-Instances erreicht haben.

  • Databricks

    Mehr als 10 000 Unternehmen weltweit - darunter Comcast, Condé Nast und über 50 % der Fortune 500 - vertrauen auf die Databricks, um ihre Daten, Analysen und KI zu vereinheitlichen.

    Tausende von Kunden haben Databricks in AWS implementiert und können mit MosaicML Basismodelle für eine Vielzahl von Anwendungsfällen vortrainieren, feinabstimmen und bereitstellen. AWS Trainium bietet uns den Umfang und die hohe Leistung, die wir zum Trainieren unserer Mosaic-MPT-Modelle benötigen, und das zu geringen Kosten. Während wir unsere Mosaic-MPT-Modelle der nächsten Generation trainieren, wird Trainium2 es ermöglichen, Modelle noch schneller zu erstellen. Damit können wir unseren Kunden eine beispiellose Skalierung und Leistung bieten, damit sie ihre eigenen generative-KI-Anwendungen schneller auf den Markt bringen können.

    Naveen Rao, VP of Generative AI, Databricks
  • Stockmark Co., Ltd

    Mit dem Ziel, „den Mechanismus der Wertschöpfung neu zu erfinden und die Menschheit voranzubringen“, unterstützt Stockmark viele Unternehmen bei der Gründung und dem Aufbau innovativer Unternehmen, indem es modernste Technologie zur Verarbeitung natürlicher Sprache bereitstellt.

    Mit 16 Knoten von Amazon-EC2-Trn1-Instances, die von AWS-Trainium-Chips angetrieben werden, haben wir stockmark-13b entwickelt und veröffentlicht, ein großes Sprachmodell mit 13 Milliarden Parametern, das von Grund auf auf einem japanischen Korpus mit 220 Milliarden Token trainiert wurde. Der Korpus enthält die neuesten Texte aus dem Bereich Business Domain bis September 2023. Das Modell erzielte im Vergleich zu anderen gleichwertigen Modellen den höchsten JSQuAD-Wert (0,813) beim JGLUE-Benchmark (Japanese General Language Understanding Evaluation). Es ist bei Hugging Face Hub erhältlich und kann mit der MIT-Lizenz kommerziell verwendet werden. Trn1-Instances haben uns geholfen, die Trainingskosten im Vergleich zu gleichwertigen GPU-Instances um 20 % zu senken.

    Kosuke Arima, CTO, Stockmark Co., Ltd.
  • RICOH

    RICOH bietet Arbeitsplatzlösungen und Dienstleistungen für die digitale Transformation an, um den Informationsfluss in Unternehmen zu verwalten und zu optimieren.

    Die Migration zu Trn1-Instances war ziemlich einfach. Wir konnten das Training unseres 13B-Parametermodells in nur 8 Tagen abschließen. Aufbauend auf diesem Erfolg freuen wir uns darauf, unser 70B-Parametermodell auf Trainium zu entwickeln und zu trainieren. Wir freuen uns über das Potenzial dieser Instances, unsere Modelle schneller und kostengünstiger zu trainieren.

    Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH
  • HeliXon

    Bei HeliXon entwickeln wir KI-Lösungen der nächsten Generation für proteinbasierte Therapeutika. Unser Ziel ist es, KI-Tools zu entwickeln, die es Wissenschaftlern ermöglichen, die Funktion und Interaktion von Proteinen zu entschlüsseln, große genomische Datensätze zur Zielidentifikation abzufragen und Therapeutika wie Antikörper und Zelltherapien zu entwickeln. Heute verwenden wir Trainingsbibliotheken wie FSDP, um das Modelltraining auf vielen GPU-basierten Servern zu parallelisieren, aber das Training eines einzelnen Modells dauert immer noch Wochen. Wir freuen uns, Amazon-EC2-Trn1-Instances mit der höchsten Netzwerkbandbreite (800 Gbit/s) zu nutzen, die in AWS verfügbar ist, um die Leistung unserer verteilten Trainingsaufträge zu verbessern und unsere Modelltrainingszeiten zu verkürzen und gleichzeitig unsere Trainingskosten zu senken.

    Jian Peng, CEO, Helixon
  • Money Forward, Inc.

    Money Forward, Inc. bietet Unternehmen und Privatpersonen eine offene und faire Finanzplattform.

    Wir haben einen groß angelegten KI-Chatbot-Service auf den Amazon EC2 Inf1-Instances gestartet und unsere Inferenzlatenz um 97 % gegenüber vergleichbaren GPU-basierten Instances reduziert und gleichzeitig die Kosten gesenkt. Da wir maßgeschneiderte NLP-Modelle regelmäßig verfeinern, ist es auch wichtig, die Trainingszeiten und -kosten der Modelle zu reduzieren. Basierend auf unseren Erfahrungen mit der erfolgreichen Migration von Inferenz-Workloads auf Inf1-Instances und unserer ersten Arbeit mit EC2-Trn1-Instances auf AWS-Trainium-Basis gehen wir davon aus, dass Trn1-Instances einen zusätzlichen Mehrwert bieten werden, indem sie die durchgängige ML-Leistung und die Kosten verbessern.

    Takuya Nakade, CTO, Money Forward, Inc.
  • Magic

    Magic ist ein integriertes Produkt- und Forschungsunternehmen, das KI entwickelt und sich wie ein Kollege anfühlt, der die Welt produktiver macht.

    Das Training großer autoregressiver Modelle, die auf Transformern basieren, ist ein wesentlicher Bestandteil unserer Arbeit. Die von AWS Trainium betriebenen Trn1-Instances wurden speziell für diese Workloads entwickelt und bieten nahezu unendliche Skalierbarkeit, schnelle Netzwerke zwischen Knoten und erweiterte Unterstützung für 16- und 8-Bit-Datentypen. Mit Trn1-Instances können wir große Modelle schneller und zu geringeren Kosten trainieren. Wir freuen uns besonders über die native Unterstützung der stochastischen BF16-Rundung in Trainium, die die Leistung erhöht, während die numerische Genauigkeit nicht von voller Präzision zu unterscheiden ist.

    Eric Steinberger, Mitgründer und CEO, Magic
  • Cactus Communications

    CACTUS bietet eine Reihe von Produkten und Lösungen für Forscher und Organisationen, die die Art und Weise verbessern, wie Forschung finanziert, veröffentlicht, kommuniziert und entdeckt wird.

    Bei Cactus Labs nutzen wir das Potenzial der KI. Die Forschung konzentriert sich auf die natürliche Sprachverarbeitung (NLP), Ranking und Empfehlung, Konversations-KI, große Sprachmodelle, Computer Vision, AR/VR und XAI. Im Einklang mit unserem Bestreben, ein schnelleres Training von Modellen für Machine Learning zu ermöglichen und unseren Forschern die Durchführung von mehr Experimenten bei gleichzeitiger Kontrolle der Infrastrukturkosten zu ermöglichen, waren wir hocherfreut, AWS Trainium zu evaluieren. Die sofort einsatzbereiten Funktionen von AWS Trainium wie XLA-Optimierung, paralleles Datentraining für mehrere Mitarbeiter und Graph-Caching sind für uns wirklich nützlich, um unsere Trainingszeiten zu verkürzen und uns zu helfen, mehr Experimente schneller und günstiger durchzuführen.

    Nishchay Shah, CTO und Head of Emerging Products, Cactus Communications
  • Watashiha

    Watashiha bietet einen innovativen und interaktiven KI-Chatbot-Service, „OGIRI AI“, an, der Humor beinhaltet, um auf eine Frage sofort eine lustige Antwort zu geben.

    Wir verwenden große Sprachmodelle, um Humor zu integrieren und unseren Kunden mit unseren KI-Services ein relevanteres und kommunikativeres Erlebnis zu bieten. Dies erfordert, dass wir diese Modelle regelmäßig vorab trainieren und optimieren. Wir haben ein GPT-basiertes japanisches Modell auf der EC2-Trn1.32xlarge-Instance vortrainiert und dabei Tensor und Datenparallelität genutzt. Das Training wurde innerhalb von 28 Tagen abgeschlossen, was einer Kostenreduzierung von 33 % gegenüber unserer vorherigen GPU-basierten Infrastruktur entspricht. Da unsere Modelle immer komplexer werden, freuen wir uns auf Trn1n-Instances, die über die doppelte Netzwerkbandbreite von Trn1 verfügen, um das Training größerer Modelle zu beschleunigen.

    Yohei Kobashi, CTO, Watashiha, K.K.
  • PyTorch

    Bei PyTorch beschleunigen wir die Einführung von Machine Learning vom Prototyping in der Forschung bis hin zur kundenbereiten Produktion. Wir haben intensiv mit dem AWS-Team zusammengearbeitet, um native PyTorch-Unterstützung für die neuen Amazon-EC2-Trn1-Instances mit AWS Trainium bereitzustellen, die speziell für das Training von Deep-Learning-Modellen entwickelt wurden. Entwickler, die PyTorch-Modelle erstellen, können mit minimalen Codeänderungen mit dem Training auf Trn1-Instances beginnen. Darüber hinaus haben wir mit der OpenXLA-Community zusammengearbeitet, um PyTorch-Distributed-Bibliotheken für eine einfache Modellmigration von GPU-basierten Instances zu Trn1-Instances zu aktivieren. Wir freuen uns über die Innovation, die Trn1-Instances der PyTorch-Community bieten, darunter effizientere Datentypen, dynamische Formen, benutzerdefinierte Operatoren, hardwareoptimierte stochastische Rundung und einen einsatzfreudigen Debug-Modus. All dies macht Trn1 gut geeignet für eine breite Akzeptanz durch PyTorch-Entwickler, und wir freuen uns auf zukünftige gemeinsame Beiträge zu PyTorch, um die Trainingsleistung weiter zu optimieren.

    Geeta Chauhan, Applied AI, Engineering Manager, PyTorch
  • Hugging Face

    Hugging Face hat es sich zur Aufgabe gemacht, gute ML zu demokratisieren, um ML-Entwicklern auf der ganzen Welt zu helfen, reale Probleme zu lösen. Und der Schlüssel dazu ist, dass die neuesten und besten Modelle so schnell und effizient wie möglich auf den besten ML-Chips in der Cloud laufen. Wir freuen uns sehr über das Potenzial von Inferentia2, der neue Standard für den Einsatz generativer KI-Modelle in großem Maßstab zu werden. Mit Inf1 konnten wir die Kosten im Vergleich zu herkömmlichen GPU-basierten Instances um bis zu 70 % senken, und mit Inf2 haben wir eine bis zu 8-mal geringere Latenz für BERT-ähnliche Transformers im Vergleich zu Inferentia1 festgestellt. Mit Inferentia2 wird unsere Community in der Lage sein, diese Leistung problemlos auf LLMs mit mehr als 100 B Parametern zu skalieren, und auch auf die neuesten Diffusions- und Computer-Vision-Modelle.

  • Amazon

    Wir trainieren große Sprachmodelle (LLM), die multimodal (Text und Bild), mehrsprachig und gebietsübergreifend sind, für mehrere Aufgaben vorab trainiert sind und mehrere Einheiten umfassen (Produkte, Anfragen, Marken, Bewertungen usw.), um das Einkaufserlebnis der Kunden zu verbessern. Trn1-Instances bieten eine nachhaltigere Methode für das Training von LLMs, da sie im Vergleich zu anderen Lösungen für beschleunigtes Machine Learning die beste Leistung pro Watt bieten und uns eine hohe Leistung zu den niedrigsten Kosten bieten. Wir planen, den neuen konfigurierbaren FP8-Datentyp und die hardwarebeschleunigte stochastische Rundung zu erkunden, um unsere Trainingseffizienz und Entwicklungsgeschwindigkeit weiter zu steigern.

    Trishul Chilimbi, VP, Amazon Search

Erste Schritte

Mithilfe von Amazon SageMaker können Sie Modelle auf Trn1-Instances einfach trainieren. Reduzieren Sie den Zeit- und Kostenaufwand für das Training und die Optimierung von ML-Modellen erheblich, ohne die Infrastruktur verwalten zu müssen. Mit SageMaker können Sie integrierte Tools verwenden, um Trainingsexperimente zu verwalten und zu verfolgen, automatisch optimale Hyperparameter auszuwählen, Trainingsaufträge zu debuggen und die Nutzung von Systemressourcen zu überwachen.

Die AWS Deep Learning AMIs (DLAMI) bieten ML-Nutzern und -Forschern die Infrastruktur und Tools, um Deep Learning in der Cloud in jedem Maß zu beschleunigen. Die AWS-Neuron-Treiber sind in der DLAMI vorkonfiguriert, um Ihre DL-Modelle optimal auf Trn1-Instances zu trainieren.

Sie können jetzt Trn1-Instances in Amazon Elastic Kubernetes Service (EKS), einem vollständig verwalteten Kubernetes-Service, und in Amazon Elastic Container Service (ECS), einem vollständig verwalteten Container-Orchestrierungs-Service, bereitstellen. Neuron ist auch in AWS Deep Learning Containers vorinstalliert verfügbar. Weitere Informationen zum Ausführen von Containern auf Trn1-Instances finden Sie in den Tutorials zu Neuron-Containern.

Produktdetails

Instance-Größe Trainium-Chips
Beschleuniger
Arbeitsspeicher
(GB)
vCPUs Instance
Arbeitsspeicher
(GiB)
Lokal
NVMe
Speicher
(TB)
Netzwerk
Bandbreite
(Gbit/s)
EFA und
RDMA
Support
EBS
Bandbreite
(Gbit/s)
On-Demand
Preis pro Stunde
1 Jahr
Reserved
Instance
Wirksam
Stündlich*
3 Jahre
Reserved
Instance
Wirksam
Stündlich*
trn1.2xlarge 1 32 8 32 0,5 Bis zu 12,5 Nein Bis zu 20 1,34 USD 0,79 USD 0,4744 USD
trn1.32xlarge 16 512 128 512 8 800 Ja 80 21,50 USD 12,60 USD 7,59 USD

trn1n.32xlarge

16 512 128 512 8 1 600 Ja 80 24,78 USD 14,52 USD 8,59 USD