Amazon SageMaker HyperPod

Riduci i tempi di formazione dei modelli di base fino al 40% grazie a un'infrastruttura appositamente creata per la formazione distribuita su larga scala

Che cos'è SageMaker HyperPod?

Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per lo sviluppo e l'ottimizzazione di infrastrutture di machine learning (ML) per l'addestramento di modelli di fondazione (FM), riducendo il tempo di addestramento fino al 40%. SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di SageMaker che consentono ai clienti di dividere automaticamente i carichi di lavoro tra migliaia di acceleratori, in modo che possano essere elaborati in parallelo per migliorare le prestazioni del modello. Inoltre, SageMaker HyperPod garantisce ai clienti la possibilità di continuare l'addestramento dei FM senza interruzioni tramite checkpoint di salvataggio periodico. Quando si verifica un guasto hardware durante l'addestramento, SageMaker HyperPod rileva automaticamente il guasto, ripara o sostituisce l'istanza difettosa e riprende l'addestramento dall'ultimo checkpoint di salvataggio, eliminando la necessità di gestire manualmente il processo e aiutando a condurre l'addestramento per settimane o mesi in un ambiente distribuito senza interruzioni.

Vantaggi di SageMaker HyperPod

Amazon SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di Amazon SageMaker, che consentono di suddividere automaticamente i modelli e i set di dati di addestramento tra le istanze del cluster AWS per permettere di dimensionare in modo efficiente i carichi di lavoro di addestramento.
Le librerie di addestramento distribuite di Amazon SageMaker ottimizzano il lavoro di addestramento per l'infrastruttura di rete AWS e la topologia del cluster attraverso due tecniche: parallelismo dei dati e parallelismo dei modelli. Il parallelismo dei modelli divide i modelli troppo grandi per inserirli in parti più piccole all'interno di una singola GPU, prima di distribuirli su più GPU da addestrare. Il parallelismo dei dati divide set di dati di grandi dimensioni per addestrarli contemporaneamente al fine di migliorare la velocità di addestramento.
SageMaker HyperPod consente un ambiente di addestramento più resiliente grazie alla capacità di rilevare, diagnosticare e ripristinare automaticamente i guasti, permettendo così l'addestramento continuo degli FM per mesi.

Librerie di addestramento distribuite e ottimizzate

SageMaker HyperPod è preconfigurato con librerie distribuite SageMaker. Con solo poche righe di codice, è possibile abilitare il parallelismo dei dati negli script di addestramento. SageMaker HyperPod velocizza l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra le istanze GPU AWS.

Ulteriori informazioni »

Esegui il debug e migliora le prestazioni dei modelli

È possibile utilizzare strumenti ML dedicati in SageMaker HyperPod per migliorare le prestazioni di addestramento. Amazon SageMaker con TensorBoard aiuta a risparmiare tempo di sviluppo visualizzando l'architettura del modello per identificare e risolvere i problemi di convergenza, come la perdita di convalida, la non convergenza o la scomparsa dei gradienti.

Ulteriori informazioni »

Controllo dell'integrità e riparazione automatici del cluster

Se qualche istanza diventa difettosa durante lo svolgimento di un carico di lavoro di addestramento, SageMaker HyperPod rileva e sostituisce i nodi difettosi con nodi integri. Per rilevare hardware difettoso, SageMaker HyperPod esegue regolarmente una serie di controlli dell'integrità di GPU e rete. 

Pianificazione e orchestrazione del carico di lavoro

L'interfaccia utente di SageMaker HyperPod è altamente personalizzabile tramite Slurm. È possibile selezionare e installare tutti i framework o gli strumenti necessari. Tutti i cluster vengono assegnati con il tipo e il numero di istanze scelti e vengono mantenuti per essere utilizzati in tutti i carichi di lavoro.