Che cos'è SageMaker HyperPod?
Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per lo sviluppo e l'ottimizzazione dell'infrastruttura di machine learning (ML). È preconfigurato con le librerie di addestramento distribuite di SageMaker che dividono automaticamente i carichi di lavoro tra più di mille acceleratori IA, in modo che possano essere elaborati in parallelo per migliorare le prestazioni del modello. SageMaker HyperPod garantisce un addestramento di FM senza interruzioni tramite checkpoint di salvataggio periodico. Rileva automaticamente il guasto hardware quando si verifica, ripara o sostituisce l'istanza difettosa e riprende l'addestramento dall'ultimo checkpoint di salvataggio, rimuovendo la necessità di gestire manualmente il processo. L'ambiente resiliente consente di addestrare modelli per settimane o mesi in un ambiente distribuito senza interruzioni, riducendo il tempo di addestramento fino al 40%. Inoltre, SageMaker HyperPod è altamente personalizzabile e consente di eseguire e scalare in modo efficace i carichi di lavoro FM e di condividere con facilità la capacità di calcolo tra carichi di lavoro diversi, dall'addestramento su larga scala all'inferenza.
Vantaggi di SageMaker HyperPod
Scalabilità e utilizzo delle risorse ottimizzato
È possibile gestire e operare cluster SageMaker HyperPod con un'esperienza amministratore coerente basata su Kubernetes. In questo modo, puoi eseguire e scalare carichi di lavoro FM dall'addestramento, ottimizzazione e sperimentazione all'inferenza. Puoi condividere con facilità la capacità di calcolo e passare da Slurm a EKS per diversi tipi di carichi di lavoro.
Osservabilità avanzata per prestazioni migliorate
È possibile utilizzare strumenti ML in SageMaker HyperPod per migliorare le prestazioni del modello. Ad esempio, Amazon SageMaker con TensorBoard aiuta a risparmiare tempo di sviluppo grazie alla visualizzazione dell'architettura del modello per identificare e risolvere problemi di convergenza, mentre Debugger Amazon SageMaker acquisisce parametri e profila i processi di addestramento in tempo reale. L'integrazione con approfondimenti sui container Amazon CloudWatch offre informazioni più approfondite sulle prestazioni, sull'integrità e sull'utilizzo del cluster.
Librerie di addestramento distribuite ad alte prestazioni
Con le librerie di addestramento distribuite di SageMaker, puoi eseguire in parallelo dati personalizzati altamente scalabili ed economici e modellare in parallelo processi di addestramento di deep learning. SageMaker HyperPod è preconfigurato con librerie distribuite SageMaker. Con solo poche righe di codice, è possibile abilitare il parallelismo dei dati negli script di addestramento. SageMaker HyperPod velocizza l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra le istanze GPU AWS.
Controllo dell'integrità e riparazione automatici del cluster
Se qualche istanza diventa difettosa durante lo svolgimento di un carico di lavoro di addestramento, SageMaker HyperPod rileva e sostituisce i nodi difettosi con nodi integri. Per rilevare hardware difettoso, SageMaker HyperPod esegue regolarmente una serie di controlli dell'integrità di GPU e rete.
Pianificazione e orchestrazione del carico di lavoro
L'interfaccia utente di SageMaker HyperPod è altamente personalizzabile tramite Slurm o Amazon EKS. È possibile selezionare e installare tutti i framework o gli strumenti necessari. Tutti i cluster vengono assegnati con il tipo e il numero di istanze scelti e vengono mantenuti per essere utilizzati in tutti i carichi di lavoro.