Apa itu SageMaker HyperPod?
Amazon SageMaker HyperPod menghilangkan pekerjaan berat yang tidak terdiferensiasi yang terlibat dalam pembangunan dan pengoptimalan infrastruktur machine learning (ML). SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka pelatihan terdistribusi SageMaker, yang membagi beban kerja pelatihan secara otomatis ke lebih dari ribuan akselerator AI sehingga beban kerja dapat diproses secara paralel untuk meningkatkan performa model. SageMaker HyperPod memastikan pelatihan FM Anda tidak terganggu dengan menyimpan pos pemeriksaan secara berkala. Fitur ini secara otomatis mendeteksi kegagalan perangkat keras ketika terjadi, memperbaiki atau mengganti instans yang rusak, dan melanjutkan pelatihan dari pos pemeriksaan terakhir yang disimpan sehingga Anda tidak perlu mengelola proses ini secara manual. Lingkungan yang tangguh memungkinkan Anda untuk melatih model selama berminggu-minggu atau berbulan-bulan dalam pengaturan terdistribusi tanpa gangguan sehingga menghemat waktu pelatihan hingga 40%. SageMaker HyperPod juga sangat dapat disesuaikan, yang memungkinkan Anda menjalankan dan menskalakan beban kerja FM secara efisien dan berbagi kapasitas komputasi antara beban kerja yang berbeda dengan mudah, mulai dari pelatihan skala besar hingga inferensi.
Manfaat SageMaker HyperPod
Skalabilitas dan pemanfaatan sumber daya yang dioptimalkan
Anda dapat mengelola dan mengoperasikan klaster SageMaker HyperPod dengan pengalaman administrator berbasis Kubernetes yang konsisten. Hal ini memungkinkan Anda menjalankan dan menskalakan beban kerja FM secara efisien, mulai dari pelatihan, penyempurnaan, eksperimen, hingga inferensi. Anda dapat berbagi kapasitas komputasi dan beralih antara Slurm dan EKS untuk berbagai tipe beban kerja dengan mudah.
Pemeriksaan dan perbaikan kondisi klaster otomatis
Jika ada instans yang rusak selama beban kerja pelatihan, SageMaker HyperPod secara otomatis mendeteksi dan menukar simpul yang rusak dengan simpul yang normal. Untuk mendeteksi perangkat keras yang rusak, SageMaker HyperPod secara rutin menjalankan serangkaian pemeriksaan kondisi untuk GPU dan integritas jaringan.
Pustaka pelatihan terdistribusi beperforma tinggi
Dengan pustaka pelatihan terdistribusi SageMaker, Anda dapat menjalankan tugas pelatihan deep learning paralel data dan paralel model yang sangat terukur dan hemat biaya. SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka terdistribusi SageMaker. Dengan hanya beberapa baris kode, Anda dapat mengaktifkan paralelisme data dalam skrip pelatihan Anda. SageMaker HyperPod mempercepat pelaksanaan pelatihan terdistribusi dengan membagi model dan set data pelatihan Anda secara otomatis di seluruh instans GPU AWS.
Observabilitas lanjutan untuk peningkatan performa
Anda dapat menggunakan alat ML bawaan di SageMaker HyperPod untuk meningkatkan performa model. Misalnya, Amazon SageMaker dengan TensorBoard membantu Anda menghemat waktu pengembangan dengan memvisualisasikan arsitektur model untuk mengidentifikasi dan memperbaiki masalah konvergensi dan Amazon SageMaker Debugger menangkap metrik dan membuat profil tugas pelatihan secara waktu nyata. Integrasi dengan Wawasan Kontainer Amazon CloudWatch memberikan wawasan yang lebih mendalam tentang performa, kondisi, dan pemanfaatan klaster.
Penjadwalan dan orkestrasi beban kerja
Antarmuka pengguna SageMaker HyperPod sangat dapat disesuaikan menggunakan Slurm atau Amazon EKS. Anda dapat memilih dan menginstal kerangka kerja atau alat apa pun yang diperlukan. Semua klaster disediakan dengan tipe dan jumlah instans yang Anda pilih, dan klaster tersebut dipertahankan untuk Anda gunakan di seluruh beban kerja.