Apa itu Amazon SageMaker Model Deployment?
Amazon SageMaker mempermudah melakukan deployment model ML termasuk model fondasi (FM) untuk membuat permintaan inferensi dengan performa harga terbaik untuk setiap kasus penggunaan. Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan, seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda. SageMaker adalah layanan yang terkelola penuh dan terintegrasi dengan alat MLOps, agar Anda dapat menskalakan deployment model, mengurangi biaya inferensi, mengelola model dengan lebih efektif dalam produksi, serta mengurangi beban operasional.
Keuntungan Deployment Model SageMaker
Berbagai opsi untuk setiap kasus penggunaan
Berbagai opsi inferensi
Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda.
Inferensi Waktu Nyata
Latensi rendah dan throughput ultratinggi untuk kasus penggunaan dengan pola lalu lintas stabil.
Inferensi Nirserver
Latensi rendah dan throughput tinggi untuk kasus penggunaan dengan pola lalu lintas intermiten.
Inferensi Asinkron
Latensi rendah untuk kasus penggunaan dengan muatan besar (hingga 1 GB) atau waktu pemrosesan yang lama (hingga 15 menit).
Batch Transform
Inferensi offline pada batch data untuk kasus penggunaan dengan set data besar.
Opsi deployment yang dapat diskalakan dan hemat biaya
Amazon SageMaker menyediakan cara yang dapat diskalakan dan hemat biaya untuk melakukan deployment sejumlah besar model ML. Dengan beberapa model SageMaker pada titik akhir tunggal, Anda dapat melakukan deployment ribuan model pada infrastruktur bersama, yang meningkatkan efektivitas biaya sekaligus memberikan fleksibilitas untuk menggunakan model sesering yang Anda butuhkan. Beberapa model pada titik akhir tunggal mendukung tipe instans CPU dan GPU, yang dapat membantu Anda mengurangi biaya inferensi hingga 50%
Titik akhir model tunggal
Satu model pada konteiner yang di-hosting pada instans khusus atau nirserver untuk latensi rendah dan throughput tinggi.
Banyak model di satu titik akhir
Host beberapa model ke instans yang sama untuk memanfaatkan akselerator yang mendasarinya dengan lebih baik, sehingga mengurangi biaya deployment hingga 50%. Anda dapat mengontrol kebijakan penskalaan untuk setiap FM secara terpisah, sehingga lebih mudah untuk beradaptasi dengan pola penggunaan model sekaligus mengoptimalkan biaya infrastruktur.
Alur inferensi serial
Beberapa kontainer berbagi instans khusus dan melakukan eksekusi secara berurutan. Anda dapat menggunakan alur inferensi untuk menggabungkan tugas ilmu data prapemrosesan, prediksi, dan pascapemrosesan.
Dukungan untuk sebagian besar kerangka kerja machine learning dan server model
Inferensi Amazon SageMaker mendukung algoritma bawaan dan citra Docker bawaan untuk beberapa kerangka kerja machine learning yang paling umum, seperti TensorFlow, PyTorch, ONNX, dan XGBoost. Jika tidak ada citra Docker bawaan yang memenuhi kebutuhan Anda, Anda dapat membuat kontainer Anda sendiri untuk digunakan dengan titik akhir multimodel yang didukung CPU. Inferensi SageMaker juga mendukung server model paling populer, seperti TensorFlow Serving, TorchServe, NVIDIA Triton, dan server multimodel AWS.
Amazon SageMaker menawarkan kontainer deep learning (DLC) khusus, pustaka, dan alat untuk paralelisme model serta inferensi model besar (LMI), untuk membantu Anda meningkatkan performa model fondasi. Dengan opsi ini, Anda dapat melakukan deployment model termasuk model fondasi (FM) dengan cepat untuk hampir semua kasus penggunaan.
Capai performa inferensi tinggi dengan biaya rendah
Capai performa inferensi tinggi dengan biaya rendah
Toolkit optimisasi inferensi baru Amazon SageMaker menghadirkan throughput hingga ~ 2x lebih tinggi sekaligus mengurangi biaya hingga ~ 50% untuk model AI generatif, seperti model Llama 3, Mistral, dan Mixtral. Misalnya, dengan model Llama 3-70B, Anda dapat mencapai hingga ~2400 token/detik pada instans ml.p5.48xlarge v/s ~1200 token/detik sebelumnya tanpa optimisasi apa pun. Anda dapat memilih teknik optimisasi model, seperti Dekoding Spekulatif, Kuantisasi, dan Kompilasi atau menggabungkan beberapa teknik, menerapkannya ke model Anda, menjalankan tolok ukur untuk mengevaluasi dampak teknik pada kualitas output dan performa inferensi, serta melakukan deployment model hanya dalam beberapa klik.
Lakukan deployment model pada infrastruktur beperforma paling tinggi atau beroperasilah secara nirserver
Amazon SageMaker menawarkan lebih dari 70 tipe instans dengan berbagai tingkat komputasi dan memori, termasuk instans Inf1 Amazon EC2 berbasis AWS Inferentia, chip inferensi ML beperforma tinggi yang dirancang dan dibuat oleh AWS, dan instans GPU, seperti G4dn Amazon EC2. Atau, pilih Inferensi Nirserver Amazon SageMaker untuk dengan mudah menskalakan ke ribuan model per titik akhir, jutaan throughput transaksi per detik (TPS), dan latensi biaya tambahan sub10 milidetik.
Uji bayangan untuk memvalidasi performa model ML
Penskalaan otomatis untuk elastisitas
Anda dapat menggunakan kebijakan penskalaan untuk secara otomatis menskalakan sumber daya komputasi yang mendasarinya guna mengakomodasi fluktuasi permintaan inferensi. Anda dapat mengontrol kebijakan penskalaan untuk setiap model ML secara terpisah guna menangani perubahan dalam penggunaan model dengan mudah, sekaligus mengoptimalkan biaya infrastruktur.
Peningkatan latensi dan perutean cerdas
Anda dapat mengurangi latensi inferensi untuk model ML dengan secara cerdas merutekan permintaan inferensi baru ke instans yang tersedia, alih-alih merutekan permintaan secara acak ke instans yang sudah sibuk melayani permintaan inferensi, sehingga memungkinkan Anda mencapai rata-rata latensi inferensi 20% lebih rendah.
Kurangi beban operasional dan percepat waktu penilaian
Hosting dan manajemen model yang terkelola penuh
Sebagai layanan yang terkelola penuh, Amazon SageMaker menangani penyiapan dan pengelolaan instans, kompatibilitas versi perangkat lunak, dan versi tambalan. Amazon SageMaker juga menyediakan metrik dan log bawaan untuk titik akhir yang dapat Anda gunakan guna memantau dan menerima peringatan.
Integrasi bawaan dengan fitur MLOps
Fitur deployment model Amazon SageMaker terintegrasi secara native dengan kemampuan MLOps, termasuk SageMaker Pipelines (otomatisasi dan orkestrasi alur kerja), Proyek SageMaker (CI/CD untuk ML), SageMaker Feature Store (manajemen fitur), SageMaker Model Registry (model dan katalog artefak untuk melacak silsilah dan mendukung alur kerja persetujuan otomatis), SageMaker Clarify (deteksi bias), dan Model SageMaker Monitor (deteksi penyimpangan model dan konsep). Akibatnya, meskipun Anda melakukan depolyment-sagemaker satu atau puluhan ribu model, SageMaker membantu memindahkan overhead operasional untuk melakukan deployment-sagemaker, menskalakan, dan mengelola model ML sekaligus membuatnya lebih cepat berproduksi.