Deployment Model Amazon SageMaker

Lakukan deployment dan kelola model machine learning (ML) dengan mudah untuk inferensi

Apa itu Amazon SageMaker Model Deployment?

Amazon SageMaker mempermudah melakukan deployment model ML termasuk model fondasi (FM) untuk membuat permintaan inferensi dengan performa harga terbaik untuk setiap kasus penggunaan. Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan, seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda. SageMaker adalah layanan yang terkelola penuh dan terintegrasi dengan alat MLOps, agar Anda dapat menskalakan deployment model, mengurangi biaya inferensi, mengelola model dengan lebih efektif dalam produksi, serta mengurangi beban operasional.

Keuntungan Deployment Model SageMaker

Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan, seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda.
Amazon SageMaker menawarkan lebih dari 100 tipe instans dengan berbagai tingkat komputasi dan memori pada infrastruktur berperforma paling tinggi atau pilih Inferensi Nirserver Amazon SageMaker untuk menskalakan ke ribuan model per titik akhir dengan mudah. Anda dapat menggunakan penskalaan otomatis untuk menonaktifkan instans ketika tidak digunakan agar dapat mencegah kapasitas diam dan mengurangi biaya inferensi.
Sebagai layanan yang terkelola penuh, Amazon SageMaker menangani penyiapan dan pengelolaan instans, kompatibilitas versi perangkat lunak, dan versi tambalan. Menggunakan integrasi bawaan dengan fitur MLOps, hal ini membantu mengurangi overhead operasional deployment, penskalaan, dan pengelolaan model ML sambil mempercepat produksinya.

Berbagai opsi untuk setiap kasus penggunaan

Berbagai opsi inferensi

Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda.

Inferensi Waktu Nyata

Latensi rendah dan throughput ultratinggi untuk kasus penggunaan dengan pola lalu lintas stabil.

Inferensi Waktu Nyata

Inferensi Nirserver

Latensi rendah dan throughput tinggi untuk kasus penggunaan dengan pola lalu lintas intermiten.

Inferensi Nirserver

Inferensi Asinkron

Latensi rendah untuk kasus penggunaan dengan muatan besar (hingga 1 GB) atau waktu pemrosesan yang lama (hingga 15 menit).

Inferensi Asinkron

Batch Transform

Inferensi offline pada batch data untuk kasus penggunaan dengan set data besar.

Batch Transform

Opsi deployment yang dapat diskalakan dan hemat biaya

Amazon SageMaker menyediakan cara yang dapat diskalakan dan hemat biaya untuk melakukan deployment sejumlah besar model ML. Dengan beberapa model SageMaker pada titik akhir tunggal, Anda dapat melakukan deployment ribuan model pada infrastruktur bersama, yang meningkatkan efektivitas biaya sekaligus memberikan fleksibilitas untuk menggunakan model sesering yang Anda butuhkan. Beberapa model pada titik akhir tunggal mendukung tipe instans CPU dan GPU, yang dapat membantu Anda mengurangi biaya inferensi hingga 50%

Titik akhir model tunggal

Satu model pada konteiner yang di-hosting pada instans khusus atau nirserver untuk latensi rendah dan throughput tinggi.

Titik akhir model tunggal

Banyak model di satu titik akhir

Host beberapa model ke instans yang sama untuk memanfaatkan akselerator yang mendasarinya dengan lebih baik, sehingga mengurangi biaya deployment hingga 50%. Anda dapat mengontrol kebijakan penskalaan untuk setiap FM secara terpisah, sehingga lebih mudah untuk beradaptasi dengan pola penggunaan model sekaligus mengoptimalkan biaya infrastruktur.

Titik akhir multimodel

Alur inferensi serial

Beberapa kontainer berbagi instans khusus dan melakukan eksekusi secara berurutan. Anda dapat menggunakan alur inferensi untuk menggabungkan tugas ilmu data prapemrosesan, prediksi, dan pascapemrosesan.

Alur inferensi serial

Dukungan untuk sebagian besar kerangka kerja machine learning dan server model

Inferensi Amazon SageMaker mendukung algoritma bawaan dan citra Docker bawaan untuk beberapa kerangka kerja machine learning yang paling umum, seperti TensorFlow, PyTorch, ONNX, dan XGBoost. Jika tidak ada citra Docker bawaan yang memenuhi kebutuhan Anda, Anda dapat membuat kontainer Anda sendiri untuk digunakan dengan titik akhir multimodel yang didukung CPU. Inferensi SageMaker juga mendukung server model paling populer, seperti TensorFlow Serving, TorchServe, NVIDIA Triton, dan server multimodel AWS.

Amazon SageMaker menawarkan kontainer deep learning (DLC) khusus, pustaka, dan alat untuk paralelisme model serta inferensi model besar (LMI), untuk membantu Anda meningkatkan performa model fondasi. Dengan opsi ini, Anda dapat melakukan deployment model termasuk model fondasi (FM) dengan cepat untuk hampir semua kasus penggunaan.


Pelajari Selengkapnya
 

TensorFlow
PyTorch
mxnet
Logo Hugging Face
TensorFlow

Capai performa inferensi tinggi dengan biaya rendah

Capai performa inferensi tinggi dengan biaya rendah

Toolkit optimisasi inferensi baru Amazon SageMaker menghadirkan throughput hingga ~ 2x lebih tinggi sekaligus mengurangi biaya hingga ~ 50% untuk model AI generatif, seperti model Llama 3, Mistral, dan Mixtral. Misalnya, dengan model Llama 3-70B, Anda dapat mencapai hingga ~2400 token/detik pada instans ml.p5.48xlarge v/s ~1200 token/detik sebelumnya tanpa optimisasi apa pun. Anda dapat memilih teknik optimisasi model, seperti Dekoding Spekulatif, Kuantisasi, dan Kompilasi atau menggabungkan beberapa teknik, menerapkannya ke model Anda, menjalankan tolok ukur untuk mengevaluasi dampak teknik pada kualitas output dan performa inferensi, serta melakukan deployment model hanya dalam beberapa klik.

Gambar yang menampilkan kilasan metrik evaluasi

Lakukan deployment model pada infrastruktur beperforma paling tinggi atau beroperasilah secara nirserver

Amazon SageMaker menawarkan lebih dari 70 tipe instans dengan berbagai tingkat komputasi dan memori, termasuk instans Inf1 Amazon EC2 berbasis AWS Inferentia, chip inferensi ML beperforma tinggi yang dirancang dan dibuat oleh AWS, dan instans GPU, seperti G4dn Amazon EC2. Atau, pilih Inferensi Nirserver Amazon SageMaker untuk dengan mudah menskalakan ke ribuan model per titik akhir, jutaan throughput transaksi per detik (TPS), dan latensi biaya tambahan sub10 milidetik.

Gambar yang menampilkan fitur chip inferensi ML

Uji bayangan untuk memvalidasi performa model ML

Amazon SageMaker membantu Anda mengevaluasi model baru dengan pengujian bayangan pada performanya terhadap model yang tengah menjalani deployment-sagemaker menggunakan permintaan inferensi langsung. Pengujian bayangan dapat membantu Anda menangkap potensi kesalahan konfigurasi dan masalah performa sebelum berdampak pada pengguna akhir. Dengan SageMaker, Anda tidak perlu menginvestasikan waktu berminggu-minggu untuk membangun infrastruktur pengujian bayangan Anda sendiri. Cukup pilih model produksi yang ingin Anda uji dan SageMaker akan secara otomatis melakukan deployment-sagemaker model baru dalam mode bayangan dan merutekan salinan permintaan inferensi yang diterima oleh model produksi ke model baru dalam waktu nyata.
Gambar yang menggambarkan proses pengujian bayangan

Penskalaan otomatis untuk elastisitas

Anda dapat menggunakan kebijakan penskalaan untuk secara otomatis menskalakan sumber daya komputasi yang mendasarinya guna mengakomodasi fluktuasi permintaan inferensi. Anda dapat mengontrol kebijakan penskalaan untuk setiap model ML secara terpisah guna menangani perubahan dalam penggunaan model dengan mudah, sekaligus mengoptimalkan biaya infrastruktur.

Gambar yang menunjukkan grup penskalaan otomatis

Peningkatan latensi dan perutean cerdas

Anda dapat mengurangi latensi inferensi untuk model ML dengan secara cerdas merutekan permintaan inferensi baru ke instans yang tersedia, alih-alih merutekan permintaan secara acak ke instans yang sudah sibuk melayani permintaan inferensi, sehingga memungkinkan Anda mencapai rata-rata latensi inferensi 20% lebih rendah.

Kurangi beban operasional dan percepat waktu penilaian

Hosting dan manajemen model yang terkelola penuh

Sebagai layanan yang terkelola penuh, Amazon SageMaker menangani penyiapan dan pengelolaan instans, kompatibilitas versi perangkat lunak, dan versi tambalan. Amazon SageMaker juga menyediakan metrik dan log bawaan untuk titik akhir yang dapat Anda gunakan guna memantau dan menerima peringatan.

Gambar yang menampilkan aliran manajemen model

Integrasi bawaan dengan fitur MLOps

Fitur deployment model Amazon SageMaker terintegrasi secara native dengan kemampuan MLOps, termasuk SageMaker Pipelines (otomatisasi dan orkestrasi alur kerja), Proyek SageMaker (CI/CD untuk ML), SageMaker Feature Store (manajemen fitur), SageMaker Model Registry (model dan katalog artefak untuk melacak silsilah dan mendukung alur kerja persetujuan otomatis), SageMaker Clarify (deteksi bias), dan Model SageMaker Monitor (deteksi penyimpangan model dan konsep). Akibatnya, meskipun Anda melakukan depolyment-sagemaker satu atau puluhan ribu model, SageMaker membantu memindahkan overhead operasional untuk melakukan deployment-sagemaker, menskalakan, dan mengelola model ML sekaligus membuatnya lebih cepat berproduksi.

Gambar yang menunjukkan diagram alur model Latih

Apa yang baru

  • Tanggal (Terbaru hingga Terlama)
Hasil tidak ditemukan
1