Amazon SageMaker Çıkarımı

Çıkarıma yönelik makine öğrenimi (ML) modellerini kolayca dağıtın ve yönetin

Amazon SageMaker Çıkarımı nedir?

Amazon SageMaker AI, her türlü kullanım örneği için en iyi fiyat performansıyla çıkarım taleplerinde bulunmak üzere, altyapı modelleri (FM'ler) de dahil makine öğrenimi modellerini dağıtmayı kolaylaştırır. Düşük gecikme süresi ve yüksek aktarım hızından uzun süreli çıkarımlara kadar tüm çıkarım ihtiyaçlarınız için SageMaker AI'ı kullanabilirsiniz. SageMaker AI tam olarak yönetilen bir hizmettir ve MLOps araçlarıyla entegre olur. Böylece model dağıtımınızı ölçeklendirebilir, çıkarım maliyetini azaltabilir, modelleri üretimde daha etkili bir şekilde yönetebilir ve operasyonel yükü azaltabilirsiniz.

SageMaker Model Dağıtımı'nın Avantajları

SageMaker AI, düşük gecikme süresi (birkaç milisaniye) ve yüksek aktarım hızı (saniyede milyonlarca işlem) senaryolarından çok dilli metin işleme, metin-görüntü işleme, çok modlu anlama, doğal dil işleme ve bilgisayarlı görü gibi kullanım örneklerine yönelik uzun süreli çıkarımlara kadar çok çeşitli çıkarım gereksinimlerini karşılar. SageMaker AI, tüm çıkarım ihtiyaçlarınız için sağlam ve ölçeklenebilir bir çözüm sunar.
Amazon SageMaker AI, farklı performans gereksinimlerine uyacak şekilde değişen işlem ve bellek düzeylerine sahip 100'den fazla bulut sunucusu türü sunar. Temel hızlandırıcıları daha verimli kullanmak ve dağıtım maliyetini azaltmak için, aynı bulut sunucusuna birden çok model dağıtabilirsiniz. Maliyetleri daha da optimize etmek üzere, bulut sunucusu sayısını trafiğe göre otomatik olarak ayarlayan otomatik ölçeklemeyi kullanabilirsiniz. Kullanım olmadığında bulut sunucularını kapatarak çıkarım maliyetlerini azaltır.
Tam olarak yönetilen bir hizmet olan Amazon SageMaker AI; bulut sunucularının kurulumu, yönetimi, yazılım sürümü uyumlulukları ve düzeltme eki sürümleriyle ilgilenir. MLOps özellikleriyle yerleşik entegrasyon sayesinde ML modellerini dağıtma, ölçeklendirme ve yönetme işlemlerinin operasyonel yükünü azaltırken bunları üretime daha hızlı almaya yardımcı olur.

Geniş çıkarım seçenekleri yelpazesi

Gerçek Zamanlı Çıkarım

Sabit trafik düzenine sahip kullanım örnekleri için gerçek zamanlı, etkileşimli ve düşük gecikmeli tahminler. Modelinizi tam olarak yönetilen ve otomatik ölçeklendirmeyi destekleyen bir uç noktaya dağıtabilirsiniz.

Sunucusuz Çıkarım

Kesintili trafik modellerine sahip kullanım durumları için düşük gecikme süresi ve yüksek aktarım hızı. Sunucusuz uç noktalar, işlem kaynaklarını otomatik olarak başlatır ve trafiğe bağlı olarak ölçeği artırıp azaltır. Böylece bulut sunucusu türlerini seçme veya ölçeklendirme politikalarını yönetme ihtiyacını ortadan kaldırır.

Eşzamansız Çıkarım

Büyük yüklere (1 GB'a kadar) veya uzun işlem sürelerine (bir saate kadar) sahip olan ve neredeyse gerçek zamanlı gecikme gereksinimleri olan kullanım örnekleri için düşük gecikme süresi. Zaman Uyumsuz Çıkarım, işlenecek istek olmadığında bulut sunucusu sayısını otomatik olarak sıfıra ölçeklendirerek maliyetlerden tasarruf etmenize yardımcı olur.

Toplu Dönüşüm

Büyük veri kümeli kullanım durumları için veri yığınları üzerinde çevrimdışı çıkarım. Toplu Dönüşüm ile, gürültüyü veya yanlılığı gidermek için veri kümelerini önceden işleyebilir ve sonuç yorumlamasına yardımcı olmak için girdi kayıtlarını çıkarımlarla ilişkilendirebilirsiniz.

Ölçeklenebilir ve uygun maliyetli çıkarım seçenekleri

Tek modelli uç noktalar

Düşük gecikme süresi ve yüksek aktarım hızı için tahsis edilmiş bulut sunucularında veya sunucusuz olarak barındırılan bir container üzerinde çalışan model.

Daha fazla bilgi edinin

Tek modelli uç noktalar

Tek bir uç noktada birden fazla model

Temeldeki hızlandırıcıları daha iyi kullanmak için aynı bulut sunucusunda birden fazla model barındırın ve dağıtım maliyetlerini %50'ye kadar azaltın. Her FM için ölçeklendirme politikalarını ayrı ayrı kontrol edebilir, böylece altyapı maliyetlerini optimize ederken model kullanım şekillerine uyum sağlamayı kolaylaştırabilirsiniz.

Daha fazla bilgi edinin

Çok modelli uç noktalar

Seri çıkarım işlem hatları

Tahsis edilmiş bulut sunucularını paylaşan ve belirli bir sırayla yürüten birden fazla container. Ön işleme, tahminler ve işleme sonrası veri bilimi görevlerini birleştirmek için bir çıkarım işlem hattı kullanabilirsiniz.

Daha fazla bilgi edinin

Seri çıkarım işlem hatları

Çoğu makine öğrenimi çerçevesi ve model sunucusu için destek

Amazon SageMaker çıkarımı; TensorFlow, PyTorch, ONNX ve XGBoost gibi en yaygın makine öğrenimi çerçevelerinden bazıları için yerleşik algoritmaları ve önceden oluşturulmuş Docker görüntülerini destekler. Önceden oluşturulmuş Docker görüntülerinden hiçbiri ihtiyaçlarınızı karşılamıyorsa CPU destekli çoklu model uç noktalarıyla kullanmak üzere kendi container'ınızı oluşturabilirsiniz. SageMaker çıkarımı; TensorFlow Serving, TorchServe, NVIDIA Triton, AWS çoklu model sunucusu gibi en popüler model sunucularını destekler.

Amazon SageMaker Yapay Zeka, altyapı modellerinin performansını artırmanıza yardımcı olmak üzere model paralelliği ve büyük model çıkarımı (LMI) için özel derin öğrenme container'ları (DLC'ler), kitaplıklar ve araçlar sunar. Bu seçeneklerle, altyapı modelleri (FM) dahil modelleri hemen hemen her kullanım örneği için hızlı bir şekilde dağıtabilirsiniz.


Daha Fazla Bilgi Edinin
 

TensorFlow
PyTorch
mxnet
Huggine Face logosu
TensorFlow

Düşük maliyetle yüksek çıkarım performansı elde edin

Düşük maliyetle yüksek çıkarım performansı elde edin

Amazon SageMaker AI'ın yeni çıkarım optimizasyonu araç seti; Llama 3, Mistral ve Mixtral modelleri gibi üretken yapay zeka modellerinde maliyetleri ~%50'ye kadar düşürürken ~2 kata kadar daha yüksek aktarım hızı sağlar. Örneğin bir Llama 3-70B modeliyle, herhangi bir optimizasyon yapmadan xml.p5.48xlarge bulut sunucusunda önceki ~1200 belirteç/saniye yerine ~2400 belirteç/saniye elde edebilirsiniz. Sadece birkaç tıklamayla Kurgusal Kod Çözme, Niceleme ve Derleme gibi bir model optimizasyonu tekniği seçebilir veya birkaç tekniği birleştirebilir, modellerinize uygulayabilir, bu tekniklerin çıktı kalitesi ve çıkarım performansı üzerindeki etkisini değerlendirmek için karşılaştırma çalıştırabilir ve modelleri dağıtabilirsiniz.

Değerlendirme ölçümlerini tek bakışta gösteren bir resim

Modelleri en yüksek performanslı altyapıda dağıtın veya sunucusuz hale getirin

Amazon SageMaker AI; AWS Inferentia tabanlı Amazon EC2 Inf1 bulut sunucuları, AWS tarafından tasarlanıp üretilen yüksek performanslı ML çıkarım çipleri ve Amazon EC2 G4dn gibi GPU bulut sunucuları da dahil olmak üzere çeşitli düzeylerde işlem veya belleğe sahip 70'ten fazla bulut sunucusu türü sunar. Dilerseniz uç nokta başına binlerce modele, saniyede milyonlarca işlem (TPS) aktarım hızına ve 10 milisaniyenin altındaki ek yük gecikmelerine kolayca ölçeklendirmek için Amazon SageMaker Sunucusuz Çıkarım'ı seçin.

ML çıkarım çiplerinin özelliklerini gösteren bir görsel

ML modellerinin performansını doğrulamak için gölge testi

Amazon SageMaker AI, canlı çıkarım talepleri kullanarak yeni bir modelin performansını mevcut durumda SageMaker dağıtımı yapılan modele karşı gölge testiyle değerlendirmenize yardımcı olur. Gölge testi, potansiyel yapılandırma hatalarını ve performans sorunlarını son kullanıcıları etkilemeden önce yakalamanıza yardımcı olabilir. SageMaker AI sayesinde kendi gölge testi altyapınızı oluşturmak için haftalarca zaman harcamanıza gerek kalmaz. Sadece test etmek istediğiniz üretim modelini seçersiniz ve SageMaker AI gölge modunda otomatik olarak yeni modelin dağıtımını yaparak üretim modeli tarafından alınan çıkarım isteklerinin bir kopyasını yeni modele gerçek zamanlı bir şekilde yönlendirir.

Gölge testi sürecini gösteren bir görsel

Esneklik için otomatik ölçekleme

Çıkarım taleplerindeki dalgalanmaları karşılamak üzere temel işlem kaynaklarını otomatik olarak ölçeklendirmek için ölçeklendirme politikalarını kullanabilirsiniz. Model kullanımındaki değişiklikleri kolayca ele almak ve aynı zamanda altyapı maliyetlerini optimize etmek üzere her ML modeli için ölçeklendirme politikalarını ayrı ayrı kontrol edebilirsiniz.

Otomatik ölçekleme gruplarını gösteren görsel

Gecikme iyileştirme ve Akıllı yönlendirme

Yeni çıkarım taleplerini halihazırda çıkarım talebi sunmakla meşgul olan bulut sunucularına rastgele yönlendirmek yerine, kullanılabilir bulut sunucularına akıllıca yönlendirerek ML modelleri için çıkarım gecikmesini azaltabilir ve ortalama olarak %20 daha düşük çıkarım gecikmesi elde edebilirsiniz.

Operasyonel yükü azaltın ve değer elde etme süresini hızlandırın

Tam olarak yönetilen model barındırma ve yönetimi

Tam olarak yönetilen bir hizmet olan Amazon SageMaker AI; bulut sunucularının kurulumu, yönetimi, yazılım sürümü uyumlulukları ve düzeltme eki sürümleriyle ilgilenir. Ayrıca uyarıları izleyip almakta kullanabileceğiniz uç noktalar için yerleşik ölçüm ve günlükler sağlar.

Model yönetimi akışını gösteren bir görsel

MLOps özelliklerine sahip yerleşik entegrasyon

Amazon SageMaker AI model dağıtım özellikleri; SageMaker İşlem Hatları (iş akışı otomasyonu ve düzenlemesi), SageMaker Projeleri (ML için CI/CD), SageMaker Özellik Deposu (özellik yönetimi), SageMaker Model Kayıt Defteri (kökeni izlemek ve otomatik onay iş akışlarını desteklemek için model ve yapıt kataloğu), SageMaker Clarify (sapma algılama) ve SageMaker Model İzleyici (model ve kavram sapması algılama) dahil olmak üzere MLOps yetenekleriyle yerel olarak entegre edilmiştir. Sonuç olarak ister tek bir modelle ister on binlercesiyle dağıtım gerçekleştiriyor olun SageMaker AI, ML modellerini dağıtma, ölçeklendirme ve yönetmeye ilişkin operasyonel yükleri azaltmasının yanında bunları üretime daha hızlı bir şekilde alır.

Eğitim modeli akış şemasını gösteren görsel

Yenilikler

  • Tarih (En Yeniden En Eskiye)
Sonuç bulunamadı
1