Amazon SageMaker Clarify

Evaluasi model dan jelaskan prediksi model

Apa itu Amazon SageMaker Clarify?

Keuntungan SageMaker Clarify

Evaluasi FM untuk kasus penggunaan AI generatif secara otomatis dengan berbagai metrik, seperti akurasi, ketahanan, dan toksisitas, untuk mendukung inisiatif AI yang bertanggung jawab. Untuk kriteria atau konten samar yang membutuhkan penilaian manusia yang canggih, Anda dapat memilih untuk memanfaatkan tenaga kerja Anda sendiri atau menggunakan tenaga kerja terkelola yang disediakan AWS untuk meninjau respons model.
Jelaskan cara fitur input berkontribusi pada prediksi model Anda selama pengembangan model dan inferensi. Evaluasi FM Anda selama penyesuaian menggunakan evaluasi otomatis dan berbasis manusia.
Hasilkan metrik, laporan, dan contoh yang mudah dipahami di seluruh kustomisasi FM dan alur kerja MLOps.
Deteksi potensi bias dan risiko lainnya, seperti yang ditentukan oleh pedoman seperti ISO 42001, selama persiapan data, penyesuaian model, dan dalam model yang Anda deploy.

Evaluasi model fondasi

Wizard evaluasi dan laporan

Untuk meluncurkan evaluasi, pilih model, tugas, dan tipe evaluasi — pelaporan berbasis manusia atau otomatis. Manfaatkan hasil evaluasi untuk memilih model terbaik untuk kasus penggunaan Anda, dan untuk mengukur dampak teknik penyesuaian model Anda, seperti rekayasa perintah, pembelajaran penguatan dari umpan balik manusia (RLHF), pembuatan dengan peningkatan temuan (RAG), dan penyempurnaan yang diawasi (SFT). Laporan evaluasi meringkas skor di berbagai dimensi, memungkinkan perbandingan dan pengambilan keputusan dengan cepat. Laporan yang lebih terperinci memberikan contoh output model dengan skor tertinggi dan terendah, sehingga Anda dapat fokus pada bagian mana yang perlu dioptimalkan lebih lanjut.
Wizard evaluasi dan laporan

Kustomisasi

Mulailah dengan cepat menggunakan set data yang dikurasi, seperti CrowS-Pairs, TriviaQA, dan WikiText, serta algoritma yang dikurasi, seperti Bert-Score, Rouge, dan F1. Anda dapat menyesuaikan set data perintah dan algoritma penilaian khusus untuk aplikasi AI generatif Anda. Evaluasi otomatis juga tersedia sebagai pustaka sumber terbuka di GitHub agar Anda dapat menjalankannya di mana saja. Sampel notebook menunjukkan kepada Anda cara menjalankan evaluasi secara terprogram untuk FM apa pun, termasuk model yang tidak di-hosting di AWS, dan cara mengintegrasikan evaluasi FM dengan SageMaker MLOps dan alat tata kelola, seperti SageMaker Pipelines, SageMaker Model Registry, dan SageMaker Model Cards.
Kustomisasi

Evaluasi berbasis manusia

Beberapa kriteria evaluasi bersifat subjektif dan memerlukan pendapat manusia untuk menilainya. Selain evaluasi otomatis berbasis metrik, Anda dapat meminta manusia (baik karyawan Anda sendiri maupun tim evaluasi yang dikelola AWS), untuk mengevaluasi output model pada dimensi seperti kegunaan, nada, dan kepatuhan terhadap suara merek. Evaluator manusia juga dapat memeriksa konsistensi dengan pedoman, nomenklatur, dan suara merek khusus perusahaan. Siapkan instruksi khusus untuk memberikan instruksi kepada tim evaluasi Anda tentang cara mengevaluasi perintah, misalnya dengan memberi peringkat atau menunjukkan jempol ke atas/bawah.
Evaluasi berbasis manusia

Evaluasi kualitas model

Evaluasi FM Anda untuk menentukan apakah FM memberikan respons berkualitas tinggi untuk tugas AI generatif spesifik Anda menggunakan evaluasi otomatis dan/atau berbasis manusia. Evaluasi akurasi model dengan algoritma evaluasi spesifik, seperti Bert Score, Rouge, dan F1, yang disesuaikan untuk tugas AI generatif tertentu, seperti ringkasan, menjawab pertanyaan (Tanya Jawab), dan klasifikasi. Periksa ketahanan semantik output FM Anda saat diuji dengan gangguan yang mempertahankan semantik pada input, seperti ButterFingers, huruf besar acak, dan penambahan penghapusan spasi.
Evaluasi kualitas model

Evaluasi tanggung jawab model

Evaluasi risiko FM Anda mengodekan stereotipe berdasarkan kategori ras/warna kulit, jenis kelamin/identitas jenis kelamin, orientasi seksual, agama, usia, kebangsaan, disabilitas, penampilan fisik, dan status sosial ekonomi menggunakan evaluasi otomatis dan/atau berbasis manusia. Anda juga dapat mengevaluasi risiko konten beracun. Evaluasi ini dapat diterapkan pada tugas apa pun yang melibatkan pembuatan konten, termasuk pembuatan jawaban terbuka, ringkasan, dan menjawab pertanyaan.

Evaluasi tanggung jawab model

Prediksi model

Jelaskan prediksi model

SageMaker Clarify terintegrasi dengan SageMaker Experiments untuk memberikan skor yang menjelaskan fitur mana yang paling berkontribusi pada prediksi model Anda di input tertentu untuk model tabular, pemrosesan bahasa alami (NLP), dan penglihatan komputer. Untuk set data tabular, SageMaker Clarify juga dapat menghasilkan bagan kepentingan fitur gabungan yang memberikan wawasan tentang keseluruhan proses prediksi model. Detail ini dapat membantu menentukan apakah input model tertentu memiliki pengaruh lebih besar dari yang diharapkan pada perilaku model secara keseluruhan.
Tangkapan layar grafik pentingnya fitur untuk model terlatih dalam Eksperimen SageMaker

Pantau apakah model Anda memiliki perubahan perilaku

Perubahan pada data langsung dapat mengekspos perilaku baru model Anda. Misalnya, model prediksi risiko kredit yang dilatih pada data dari satu wilayah geografis dapat mengubah kepentingan yang diberikannya ke berbagai fitur ketika diterapkan ke data dari wilayah lain. SageMaker Clarify terintegrasi dengan SageMaker Model Monitor untuk memberi tahu Anda menggunakan sistem peringatan seperti CloudWatch jika kepentingan fitur input berubah, yang menyebabkan perilaku model berubah.
Tangkapan layar pemantauan kepentingan fitur di SageMaker Model Monitor

Deteksi bias

Identifikasi ketidakseimbangan di data

SageMaker Clarify membantu mengidentifikasi potensi bias selama persiapan data tanpa menulis kode. Anda menentukan fitur input, seperti gender atau usia, dan SageMaker Clarify menjalankan tugas analisis untuk mendeteksi potensi bias di fitur tersebut. Selanjutnya, SageMaker Clarify memberikan laporan visual dengan deskripsi metrik dan pengukuran potensi bias agar Anda dapat mengidentifikasi langkah-langkah untuk meremediasi bias. Jika terjadi ketidakseimbangan, Anda dapat menggunakan SageMaker Data Wrangler untuk menyeimbangkan data. SageMaker Data Wrangler menawarkan tiga operator penyeimbang: undersampling acak, oversampling acak, dan SMOTE untuk menyeimbangkan kembali data di set data Anda yang tidak seimbang.

Tangkapan layar metrik bias selama persiapan data di SageMaker Data Wrangler

Periksa model terlatih Anda untuk bias

Setelah melatih model, Anda dapat menjalankan analisis bias SageMaker Clarify melalui Amazon SageMaker Experiments untuk memeriksa apakah model memiliki potensi bias, seperti prediksi yang menghasilkan hasil negatif lebih sering untuk satu grup daripada prediksi untuk grup yang lain. Anda menentukan fitur input yang ingin Anda ukur biasnya dalam hasil model, dan SageMaker menjalankan analisis serta memberi Anda laporan visual yang mengidentifikasi berbagai jenis bias untuk setiap fitur. Metode sumber terbuka AWS, Fair Bayesian Optimization, dapat membantu memitigasi bias dengan menyelaraskan hiperparameter model.

Tangkapan layar metrik bias di model terlatih dalam SageMaker Experiments

Pantau model yang Anda deploy jika ada bias

Bias dapat dimasukkan atau dipertajam dalam model ML yang di-deploy saat data pelatihan berbeda dari data langsung yang dilihat model selama deployment. Misalnya, output model untuk memprediksi harga rumah dapat menjadi bias jika tarif hipotek yang digunakan untuk melatih model berbeda dari tarif hipotek saat ini. Kemampuan deteksi bias SageMaker Clarify diintegrasikan ke Amazon SageMaker Model Monitor agar saat mendeteksi bias melampaui ambang batas tertentu, SageMaker menghasilkan metrik yang dapat Anda lihat di Amazon SageMaker Studio secara otomatis dan melalui metrik serta alarm Amazon CloudWatch.

Tangkapan layar pemantauan bias di SageMaker Model Monitor

Yang baru

  • Tanggal (Terbaru hingga Terlama)
Hasil tidak ditemukan
1