Amazon SageMaker Feature Store
Layanan terkelola penuh untuk fitur machine learning
Simpan, bagikan, dan kelola fitur model ML untuk pelatihan dan inferensi guna mempromosikan penggunaan ulang fitur di seluruh aplikasi ML
Serap fitur dari semua sumber data termasuk streaming dan batch seperti log aplikasi, log layanan, clickstream, sensor, dan data tabel dari AWS atau sumber data pihak ketiga
Ubah data menjadi fitur ML dan buat jalur fitur yang mendukung praktik MLOps dan mempercepat waktu untuk memodelkan deployment
Amazon SageMaker Feature Store adalah repositori terkelola penuh yang dibuat khusus untuk menyimpan, membagikan, dan mengelola fitur model machine learning (ML). Fitur adalah input untuk model ML yang digunakan pada saat pelatihan dan inferensi. Misalnya, dalam aplikasi yang menyarankan daftar putar musik, fitur dapat mencakup peringkat lagu, durasi mendengarkan, dan demografi pendengar. Fitur digunakan berulang kali oleh banyak tim dan kualitas fitur merupakan hal yang penting untuk menjamin model yang berakurasi tinggi. Selain itu, jika fitur yang digunakan dalam melatih model secara offline dalam batch disediakan untuk inferensi secara waktu nyata, akan menjadi sulit untuk menjaga agar kedua penyimpanan fitur tersinkronkan. SageMaker Feature Store menyediakan penyimpanan yang aman dan terpadu untuk memproses, menstandarisasi, dan menggunakan fitur dalam skala besar di seluruh siklus hidup ML.
Cara kerjanya
Fitur Utama
Pemrosesan dan penyerapan fitur
Anda dapat menyerap ke dalam SageMaker Feature Store dari berbagai sumber, seperti log aplikasi dan layanan, clickstream, sensor, serta data tabel dari Amazon Simple Storage Service (Amazon S3), Amazon Redshift, AWS Lake Formation, Snowflake, dan Databricks Delta Lake. Dengan pemrosesan fitur, Anda dapat menentukan sumber data batch dan fungsi transformasi fitur (misalnya, jumlah tampilan produk atau agregat jendela waktu) dan SageMaker Feature Store mengubah data tersebut pada saat diserap ke dalam fitur ML. Dengan Amazon SageMaker Data Wrangler Anda dapat mempublikasikan fitur secara langsung ke SageMaker Feature Store. Dengan konektor Apache Spark, Anda dapat menyerap secara batch data bervolume tinggi hanya dengan satu baris kode.
Penyimpanan, katalog, pencarian, penggunaan kembali fitur
Amazon SageMaker Feature Store menandai dan mengindeks grup fitur sehingga dapat ditemukan dengan mudah melalui antarmuka visual Amazon SageMaker Studio. Menjelajahi katalog fitur memungkinkan tim menemukan fitur yang ada yang dapat dengan yakin mereka gunakan kembali dan menghindari duplikasi pipeline. SageMaker Feature Store menggunakan Katalog Data AWS Glue secara default, tetapi mengizinkan Anda menggunakan katalog berbeda jika Anda menginginkannya. Anda juga dapat mengkueri fitur menggunakan SQL yang familier dengan Amazon Athena atau alat kueri lain pilihan Anda.
Konsistensi fitur
SageMaker Feature Store mendukung penyimpanan offline untuk pelatihan dan penyimpanan online untuk inferensi waktu nyata. Pelatihan dan inferensi adalah kasus penggunaan yang sangat berbeda dan persyaratan penyimpanannya berbeda untuk tiap-tiap kasus. Selama pelatihan, model sering kali menggunakan set data lengkap dan membutuhkan waktu penyelesaian selama berjam-jam, sedangkan inferensi terjadi dalam hitungan milidetik dan biasanya memerlukan subset data. Saat digunakan bersama-sama, SageMaker Feature Store akan memastikan set data offline dan online tetap tersinkronkan. Hal ini menjadi sangat penting karena jika menyimpang, set data tersebut dapat berdampak negatif terhadap akurasi model.
Pelacakan lini
Untuk memungkinkan penggunaan kembali fitur dengan yakin, para ilmuwan data perlu mengetahui cara fitur dibangun dan model serta titik akhir yang menggunakannya. SageMaker Feature Store memungkinkan ilmuwan data untuk melacak fitur mereka di Amazon SageMaker Studio dengan SageMaker Lineage. SageMaker Lineage memungkinkan Anda melacak eksekusi jalur terjadwal, memvisualisasikan silsilah hulu untuk melacak fitur kembali ke sumber datanya, dan melihat kode pemrosesan fitur, semuanya dalam satu lingkungan.
Perjalanan waktu
Ilmuwan data mungkin perlu melatih model dengan serangkaian nilai fitur yang tepat dari waktu tertentu di masa lalu tanpa risiko memasukkan data yang berasal dari luar waktu tersebut (juga dikenal sebagai kebocoran fitur), seperti data medis pasien sebelum diagnosis. API Offline SageMaker Feature Store mendukung kueri titik waktu untuk mengambil status setiap fitur pada riwayat waktu yang dituju.
Operasi ML
Penyimpanan fitur merupakan komponen kunci dalam siklus hidup MLOps. Penyimpanan tersebut mengelola pipeline set data dan fitur, yang mempercepat tugas-tugas ilmu data dan meniadakan perulangan pekerjaan dalam membuat fitur yang sama beberapa kali. SageMaker Feature Store dapat digunakan sebagai layanan yang berdiri sendiri atau berjalan bersama dengan layanan SageMaker lainnya secara terintegrasi di seluruh siklus hidup MLOps.
Keamanan dan kepatuhan
Untuk mendukung kebutuhan keamanan dan kepatuhan, Anda mungkin membutuhkan kontrol terperinci atas cara fitur ML yang dibagikan akan diakses. Kebutuhan tersebut sering kali lebih dari sekadar kontrol akses tingkat tabel dan kolom ke kontrol akses tingkat baris. Misalnya, Anda mungkin ingin memungkinkan perwakilan akun agar dapat melihat baris dari tabel penjualan hanya untuk akun mereka dan menyembunyikan prefiks data sensitif seperti nomor kartu kredit. SageMaker Feature Store bersama dengan AWS Lake Formation dapat digunakan untuk mengimplementasikan kontrol akses terperinci untuk melindungi data penyimpanan fitur dan memberikan akses berdasarkan peran.
Pelanggan
“Di Climate, kami yakin untuk memberikan informasi akurat kepada para petani dunia untuk membuat keputusan berdasarkan data dan memaksimalkan keuntungan mereka di setiap ekar. Untuk mencapai hal ini, kami telah berinvestasi dalam teknologi seperti alat machine learning untuk membangun model menggunakan entitas terukur yang dikenal sebagai fitur, seperti hasil untuk ladang petani. Dengan Amazon SageMaker Feature Store, kami dapat mempercepat pengembangan model ML dengan tempat penyimpanan fitur pusat untuk mengakses dan menggunakan kembali fitur di beberapa tim dengan mudah. SageMaker Feature Store memudahkan untuk mengakses fitur secara waktu nyata menggunakan toko online atau menjalankan fitur sesuai jadwal menggunakan toko offline untuk kasus penggunaan yang berbeda. Dengan SageMaker Feature Store, kami dapat mengembangkan model ML dengan lebih cepat.”
Daniel McCaffrey, Vice President, Data and Analytics, Climate
“Kami memilih untuk membangun platform machine learning baru Intuit di AWS pada tahun 2017, menggabungkan kemampuan kuat Amazon SageMaker untuk pengembangan model, pelatihan, dan meng- host dengan kemampuan Intuit sendiri dalam orkestrasi dan rekayasa fitur. Akibatnya, kami memotong siklus hidup pengembangan model kami secara signifikan. Proses yang biasanya memakan waktu enam bulan penuh sekarang membutuhkan waktu kurang dari seminggu, memungkinkan kami untuk mendorong kemampuan AI ke dalam produk TurboTax, QuickBooks, dan Mint kami dengan kecepatan yang sangat tinggi. Kami telah bekerja erat dengan AWS menjelang rilis Amazon SageMaker Feature Store, dan kami sangat senang dengan prospek penyimpanan fitur yang terkelola sepenuhnya sehingga kami tidak lagi harus memelihara beberapa repositori fitur di seluruh organisasi kami. Ilmuwan data kami akan dapat menggunakan fitur yang ada dari penyimpanan pusat dan mendorong standardisasi dan penggunaan kembali fitur di seluruh tim dan model.”
Mammad Zadeh, Vice President of Engineering, Data Platform Intuit
“Di Experian, kami percaya tanggung jawab kami adalah memberdayakan konsumen agar memahami dan menggunakan kredit dalam kehidupan finansial mereka, dan membantu pemberi pinjaman dalam mengelola risiko kredit. Saat kami terus menerapkan praktik terbaik untuk membangun model keuangan kami, kami mencari solusi yang mempercepat produksi produk yang memanfaatkan machine learning. Amazon SageMaker Feature Store memberi kami cara aman untuk menyimpan dan menggunakan kembali fitur untuk aplikasi ML kami. Kemampuan untuk menjaga konsistensi dalam aplikasi waktu nyata dan batch di beberapa akun adalah persyaratan utama untuk bisnis kami. Menggunakan kemampuan baru Amazon SageMaker Feature Store memungkinkan kami memberdayakan pelanggan kami untuk mengendalikan kredit mereka dan mengurangi biaya dalam ekonomi baru.”
Geoff Dzhafarov, Chief Enterprise Architect, Experian Consumer Services
“Di DeNA, misi kami adalah memberikan dampak dan kesenangan dalam menggunakan internet dan AI/ML. Memberikan layanan berbasis nilai merupakan tujuan utama kami dan kami ingin memastikan bahwa bisnis kami sudah siap untuk mencapai tujuan tersebut. Kami ingin menemukan dan menggunakan kembali fitur di seluruh organisasi dan Amazon SageMaker Feature Store dapat membantu kami dengan cara yang mudah dan efisien untuk menggunakan kembali fitur-fitur untuk aplikasi yang berbeda. Amazon SageMaker Feature Store juga membantu kami mempertahankan definisi fitur standar dan membantu kami dengan metodologi yang konsisten saat kami melatih model dan melakukan deployment model tersebut ke tahap produksi. Dengan kemampuan baru Amazon SageMaker ini, kami dapat melatih dan melakukan deployment model ML lebih cepat, membuat kami tetap berada pada jalur untuk memuaskan pelanggan kami dengan layanan terbaik.”
Kenshin Yamada, General Manager / AI System Dept System Unit, DeNA
“Industri perawatan yang kuat dan suplai yang sesuai dengan permintaan sangat penting untuk pertumbuhan ekonomi dari keluarga individu hingga PDB negara. Kami senang dengan Amazon SageMaker Feature Store karena kami yakin ini akan membantu kami menskalakan lebih baik di seluruh tim pengembangan dan ilmu data kami, dengan menggunakan kumpulan data yang dikurasi secara konsisten. Dengan diumumkannya kemampuan baru dari Amazon SageMaker, kami dapat mempercepat deployment dan deployment dari model ML kami untuk berbagai aplikasi, membantu pelanggan kami membuat keputusan yang lebih baik melalui rekomendasi langsung yang lebih cepat.”
Clemens Tummeltshammer, Manajer Ilmu Data (Data Science Manager), Care.com
“Menggunakan ML, 3M meningkatkan produk yang telah teruji, seperti ampelas, dan mendorong inovasi di beberapa bidang lain, termasuk pemeliharaan kesehatan. Karena kami berencana untuk menskalakan machine learning ke lebih banyak area 3M, kami melihat jumlah data dan model berkembang pesat – berlipat ganda setiap tahun. Kami sangat antusias mengenai fitur SageMaker baru karena fitur tersebut akan membantu kami menskalakan. Amazon SageMaker Data Wrangler mempermudah penyiapan data untuk pelatihan model, dan Amazon SageMaker Feature Store akan menghilangkan kebutuhan untuk membuat fitur model yang sama berulang kali. Akhirnya, Amazon SageMaker Pipelines akan membantu kami mengotomatiskan persiapan data, pembuatan model, dan deployment model ke dalam alur kerja ujung ke ujung sehingga kami dapat mempercepat waktu ke pasar untuk model kami. Peneliti kami menantikan untuk memanfaatkan kecepatan baru dari sains di 3M.”
David Frazee, Direktur Teknik (Technical Director) di 3M Corporate Systems Research Lab