Amazon SageMaker Feature Store
Un service entièrement géré pour les fonctionnalités de machine learning
Stockez, partagez et gérez les caractéristiques des modèles de ML pour l'entraînement et l'inférence afin de promouvoir la réutilisation des caractéristiques dans les applications de ML
Ingérez des caractéristiques à partir de n'importe quelle source de données, y compris les flux et les lots, tels que les journaux d'applications, les journaux de services, les flux de clics, les capteurs et les données tabulaires provenant d'AWS ou de sources de données tierces
Transformez les données en fonctionnalités de machine learning et créez des pipelines de fonctionnalités qui soutiennent les pratiques MLOps et accélèrent le déploiement des modèles
Amazon SageMaker Feature Store est un référentiel entièrement géré et spécialement conçu pour stocker, partager et gérer les caractéristiques de modèle de machine learning (ML). Les caractéristiques sont les entrées des modèles ML utilisées pendant l'entraînement et l'inférence. Par exemple, dans une application qui recommande une liste de lecture musicale, les caractéristiques pourraient inclure le classement des chansons, les chansons qui ont été écoutées précédemment et leur durée d'écoute. Les caractéristiques sont utilisées de manière répétée par plusieurs équipes et la qualité des caractéristiques est essentielle pour garantir un modèle très précis. De plus, lorsque les caractéristiques utilisées pour former des modèles hors ligne par lots sont mises à disposition pour l'inférence en temps réel, il est difficile de garder les deux magasins de caractéristiques synchronisés. SageMaker Feature Store fournit un magasin sécurisé et unifié pour traiter, normaliser et utiliser les fonctionnalités à l'échelle tout au long du cycle de vie du machine learning.
Fonctionnement
Fonctionnalités principales
Traitement et ingestion des fonctionnalités
Vous pouvez ingérer des données dans SageMaker Feature Store provenant de différentes sources, telles que les journaux d'applications et de services, les flux de clics, les capteurs, et des données tabulaires provenant d'Amazon Simple Storage Service (Amazon S3), Amazon Redshift, AWS Lake Formation, Snowflake et Databricks Delta Lake. À l'aide du traitement des fonctionnalités, vous pouvez spécifier votre source de données par lots et votre fonction de transformation des fonctionnalités (par exemple, le nombre de vues de produits ou les agrégats de fenêtres temporelles) et SageMaker Feature Store transforme les données au moment de leur ingestion en fonctionnalités ML. Avec Amazon SageMaker Data Wrangler, vous pouvez publier des caractéristiques directement dans SageMaker Feature Store. Avec le connecteur Apache Spark, vous pouvez ingérer par lots un grand volume de données avec une seule ligne de code.
Stockage, catalogue, recherche et réutilisation des fonctions
SageMaker Feature Store identifie et indexe les groupes de caractéristiques afin qu'ils soient faciles à découvrir via l'interface visuelle d'Amazon SageMaker Studio. La navigation dans le catalogue de caractéristiques permet aux équipes de découvrir des caractéristiques existantes qu'elles peuvent réutiliser en toute confiance et d'éviter la duplication des pipelines. SageMaker Feature Store utilise le catalogue de données AWS Glue par défaut, mais vous permet d'utiliser un autre catalogue si vous le souhaitez. Vous pouvez également interroger les caractéristiques à l'aide de SQL familier avec Amazon Athena ou un autre outil d'interrogation de votre choix.
Cohérence des fonctionnalités
SageMaker Feature Store prend en charge le stockage hors ligne pour l'entraînement et le stockage en ligne pour l'inférence en temps réel. L'entraînement et l'inférence sont des cas d'utilisation très différents et les exigences de stockage sont différentes pour chacun. Pendant l'entraînement, les modèles utilisent souvent le jeu de données complet et peuvent prendre des heures, tandis que l'inférence doit se faire en quelques millisecondes et utilise généralement un sous-ensemble des données. Utilisé conjointement, SageMaker Feature Store garantit que les jeux de données hors ligne et en ligne restent synchronisés, ce qui est essentiel car s'ils divergent, cela peut avoir un impact négatif sur la précision du modèle.
Suivi du lignage
Pour permettre la réutilisation des caractéristiques en toute confiance, les scientifiques des données doivent savoir comment les caractéristiques ont été créées et quels modèles et points de terminaison les utilisent. SageMaker Feature Store permet aux scientifiques des données de suivre leurs fonctionnalités dans Amazon SageMaker Studio avec SageMaker Lineage. SageMaker Lineage vous permet de suivre les exécutions planifiées du pipeline, de visualiser le lignage en amont pour retracer les fonctionnalités jusqu'à leurs sources de données et de visualiser le code de traitement des fonctionnalités, le tout dans un seul environnement.
Voyage dans le temps
Les scientifiques des données peuvent avoir besoin de former des modèles avec l'ensemble exact des valeurs des fonctionnalités d'un moment précis dans le passé sans risquer d'inclure des données créées après ce moment (également appelé fuite de données), comme les données médicales d'un patient avant un diagnostic. L'API hors ligne SageMaker Feature Store prend en charge les requêtes ponctuelles pour récupérer l'état de chaque caractéristique au moment historique qui nous intéresse.
Opérations de ML
Les magasins de caractéristiques sont un élément clé du cycle de vie des MLOps. Ils gèrent les jeux de données et les pipelines de caractéristiques, accélèrent les tâches de science des données et éliminent le travail en double qui consiste en la création des mêmes caractéristiques plusieurs fois. SageMaker Feature Store peut être utilisé comme un service autonome ou avec d'autres services SageMaker de manière intégrée tout au long du cycle de vie des MLOps.
Sécurité et conformité
Pour prendre en charge les besoins en matière de sécurité et de conformité, vous pouvez avoir besoin d'un contrôle granulaire sur la façon dont les caractéristiques de ML partagées sont accessibles. Ces besoins vont souvent au-delà du contrôle d'accès au niveau des tables et des colonnes pour atteindre un contrôle d'accès au niveau des lignes individuelles. Par exemple, vous pouvez vouloir laisser les représentants de compte afficher les lignes d'une table de ventes pour leurs comptes uniquement et masquer le préfixe des données sensibles comme les numéros de carte de crédit. SageMaker Feature Store, associé à AWS Lake Formation, peut être utilisé pour implémenter des contrôles d'accès précis afin de protéger les données du magasin de fonctions et d'accorder l'accès en fonction du rôle.
Clients
« Chez Climate, nous croyons qu'il est important de fournir aux agriculteurs du monde entier des informations précises pour qu'ils puissent prendre des décisions fondées sur des données et maximiser leur rendement sur chaque hectare. Pour y parvenir, nous avons investi dans des technologies telles que les outils de machine learning pour créer des modèles utilisant des entités mesurables connues sous le nom de caractéristiques, telles que le rendement du champ d'un agriculteur. Avec Amazon SageMaker Feature Store, nous pouvons accélérer le développement des modèles de ML grâce à un magasin de caractéristiques central permettant d'accéder aux caractéristiques et de les réutiliser facilement par plusieurs équipes. SageMaker Feature Store permet d'accéder facilement aux caractéristiques en temps réel en utilisant le boutique en ligne ou d'exécuter les caractéristiques selon un calendrier en utilisant le magasin hors ligne pour différents cas d'utilisation. Avec le SageMaker Feature Store, nous pouvons développer des modèles de ML plus rapidement. »
Daniel McCaffrey, vice-président, Data and Analytics, Climate
« Nous avons choisi de créer la nouvelle plateforme de machine learning d'Intuit sur AWS en 2017, en combinant les puissantes capacités d'Amazon SageMaker pour le développement de modèles, l'entraînement et l'hébergement avec les capacités propres à Intuit en matière d'orchestration et d'ingénierie des caractéristiques. En conséquence, nous avons réduit considérablement le cycle de développement de nos modèles. Ce qui prenait auparavant six mois complets prend maintenant moins d'une semaine, ce qui nous permet d'intégrer les capacités d'IA dans nos produits TurboTax, QuickBooks et Mint à un rythme considérablement accéléré. Nous avons travaillé en étroite collaboration avec AWS avant la sortie d'Amazon SageMaker Feature Store et nous sommes enthousiasmés par la perspective d'un magasin de caractéristiques entièrement géré, de sorte que nous n'ayons plus à gérer de multiples référentiels de caractéristiques à travers notre organisation. Nos scientifiques des données pourront utiliser les caractéristiques existantes à partir d'un magasin central et favoriser à la fois la normalisation et la réutilisation des caractéristiques à travers les équipes et les modèles. »
Mammad Zadeh, vice-président de l'ingénierie d'Intuit, Data Platform
« Chez Experian, nous pensons qu'il est de notre responsabilité de donner aux consommateurs les moyens de comprendre et d'utiliser le crédit dans leur vie financière et d'aider les prêteurs à gérer le risque de crédit. Alors que nous continuons à mettre en œuvre les bonnes pratiques pour créer nos modèles financiers, nous recherchons des solutions qui accélèrent la production de produits qui tirent parti du machine learning. Amazon SageMaker Feature Store nous offre un moyen sécurisé de stocker et de réutiliser les caractéristiques de nos applications de ML. La capacité à maintenir la cohérence des applications en temps réel et par lots sur plusieurs comptes est une exigence clé pour notre activité. L'utilisation des nouvelles fonctionnalités d'Amazon SageMaker Feature Store nous permet de donner à nos clients les moyens de prendre le contrôle de leur crédit et de réduire les coûts dans la nouvelle économie. »
Geoff Dzhafarov, architecte d'entreprise en chef, Experian Consumer Services
« Chez DeNA, notre mission est de produire un impact et un plaisir en utilisant l'Internet et l'IA/ML. Fournir des services basés sur la valeur est notre objectif principal et nous voulons nous assurer que nos entreprises et nos services sont prêts à atteindre cet objectif. Nous aimerions découvrir et réutiliser des caractéristiques dans toute l'entreprise et Amazon SageMaker Feature Store nous aide avec un moyen facile et efficace de réutiliser des caractéristiques pour différentes applications. Amazon SageMaker Feature Store nous aide également à maintenir des définitions de caractéristiques standard et nous aide avec une méthodologie cohérente lorsque nous entraînons des modèles et les déployons en production. Avec ces nouvelles fonctionnalités d'Amazon SageMaker, nous pouvons entraîner et déployer les modèles de ML plus rapidement, ce qui nous permet de continuer à satisfaire nos clients avec les meilleurs services. »
Kenshin Yamada, directeur général / AI System Dept System Unit, DeNA
« Une industrie des soins forte où l'offre correspond à la demande est essentielle pour la croissance économique, de la famille individuelle jusqu'au PIB de la nation. Nous sommes enthousiasmés par Amazon SageMaker Feature Store car nous pensons qu'il nous aidera à mieux dimensionner nos équipes de science des données et de développement, en utilisant un ensemble cohérent de données organisées. Avec les nouvelles fonctionnalités annoncées d'Amazon SageMaker, nous pouvons accélérer le développement et le déploiement de nos modèles de ML pour différentes applications, aidant ainsi nos clients à prendre des décisions plus éclairées grâce à des recommandations en temps réel plus rapides. »
Clemens Tummeltshammer, responsable des sciences des données, Care.com
« Avec le ML, 3M améliore les produits essayés et testés, comme le papier de verre, et encourage l'innovation dans plusieurs autres domaines, tels que celui de la santé. Alors que nous planifions d’instaurer le machine learning dans d’autres secteurs de 3M, nous voyons la quantité de données et de modèles augmenter rapidement, doubler chaque année. Nous avons hâte de découvrir les nouvelles fonctionnalités SageMaker parce que nous savons qu’elles nous aideront à nous mettre à l’échelle. Amazon SageMaker Data Wrangler simplifie la préparation des données destinées aux modèles d’entraînement et Amazon SageMaker Feature Store éliminera le besoin de créer encore et toujours les mêmes fonctionnalités de modèle. Enfin, Amazon SageMaker Pipelines nous aidera à automatiser la préparation de données, la création de modèles et le déploiement des modèles dans un flux de travail complet pour que la commercialisation de nos modèles se fasse plus rapidement. Chez 3M, nos chercheurs attendent avec impatience de pouvoir profiter de la nouvelle rapidité de la science. »
David Frazee, directeur technique chez 3M Corporate Systems Research Lab
Ressources
Nouveautés
- Date (de la plus récente à la plus ancienne)