Amazon SageMaker Feature Store
Un servizio completamente gestito per le funzionalità di machine learning
Archivia, condividi e gestisci le funzionalità dei modelli di ML per l'addestramento e l'inferenza in modo da favorire il riutilizzo delle funzionalità nelle varie applicazioni di ML
Acquisisci caratteristiche da qualsiasi origine dei dati, tra cui streaming e batch come registri di applicazioni, registri di servizi, clickstream, sensori e dati tabulari da origini dei dati di AWS o di terze parti
Trasforma i dati in funzionalità ML e crea pipeline di funzionalità che supportano le pratiche MLOps e accelerano i tempi di implementazione dei modelli
Amazon SageMaker Feature Store è un repository dedicato e completamente gestito per archiviare, condividere e gestire funzionalità per i modelli di machine learning (ML). Le funzionalità sono input per i modelli di ML utilizzati in fase di addestramento e inferenza. Ad esempio, in un'applicazione che suggerisce una playlist musicale, le funzionalità possono includere le valutazioni dei brani, la durata di ascolto e dati demografici sugli ascoltatori. Le funzionalità vengono utilizzate ripetutamente da diversi team e la loro qualità è fondamentale per garantire la creazione di un modello ad alta precisione. Inoltre, quando le funzionalità utilizzate per l'addestramento dei modelli offline in batch vengono messe a disposizione per l'inferenza in tempo reale, è difficile mantenere sincronizzati i due archivi di funzionalità. SageMaker Feature Store fornisce un archivio sicuro e unificato per elaborare, standardizzare e utilizzare le funzionalità su larga scala durante tutto il ciclo di vita del machine learning.
Come funziona
Funzionalità principali
Elaborazione e acquisizione di funzionalità
È possibile importare i dati in SageMaker Feature Store, come log di applicazioni e servizi, clickstream, sensori e dati tabulari, da diverse origini come Amazon Simple Storage Service (Amazon S3), Amazon Redshift, AWS Lake Formation, Snowflake e Databricks Delta Lake. Utilizzando l'elaborazione delle funzionalità, è possibile specificare l'origine dati in batch e la funzione di trasformazione delle funzionalità (ad esempio, il numero di visualizzazioni dei prodotti o gli aggregati delle finestre temporali) e SageMaker Feature Store trasformerà i dati al momento dell'importazione in funzionalità ML. Con Amazon SageMaker Data Wrangler è possibile pubblicare funzionalità direttamente in SageMaker Feature Store. Grazie al connettore Apache Spark, è possibile importare in batch un volume di dati elevato con una singola riga di codice.
Archiviazione, catalogazione, ricerca e riutilizzo delle funzionalità
SageMaker Feature Store tagga e indicizza i gruppi di funzionalità per renderli facilmente individuabili attraverso l'interfaccia visiva di Amazon SageMaker Studio. La consultazione del catalogo di funzionalità permette ai team di individuare le funzionalità esistenti che possono riutilizzare con sicurezza ed evitare la duplicazione delle pipeline. SageMaker Feature Store utilizza per impostazione predefinita il Catalogo dati di AWS Glue, ma offre anche la possibilità di usufruire di un catalogo diverso, se desiderato. È anche possibile inviare query alle funzionalità utilizzando la sintassi familiare di SQL con Amazon Athena o un altro strumento per la creazione di query a scelta.
Coerenza delle funzionalità
SageMaker Feature Store supporta l'archiviazione offline per l'addestramento e l'archiviazione online per l'inferenza in tempo reale. L'addestramento e l'inferenza sono casi d'uso molto diversi, così come lo sono i rispettivi requisiti di archiviazione. In fase di addestramento, i modelli spesso utilizzano il set di dati completo e richiedono ore per il completamento, mentre l'inferenza deve avvenire nell'arco di qualche millisecondo e solitamente utilizza un sottoinsieme dei dati. Se utilizzati insieme, SageMaker Feature Store garantisce che i set di dati offline e online rimangano sincronizzati. Si tratta di un fattore fondamentale, perché l'eventuale scostamento potrebbe avere un impatto negativo sulla precisione del modello.
Monitoraggio della derivazione
Per consentire il riutilizzo sicuro delle funzionalità, i data scientist devono sapere come sono state create le funzionalità e quali sono i modelli e gli endpoint che le utilizzano. SageMaker Feature Store consente ai data scientist di monitorare le loro funzionalità in Amazon SageMaker Studio con SageMaker Lineage. SageMaker Lineage consente di tenere traccia delle esecuzioni pianificate delle pipeline, visualizzare la derivazione upstream per risalire alle origini dati delle funzionalità e visualizzare il codice di elaborazione delle funzionalità, il tutto in un unico ambiente.
Viaggio nel tempo
I data scientist potrebbero avere la necessità di addestrare modelli con l'esatto set di valori delle funzionalità di un particolare momento nel passato senza correre il rischio di includere i dati precedenti (perdite di funzionalità), ad esempio le informazioni mediche di un paziente prima di una diagnosi. SageMaker Feature Store supporta le API query point-in-time per recuperare lo stato di ciascuna funzionalità nel momento storico pertinente.
Operazioni di ML
Gli archivi delle funzionalità sono un componente fondamentale nel ciclo di vita MLOps. Gestiscono i set di dati e le pipeline delle funzionalità, così da accelerare le attività di data science ed eliminare il lavoro doppio di creazione ripetuta delle medesime funzionalità. SageMaker Feature Store è utilizzabile come servizio autonomo o in abbinamento ad altri servizi SageMaker in maniera integrata durante tutto il ciclo di vita MLOps.
Sicurezza e conformità
Per supportare i requisiti di sicurezza e conformità, può essere necessario mantenere un controllo dettagliato sugli accessi alle funzionalità di ML condivise. Spesso tali requisiti si spingono oltre al controllo degli accessi a livello di tabella e colonna per raggiungere il livello della singola riga. Ad esempio, può essere desiderabile permettere ai rappresentanti di account di vedere soltanto le righe di una tabella vendite relative ai rispettivi account e nascondere il prefisso di dati sensibili come i numeri di carta di credito. È possibile utilizzare SageMaker Feature Store insieme ad AWS Lake Formation per implementare controlli degli accessi dettagliati per proteggere i dati dell'archivio di funzionalità e garantire l'accesso in base al ruolo.
Clienti
"La missione di Climate è fornire agli agricoltori di tutto il mondo informazioni accurate per prendere decisioni orientate ai dati e massimizzare la resa di ciascun ettaro di terreno. A tale scopo, abbiamo investito in tecnologie come strumenti di machine learning per costruire modelli utilizzando entità misurabili chiamate funzionalità, ad esempio la resa per un campo per una determinata coltivazione. Con Amazon SageMaker Feature Store, siamo in grado di accelerare lo sviluppo di modelli di ML grazie a un archivio di funzionalità centralizzato, che facilita l'accesso e il riutilizzo delle funzionalità da parte di team diversi. SageMaker Feature Store permette di accedere facilmente alle funzionalità in tempo reale utilizzando l'archivio online oppure di eseguire funzionalità secondo una pianificazione attraverso l'archivio non in linea, a seconda del caso d'uso. Con SageMaker Feature Store, siamo in grado di sviluppare i modelli di ML più velocemente."
Daniel McCaffrey, Vicepresidente, Dati e analisi, Climate
"Abbiamo scelto di costruire la nuova piattaforma di machine learning di Intuit su AWS nel 2017, combinando le potenti capacità di sviluppo, addestramento e hosting di modelli di Amazon SageMaker con le capacità di orchestrazione e ingegneria delle funzionalità di Intuit. Il risultato è stata una drastica riduzione del nostro ciclo di vita di sviluppo dei modelli. Per ciò che prima richiedeva sei mesi pieni di lavoro ora basta meno di una settimana. Questo ci consente di integrare capacità di AI nei nostri prodotti TurboTax, QuickBooks e Mint a un ritmo molto accelerato. Abbiamo lavorato a stretto contatto con AWS nel percorso di rilascio di Amazon SageMaker Feature Store e siamo entusiasti della prospettiva di un archivio di funzionalità completamente gestito, che ci solleverà dall'onere di mantenere molteplici repository di funzionalità all'interno della nostra organizzazione. I nostri data scientist potranno utilizzare le funzionalità esistenti nell'archivio centralizzato e promuovere la standardizzazione e il riutilizzo delle funzionalità tra team e modelli diversi."
Mammad Zadeh, Vice President of Engineering, Data Platform (Vicepresidente di ingegneria e piattaforma dati), Intuit
"Experian si impegna per informare i consumatori sul funzionamento e sull'impiego del credito nella gestione delle proprie finanze, e aiuta le società di finanziamento a gestire il rischio di insolvenza. Nel nostro percorso di continuo impegno per costruire modelli finanziari imperniati su best practice, cercavamo soluzioni che accelerassero la creazione di prodotti basati sul machine learning. Amazon SageMaker Feature Store ci fornisce una soluzione sicura per archiviare e riutilizzare le funzionalità per le nostre applicazioni di ML. La capacità di garantire l'ottimizzazione delle applicazioni in batch e in tempo reale tra account diversi è un requisito essenziale per il nostro campo di attività. L'impiego delle nuove capacità di Amazon SageMaker Feature Store ci aiuta a consentire ai nostri clienti di assumere il controllo della propria posizione creditizia e di ridurre i costi nella nuova economia."
Geoff Dzhafarov, Chief Enterprise Architect (Responsabile dell'architettura aziendale), servizi per i clienti di Experian
"La missione di DeNA è fare la differenza e soddisfare i clienti utilizzando Internet e IA/ML. Fornire servizi basati sul valore è il nostro obiettivo principale e vogliamo garantire che le nostre aziende e i nostri servizi siano pronti a raggiungere tale traguardo. Vorremmo individuare e riutilizzare funzionalità in tutta l'organizzazione e Amazon SageMaker Feature Store ci assiste con un metodo semplice ed efficiente per riutilizzare le funzionalità per diverse applicazioni. Inoltre, Amazon SageMaker Feature Store ci aiuta a mantenere definizioni standard delle funzionalità e ci fornisce una metodologia coerente per l'addestramento dei modelli e l'implementazione in produzione. Grazie a queste nuove capacità di Amazon SageMaker, abbiamo velocizzato le fasi di addestramento e distribuzione dei modelli di ML, rispettando così il nostro impegno di soddisfare i clienti fornendo i servizi migliori.
Kenshin Yamada, General Manager (Direttore generale), dipartimento dei sistemi di AI, unità dei sistemi, DeNA
"Un settore assistenziale forte, dove l'offerta corrisponde alla domanda, è essenziale per la crescita economica, dalla singola famiglia fino al PIL nazionale. Non vediamo l'ora di provare Amazon SageMaker Feature Store perché crediamo che favorirà il dimensionamento tra i team di data science e di sviluppo grazie all'impiego di un set di dati coerenti e curati. Con le capacità appena annunciate di Amazon SageMaker, possiamo accelerare lo sviluppo e l'implementazione dei nostri modelli di ML per diverse applicazioni, aiutando i nostri clienti a prendere decisioni più informate grazie a suggerimenti più rapidi in tempo reale".
Clemens Tummeltshammer, Data Science Manager (Responsabile data science), Care.com
"Grazie al ML, 3M sta migliorando prodotti collaudati, come la carta vetrata, e sta promuovendo l'innovazione in molti altri settori, incluso quello sanitario. Mentre progettiamo di scalare il machine learning in più aree di 3M, vediamo la quantità di dati e modelli crescere rapidamente: raddoppiano ogni anno. Siamo entusiasti delle nuove caratteristiche di SageMaker perché ci aiutano a dimensionare le risorse. Amazon SageMaker Data Wrangler facilita notevolmente la preparazione dei dati per l'addestramento del modello e Amazon SageMaker Feature Store eliminerà la necessità di creare le stesse caratteristiche del modello più e più volte. Infine, Amazon SageMaker Pipelines ci aiuterà ad automatizzare la preparazione dei dati, la creazione del modello e l'implementazione del modello in un flusso di lavoro end-to-end in modo da poter accelerare il time-to-market dei nostri modelli. I nostri ricercatori non vedono l'ora di sfruttare la nuova velocità della scienza in 3M".
David Frazee, Technical Director (Direttore tecnico), 3M Corporate Systems Research Lab
Risorse
Novità
- Data (dalla più alla meno recente)