Almacén de características de Amazon SageMaker
Un servicio completamente administrado para las características de machine learning
Almacene, comparta y administre características de modelos de ML para el entrenamiento y la inferencia de forma que se promueva la reutilización de funciones en aplicaciones de ML
Ingiera características de cualquier origen de datos, incluidos streaming y lotes, como registros de aplicaciones, registros de servicios, secuencias de clics, sensores y datos tabulares de AWS o orígenes de datos de terceros
Transforme los datos en características de aprendizaje automático y cree canalizaciones de características que respalden las prácticas de MLOps y aceleren el tiempo necesario para modelar el despliegue
El almacén de características de Amazon SageMaker es un repositorio completamente administrado y creado específicamente para almacenar, actualizar, recuperar y compartir características de machine learning (ML). Las características son entradas para los modelos de ML que se usan durante el entrenamiento y la inferencia. Por ejemplo, en una aplicación que recomienda una lista de reproducción de música, las características pueden incluir clasificaciones de canciones, duración de escucha y datos demográficos de los oyentes. Muchos equipos utilizan las características de forma continua y la calidad de dichas características resulta fundamental para garantizar un modelo de alta precisión. Además, cuando las características utilizadas para entrenar modelos sin conexión en lotes están disponibles para la inferencia en tiempo real, resulta difícil mantener sincronizadas los dos almacenes de características. El almacén de características de SageMaker proporciona un almacén seguro y unificado para procesar, estandarizar y utilizar las características a escala a lo largo del ciclo de vida del aprendizaje automático.
Funcionamiento
Características clave
Procesamiento y recepción de características
Puede recibir datos en el almacén de características de SageMaker de una variedad de fuentes, tales como registros de aplicaciones y servicios, secuencias de clics, sensores y datos tabulares de orígenes como Amazon Simple Storage Service (Amazon S3), Amazon Redshift, AWS Lake Formation, Snowflake y Databricks Delta Lake. Mediante el procesamiento de características, puede especificar el origen de datos por lotes y la función de transformación de características (por ejemplo, el recuento de las vistas del producto o los agregados de ventanas temporales), y el almacén de características de SageMaker transforma los datos, en el momento de su recepción, en funciones de aprendizaje automático. Con Amazon SageMaker Data Wrangler, puede publicar características directamente en el almacén de características de SageMaker. Con el conector de Apache Spark, puede recibir, por lotes, un gran volumen de datos con una sola línea de código.
Almacenamiento, catálogo, búsqueda y reutilización de características
El almacén de características de SageMaker etiqueta e indexa los grupos de características para que puedan localizarse de manera sencilla a través de una interfaz visual en Amazon SageMaker Studio. Explorar el catálogo de características permite a los equipos descubrir características existentes que pueden reutilizar de manera fiable y evitar la duplicación de canalizaciones. El almacén de características de SageMaker utiliza el catálogo de datos de AWS Glue de forma predeterminada, pero le permite utilizar uno diferente si lo desea. También puede consultar características utilizando SQL familiar con Amazon Athena u otra herramienta de consulta que elija.
Coherencia de las características
El almacén de características de SageMaker admite almacenamiento sin conexión para el entrenamiento y el almacenamiento en línea para la inferencia en tiempo real. Estos son casos de uso muy distintos y los requisitos de almacenamiento difieren para cada uno de ellos. Con frecuencia, durante el entrenamiento los modelos usan el conjunto de datos completo y pueden tardar horas en completarse, mientras que la inferencia debe producirse en cuestión de milisegundos y, por lo general, necesita un subconjunto de los datos. Cuando se usan juntos, el almacén de características de SageMaker garantiza que los conjuntos de datos en línea y sin conexión permanezcan sincronizados, lo cual es fundamental porque si divergen, puede afectar negativamente la precisión del modelo.
Seguimiento de linaje
Para habilitar la reutilización de características de forma fiable, los científicos de datos necesitan saber cómo se crearon las características y qué modelos y puntos de conexión las están utilizando. El almacén de características de SageMaker permite a los científicos de datos realizar un seguimiento de sus características en Amazon SageMaker Studio con SageMaker Lineage. SageMaker Lineage permite realizar un seguimiento de las ejecuciones de canalizaciones programadas, visualizar el linaje ascendente para rastrear las características hasta sus orígenes de datos y ver el código de procesamiento de las características, todo en un solo entorno.
Viaje en el tiempo
Los científicos de datos pueden necesitar entrenar modelos con el conjunto exacto de valores de características de un momento específico en el pasado sin tener que correr el riesgo de incluir datos anteriores a ese momento (llamados también filtración de características), como los datos médicos del paciente antes del diagnóstico. La API fuera de línea del almacén de características de SageMaker admite consultas de un momento dado para recuperar el estado de cada característica en el momento histórico del interés.
Operaciones de ML
Los almacenes de características son un componente clave del ciclo de vida de MLOps. Administran las canalizaciones de características y conjuntos de datos, lo que acelera las tareas de ciencia de datos y elimina el doble trabajo que supondría crear las mismas características varias veces. El almacén de características de SageMaker se puede utilizar como un servicio independiente o bien junto con otros servicios de SageMaker de manera integrada en todo el ciclo de vida de MLOps.
Seguridad y cumplimiento
Para respaldar las necesidades de seguridad y cumplimiento, es posible que necesite un control granular sobre cómo se accede a las características de ML compartidas. Con frecuencia, estas necesidades, más allá del control de acceso a nivel de tabla y columna, van hasta el control de acceso a nivel de fila individual. Por ejemplo, es posible que quiera que los representantes de cuentas vean filas de una tabla de ventas solo para sus cuentas, de forma que se enmascare el prefijo de datos confidenciales como números de tarjetas de crédito. El almacén de características de SageMaker junto con AWS Lake Formation se puede utilizar para implementar controles de acceso específicos para así proteger los datos del almacén de características y conceder acceso según el rol.
Clientes
“En Climate, nos gusta proporcionar a los agricultores de todo el mundo información precisa para que tomen decisiones controladas por datos y puedan optimizar el rendimiento de cada hectárea. Para lograrlo, invertimos en tecnologías como las herramientas de machine learning que permiten crear modelos a partir de entidades medibles conocidas como características, por ejemplo, el rendimiento de un campo de cultivo. Gracias al almacén de características de Amazon SageMaker, podemos acelerar el desarrollo de modelos de ML mediante un almacén de características central al que se puede acceder y reutilizar en varios equipos con facilidad. Asimismo, facilita el acceso a las características en tiempo real con el almacén en línea o la ejecución de estas de forma programada mediante el almacén sin conexión para diferentes casos de uso. Gracias al almacén de características de SageMaker, podemos desarrollar modelos de ML mucho más rápido”.
Daniel McCaffrey, vicepresidente de datos y análisis de Climate
“En 2017, optamos por crear la nueva plataforma de machine learning de Intuit en AWS, con lo que combinamos las potentes capacidades de Amazon SageMaker en cuanto al desarrollo, el entrenamiento y el alojamiento de modelos con las capacidades propias de Intuit relativas a la orquestación y la ingeniería de características. Gracias a ello, redujimos el ciclo de vida del desarrollo de nuestros modelos de forma drástica. Lo que antes nos llevaba seis meses completos ahora nos lleva menos de una semana, lo que nos permite introducir las capacidades de IA en nuestros productos TurboTax, QuickBooks y Mint con gran rapidez. Trabajamos en estrecha colaboración con AWS para el lanzamiento del almacén de características de Amazon SageMaker y, por ello, estamos muy entusiasmados ante la posibilidad de contar con un almacén completamente administrado, que nos permita prescindir de mantener varios repositorios de características en toda nuestra organización. Nuestros científicos de datos podrán utilizar las características existentes desde un almacén central e impulsar tanto la estandarización como la reutilización de estas en todos los equipos y modelos”.
Mammad Zadeh, vicepresidente de ingeniería de la plataforma de datos de Intuit
“En Experian, creemos que es nuestra responsabilidad brindar a los consumidores los medios para comprender y utilizar los créditos en lo que respecta a su vida financiera, y ayudar a los acreedores a administrar el riesgo crediticio. A medida que sigamos aplicando prácticas recomendadas para crear nuestros modelos financieros, buscaremos soluciones que agilicen la elaboración de productos que utilicen la tecnología de machine learning. El almacén de características de Amazon SageMaker nos proporciona un modo seguro de almacenar y reutilizar características en nuestras aplicaciones de ML. La capacidad de mantener la consistencia de las aplicaciones en tiempo real y por lotes en varias cuentas supone un requisito clave para nuestra empresa. El uso de las nuevas capacidades del almacén de características de Amazon SageMaker nos permite capacitar a nuestros clientes para que asuman el control de su crédito y reduzcan los costos en la nueva economía”.
Geoff Dzhafarov, arquitecto comercial principal de Servicios al Consumidor de Experian
“En DeNA, nuestra misión es generar efectos positivos e interés mediante el uso de Internet y la IA o el ML. Nuestro objetivo principal es proporcionar servicios basados en el valor, por lo que queremos asegurarnos de que nuestros negocios y servicios están preparados para lograr dicho objetivo. Nos gustaría descubrir y reutilizar características en toda la organización y el almacén de características de Amazon SageMaker nos sirve ayuda, ya que supone una manera fácil y eficiente de reutilizar características para diferentes aplicaciones. El almacén de características de Amazon SageMaker también nos ayuda a mantener definiciones de características estándar y a contar con una metodología consistente a medida que entrenamos los modelos y los implementamos en la fase de producción. Con estas nuevas capacidades de Amazon SageMaker, podemos entrenar e implementar modelos de ML con mayor rapidez, lo que nos lleva a continuar con nuestro propósito de ofrecer a nuestros clientes los mejores servicios”.
Kenshin Yamada, gerente general de la unidad del Departamento de Sistemas de IA, de DeNA
“Una industria de atención donde los suministros satisfagan la demanda es esencial para el crecimiento económico tanto de una familia particular como del PBI de la nación. Estamos muy entusiasmados con el almacén de características de Amazon SageMaker, ya que creemos que nos ayudará a mejorar la escalabilidad de nuestros equipos de ciencia de datos y de desarrollo, mediante el uso de un conjunto consistente de datos seleccionados. Con las capacidades de Amazon SageMaker recientemente anunciadas, podemos acelerar el desarrollo y la implementación de nuestros modelos de ML para diferentes aplicaciones, a fin de ayudar a nuestros clientes a tomar mejores decisiones mediante recomendaciones más rápidas en tiempo real”.
Clemens Tummeltshammer, gerente de ciencia de Datos de Care.com
“Con el uso de ML, 3M está mejorando los productos de eficacia comprobada, como el papel de lija, e innovando en muchos otros ámbitos, incluido el de la sanidad. A medida que planeamos escalar el proceso de machine learning en más áreas de 3M, vemos cómo la cantidad de datos y modelos crecen rápidamente y se multiplican año tras año. Estamos entusiasmados con las nuevas características de SageMaker porque nos ayudarán a escalar. Amazon SageMaker Data Wrangler facilita la preparación de datos para el entrenamiento de modelos y el almacén de características de Amazon SageMaker elimina la necesidad de crear repetidamente las mismas características del modelo. Por último, Amazon SageMaker Pipelines nos ayudará a automatizar la preparación de datos y la creación e implementación de modelos en un flujo de trabajo integral, para así poder acelerar el tiempo de comercialización de nuestros modelos. Nuestros investigadores esperan aprovechar el nuevo ritmo de la ciencia en 3M”.
David Frazee, director técnico del Laboratorio de Sistemas de Investigación Corporativa de 3M
Recursos
Cree conjuntos de datos de entrenamiento de ML precisos mediante consultas de un momento dado
Amazon SageMaker Feature Store deep dive (Análisis en profundidad del Almacén de características de Amazon SageMaker) (21:54)
Novedades
- Fecha (de más reciente a más antigua)