Amazon DataZone: Automatización del descubrimiento de datos

Información general

Elimine el tiempo que supone el ingreso manual de atributos de datos en el catálogo correspondiente, lo que también genera posibles errores. Genere un contexto empresarial y recomiende análisis para conjuntos de datos para optimizar los resultados del descubrimiento de datos. Comprenda de dónde provienen sus datos y cuáles serán las fuentes afectadas por los cambios. El aumento de datos más detallados en el catálogo de datos empresariales también mejora la experiencia de búsqueda. Reduzca el tiempo de búsqueda y uso de datos de semanas a días.

Características principales

El catálogo de datos empresariales de Amazon DataZone opera como un registro federado de la organización en el que los metadatos técnicos pueden publicarse como activos y se puede agregar contexto empresarial enriquecido. Puede lograr que los datos sean visibles con el contexto empresarial para que todos los usuarios los encuentren, comprendan y se fíen de ellos de manera rápida y sencilla.

Automatice la inclusión de nombres y descripciones de empresas en los datos. Esto facilita la comprensión del contexto y evita tener que lidiar con nombres técnicos crípticos. Esta automatización se apoya en modelos de lenguaje de gran tamaño (LLM) a fin de aumentar la precisión y la coherencia. 

La búsqueda por facetas funciona sobre el catálogo de datos empresariales para que los consumidores y productores puedan encontrar activos de datos a partir de información estructural conocida, como nombres de tablas y columnas, así como terminología empresarial.

Para cada conjunto de datos, genere una lista de las columnas más importantes y los usos probables de análisis. 

Con las estadísticas de calidad de los datos de Amazon DataZone, los consumidores de datos pueden ver las métricas de Calidad de datos de AWS Glue o de sistemas de terceros. Los consumidores de datos pueden confiar en los orígenes de datos que utilizan para tomar decisiones y tener un contexto de calidad de datos mientras buscan activos. Los productores y los equipos de TI también pueden usar las API para incorporar estadísticas de calidad de los datos de sistemas de terceros en un portal unificado y fuera de la consola. Además, los productores de datos pueden incluir los resultados de Calidad de datos de AWS Glue según un cronograma para asegurarse de que las puntuaciones estén actualizadas, aunque los datos sigan cambiando.

Comprenda el movimiento de los datos a lo largo del tiempo. El linaje de datos puede aumentar tanto la fiabilidad como el nivel de conocimiento de los datos por parte de una organización, ya que ayuda a los consumidores de datos a determinar la procedencia, los cambios y el consumo de los mismos. Puede reducir el tiempo dedicado a la asignación de un activo de datos y sus relaciones, solucionar problemas y desarrollar canalizaciones y afirmar las prácticas de gobierno de datos.

Agrupe los activos de datos en paquetes definidos (productos de datos) diseñados para casos de uso empresarial específicos con el fin de agilizar la catalogación y permitir a los consumidores de datos descubrir y suscribirse fácilmente a los datos. Los productores de datos pueden seleccionar una colección de activos adecuados, agregar contexto empresarial y publicarla como una unidad de producto de datos. Esto simplifica el proceso para que los consumidores de datos localicen todos los activos de datos necesarios para casos de uso concretos. Los consumidores pueden suscribirse a todos los activos de un producto de datos a través de un único flujo de trabajo de aprobación. Los productores de datos pueden administrar el ciclo de vida del producto, incluida la edición de la colección de activos, la anulación de la publicación, la eliminación y el mantenimiento de las suscripciones. Amazon DataZone también ofrece compatibilidad con API para flujos de trabajo de productos de datos, lo que facilita la integración y la automatización.

Casos de uso

Reduzca el tiempo que tarda en obtener información mediante la búsqueda de los datos adecuados en el contexto correcto. Solo se puede confiar en los datos cuando son coherentes, precisos, completos, oportunos, fáciles de rastrear y tienen una puntuación de calidad de datos transparente. Con la propiedad distribuida, cada departamento o el equipo de análisis mantiene la fidelidad de los activos para que los consumidores de datos tengan la certeza de que utilizan los datos correctos.

Cree un catálogo de datos empresarial a partir del rastreo de sus activos e incorpore los metadatos técnicos (no los datos reales) para enriquecerlos con el contexto empresarial. El contexto empresarial puede enriquecerse con glosarios y términos normalizados. También puede personalizar metadatos adicionales a través del formulario correspondiente.

Para utilizar los datos correctos es necesario comprender su contexto. En este sentido, Amazon DataZone permite crear ese contexto para todos los datos que se cataloguen con glosarios y formularios de metadatos. Así, el propietario puede compartir toda la información que sea necesaria para establecer el contexto de los datos, de modo que el consumidor pueda encontrarlos, comprenderlos y suscribirse a ellos. La puntuación de calidad de los datos ayuda a los consumidores de datos a comprender si un activo de datos es adecuado para su propósito.

Reduzca el tiempo que dedica a la asignación de los activos de datos y sus relaciones, a solucionar problemas y desarrollar canalizaciones y a hacer valer las prácticas de gobierno de datos. Con una experiencia gráfica, los consumidores de datos comprenden el origen del activo. Los productores de datos pueden evaluar el efecto de los cambios en una tabla o columna al comprender qué sistemas o datos utilizan los consumidores los datos (análisis de impacto). Los productores de datos también pueden solucionar problemas de datos con la revisión de las instantáneas del linaje de un activo de datos para detectar el origen del error. Amazon DataZone visualiza el linaje de datos capturado a partir de eventos de OpenLineage, un estándar abierto para la recopilación de linajes, pero también puede capturar asignaciones de linaje personalizados. El linaje ayuda a los productores de datos a incluir el linaje de datos al compartir los datos, lo que aumenta la confianza en los orígenes de datos.

Vídeos

AWS re:Invent 2023: Cómo crear un catálogo empresarial con Amazon DataZone (21:37)
AWS re:Invent 2023: comprenda sus datos con el contexto empresarial (55:40)

Preguntas frecuentes

¿Qué tipo de información se usa en el catálogo de datos empresariales de Amazon DataZone?

En el catálogo de datos empresarial de Amazon DataZone, los metadatos empresariales proporcionan información cuya autoría o uso corresponde a los empresarios y dan contexto a los datos de la organización. Puede incluir la siguiente información:

  • Propiedad: las organizaciones modernas centradas en los datos emplean un proceso de administración de datos distribuido en el que las líneas de negocio (LOB) se encargan de administrar sus propios datos. Un catálogo hace un seguimiento de esa propiedad para que las partes interesadas puedan buscar datos y solicitar acceso a los mismos como parte de sus tareas empresariales.
  • Clasificación: el descubrimiento de datos es una tarea clave que los metadatos empresariales pueden respaldar. El descubrimiento de datos utiliza ontologías y taxonomías corporativas definidas de forma centralizada para clasificar el origen de los datos y ayudarlo a encontrar objetos de datos relevantes.
  • Relaciones: puede utilizar el catálogo de datos empresarial de Amazon DataZone para agregar información de relaciones como metadatos. Al igual que ocurre con un esquema de conjunto de datos técnico, el catálogo de metadatos empresarial muestra las relaciones entre los objetos del catálogo, como las que existen entre las bases de datos, los conjuntos de datos y sus columnas.
  • Esquema: las recomendaciones de IA para las descripciones pueden utilizar el esquema técnico y empresarial para generar descripciones y usos recomendados para los datos.
  • Origen y consumo: el linaje de datos y el análisis de impacto, así como los mapeos personalizados de OpenLineage, están vinculados al catálogo de datos empresariales.

¿Qué puedo catalogar con Amazon DataZone?

Amazon DataZone admite activos de datos publicados directamente desde el Catálogo de datos de AWS Glue y Amazon Redshift. Estos dos orígenes pueden utilizarse para crear catálogos de datos en las siguientes ubicaciones:

  • Lagos de datos de Amazon Simple Storage Service (Amazon S3)
  • Muchas de las bases de datos personalizadas por AWS como Amazon Relational Database Service (Amazon RDS) a través de un rastreador AWS Glue
  • Más de 100 conectores Amazon AppFlow, para importar datos de aplicaciones de terceros como Snowflake, Salesforce y Google Analytics.