¿Qué es un catálogo de datos?

Un catálogo de datos es un inventario de todos los datos que una organización recopila y procesa. Los requisitos reglamentarios obligan a las organizaciones a asegurar y proteger sus datos en todo momento, desde la recopilación hasta el consumo. Un catálogo de datos organiza y clasifica los datos para respaldar la gobernanza y la detección de datos. De este modo, facilita la eficiencia operativa al compartir el contexto, ya que todos pueden entender con rapidez por qué y cómo se utiliza un conjunto de datos específico en una organización.

¿Cuáles son las ventajas de un catálogo de datos?

Como herramienta organizativa, un catálogo de datos agiliza la búsqueda de datos y la identificación para qué se utilizan. A continuación, indicamos algunos beneficios.

Descubrimiento rápido de activos

Un catálogo de datos simplifica el proceso de identificación de datos, lo que ayuda a aumentar la productividad de los empleados. A continuación, puede buscar datos mediante etiquetas descriptivas para descubrir rápidamente los datos relacionados y, al mismo tiempo, comprender el contexto y el propósito de cada conjunto de datos. Ofrece una visión de dónde provienen los datos, cómo se mueven a través de los sistemas y cómo se transforman.  Los analistas de datos a menudo pueden realizar sus análisis sin depender en gran medida de la TI, lo que permite obtener información más rápida.

Calidad de datos mejorada

Los catálogos de datos requieren varios campos que los empleados deben completar cuando una empresa ingiere datos nuevos. Cuando los usuarios acceden al catálogo, su capacidad para leer sobre los orígenes de los datos, los procesos de transformación y las fechas de edición significa que pueden tener más confianza al interactuar con la información. Un alto grado de integridad ayuda a aumentar la facilidad de la gobernanza de los datos y a mejorar la calidad de los datos. Las empresas también pueden automatizar la generación de los metadatos de este catálogo de datos para proporcionar catálogos de datos completos con menos esfuerzo. 

Mayor nivel de eficiencia

Un catálogo de datos fomenta la coherencia en los nombres, las definiciones y las métricas, lo que garantiza que los diferentes equipos de una organización estén alineados en su comprensión y uso de los datos. Con la visibilidad de todos los activos de datos, las organizaciones pueden reducir la redundancia de los datos, lo que garantiza que los esfuerzos no se dupliquen y los costes de almacenamiento se minimicen. Las ganancias de productividad que experimentan los científicos de datos también ayudan a reducir los costes generales.

Seguridad mejorada

Las normas de privacidad exigen que las organizaciones sepan dónde se encuentran los datos personales y quién ha accedido a ellos. Un catálogo de datos puede ayudar a garantizar que los datos confidenciales se gestionen correctamente y que el acceso se conceda de forma adecuada. Las organizaciones pueden rastrear de dónde provienen sus datos, quién ha accedido a ellos y cómo se utilizan, lo que mejora las iniciativas de cumplimiento normativo. 

¿Cuáles son los casos de uso de un catálogo de datos?

Las organizaciones pueden usar los catálogos de datos para optimizar su almacenamiento y administración de datos. A continuación se muestran algunos de los casos de uso de un catálogo de datos.

Análisis de autoservicio

Un catálogo de datos proporciona una descripción detallada de lo que contienen los datos y para qué los utiliza una empresa. También permite a las empresas diferenciar muchos datos similares y acelerar cualquier proceso relacionado con la recuperación y el uso de datos, especialmente en entornos empresariales. Esta transparencia mejorada permite a los usuarios determinar rápidamente qué datos están consultando y descubrir toda la información necesaria en un solo lugar. Puede crear flujos de trabajo de análisis de autoservicio para usuarios de datos no técnicos, incluso con grandes volúmenes de datos almacenados.

Intercambio de conocimientos

La colaboración es clave para obtener información procesable a partir de los datos. Un catálogo de datos fomenta un entorno colaborativo al permitir a los usuarios comentar, calificar y revisar conjuntos de datos. Al compartir sus experiencias y conocimientos sobre conjuntos de datos específicos, los usuarios pueden trabajar juntos para reducir los riesgos y acelerar los análisis en toda la organización.

Análisis de linaje de datos

Comprender dónde se originan los datos y cómo atraviesan varios sistemas es fundamental para solucionar problemas de datos, realizar análisis de impacto o cumplir con los estándares de cumplimiento. Un catálogo de datos proporciona visibilidad del linaje de datos, lo que brinda a los usuarios una imagen clara del recorrido de los datos desde su origen hasta su destino final. Las empresas pueden crear documentos de taxonomía internos que permitan a todos los empleados entender los nombres correctos de todos los activos de datos. Tener un documento o una hoja de referencia en un catálogo de datos aumenta la coherencia de los datos en toda la organización.

¿Qué información contiene un catálogo de datos?

Los catálogos de datos contienen metadatos para describir su inventario de activos de datos y proporcionar información adicional sobre lo que contienen los datos. Los campos de metadatos le permiten buscar rápidamente en los datos y localizar los activos. Un catálogo de datos puede incluir un rango de metadatos, como los siguientes ejemplos.

Metadatos empresariales

Los metadatos empresariales son cualquier información relacionada con el valor que proporcionan a una empresa. Podría incluir información sobre el uso de los datos en una empresa, detalles de cumplimiento normativo y un contexto empresarial útil para otros usuarios. Por ejemplo, puede contener anotaciones de proyectos de datos, como los niveles de confidencialidad de los datos, las descripciones, la ubicación, los usuarios, el departamento, etc. Por lo general, una organización definirá los datos empresariales exactos que necesita e incluirá varios campos relacionados.

Metadatos técnicos

Los metadatos técnicos describen la estructura general de un conjunto de datos. Describe la estructura de los objetos de datos y comenta sus relaciones, conexiones, índices, filas, columnas y forma tabular. Estos metadatos también proporcionan contexto a los profesionales de datos sobre los procesos a los que deben someterse los datos, como pasar a la transformación o al análisis. Los usuarios entienden rápidamente cómo una organización ha organizado y mostrado la información. 

Metadatos operativos

Los metadatos operativos comentan el origen de los datos y su transformación, actualizaciones, cardinalidad y otros marcadores de identificación de procesos. Con los metadatos operativos, puede ver cómo ingresaron los datos a su organización, qué transformación sufrió y otras actualizaciones de estado actuales. Con los campos de metadatos operativos, puede ver cuándo los usuarios editaron los datos por última vez y quién tiene permiso para editar los datos.

¿Cuáles son las características principales de un catálogo de datos?

Las plataformas modernas de catálogos de datos utilizan varias características clave para optimizar su uso y aumentar la eficiencia. 

Automation

La automatización permite a las empresas gestionar su catálogo de datos con menos esfuerzo. Las capacidades de integración permiten que el catálogo extraiga automáticamente metadatos de varias fuentes. El catálogo permanece actualizado cuando se agregan nuevos activos de datos o se actualizan los existentes. Algunos sistemas avanzados también aprovechan el machine learning para mejorar y refinar sus procesos de categorización de datos a lo largo del tiempo. Las características de automatización de un catálogo de datos mejoran la agilidad a pesar del aumento constante de los volúmenes de datos.

Opciones de búsqueda eficientes

Las características de búsqueda en el catálogo de datos van más allá de las búsquedas básicas de palabras clave para ofrecer sugerencias. También incorporan filtros para que los usuarios puedan encontrar los datos en función de varios criterios. La experiencia del usuario es similar a la de los motores de búsqueda modernos, ya que proporcionan resultados relevantes, clasificados y de acceso rápido. La eficiencia en la recuperación de datos ahorra tiempo y fomenta el descubrimiento y la exploración de datos. 

Glosario universal 

Un glosario universal ofrece definiciones estandarizadas de términos y métricas en toda la organización. Garantiza que todos los términos de metadatos tengan una definición única y clara. Cuando los usuarios encuentran un término en el catálogo, pueden consultar el significado del glosario, lo que garantiza una comprensión y un uso coherentes en todos los ámbitos. Esto es particularmente crucial para mantener la integridad de los datos y promover una comunicación clara entre los diferentes equipos.

¿Cuál es la diferencia entre la gobernanza de datos y un catálogo de datos?

La gobernanza de datos es una metodología que garantiza que los datos estén en las condiciones adecuadas para respaldar las iniciativas y operaciones empresariales. ​Establecer la gobernanza adecuada significa equilibrar el acceso y el control de los datos y brindar a las personas confianza en los datos, al tiempo que se fomenta la experimentación. Ofrece un marco que las personas pueden seguir al utilizar los datos y la tecnología empresariales. La gobernanza de datos es útil para garantizar una alta calidad de los datos y un uso adecuado bajo restricciones reglamentarias.

Los catálogos de datos son una tecnología para implementar políticas de gobernanza de datos. La gobernanza de datos define las políticas de uso de datos, mientras que los catálogos de datos las aplican. Estos catálogos permiten a las empresas realizar un seguimiento de su gobernanza de datos de manera más eficaz. 

¿Cómo puede AWS satisfacer sus requisitos de catálogo de datos?

AWS Glue es un servicio de integración de datos sin servidor que facilita la detección, preparación, migración e integración de datos provenientes de varios orígenes para el análisis de datos, machine learning (ML) y desarrollo de aplicaciones. El Catálogo de datos de AWS Glue es un repositorio central que almacena metadatos estructurales y operativos para sus recursos de datos. Puede almacenar la definición de la tabla y la ubicación física de un conjunto de datos determinado, agregar atributos relevantes para la empresa y realizar un seguimiento de cómo han cambiado estos datos a lo largo del tiempo.

El catálogo de datos también se integra con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum. Una vez que haya agregado las definiciones de las tablas al catálogo de datos, podrá tener una vista común de los datos entre estos servicios.

AWS Glue ofrece numerosas formas de incluir metadatos en el catálogo de datos. Podrá, por ejemplo:

  • configurar rastreadores de AWS Glue para analizar varios almacenes de datos y deducir automáticamente esquemas y la estructura de particiones y rellenar el catálogo de datos con las estadísticas y definiciones de tablas correspondientes;
  • programar rastreadores para que se ejecuten de manera periódica, de modo que los metadatos siempre estén actualizados y sincronizados con los datos subyacentes; 
  • agregar y actualizar manualmente los detalles de la tabla mediante la consola de AWS Glue o mediante una llamada a la API. 

Configure una cuenta gratuita hoy mismo para comenzar a utilizar los catálogos de datos en AWS.

Pasos siguientes con AWS

Descubra otros recursos relacionados con el producto
Más información acerca de los servicios de administración y gobernanza 
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comenzar a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión