Guía para lagos de datos en AWS

Esta guía muestra un lago de datos configurado automáticamente en AWS mediante una arquitectura escalable, sin servidores y basada en eventos. Aprovecha los servicios gestionados de AWS para ingerir, almacenar, procesar y analizar datos, y ofrece un diseño seguro, flexible y rentable con una gobernanza de datos adecuada. Este enfoque proporciona mayor agilidad, flexibilidad y fiabilidad en comparación con los sistemas de administración de datos tradicionales. Toda la solución está diseñada como una aplicación codificada que utiliza infraestructura como código (IaC) y una canalización de integración continua y entrega continua (CI/CD).

Tenga en cuenta lo siguiente: [Descargo de responsabilidad]

Diagrama de la arquitectura

[Descripción del diagrama de arquitectura]

Descargue el diagrama de la arquitectura en PDF

Guidance Architecture Diagram for Data Lakes on AWS

Paso 1
El administrador de datos carga los archivos JSON en el bucket sin procesar de Amazon Simple Storage Service (Amazon S3). La creación de objetos en Amazon S3 desencadena un evento en Amazon EventBridge.

Paso 2
EventBridge tiene una regla que envía un mensaje en Amazon Simple Queue Service (Amazon SQS), que invoca una función de AWS Lambda.

Paso 3
La función de Lambda activa el flujo de trabajo de AWS Step Functions, en el que otra función de Lambda lee los archivos del bucket sin procesar de S3 y realiza la transformación. También escribe el nuevo conjunto de archivos JSON en el bucket de etapa S3.

Paso 4
Una función de Lambda actualiza la tabla de Amazon DynamoDB con el estado del trabajo de Step Functions.

Paso 5
Una vez que los archivos se crean en el bucket de etapa S3, se desencadena un evento en EventBridge, que tiene una regla que envía un mensaje en Amazon SQS con los detalles del archivo creado.

Paso 6
El programador de Eventbridge se ejecuta a intervalos determinados e invoca una función de Lambda que recupera los mensajes de Amazon SQS e inicia otro flujo de trabajo de Step Functions.

Paso 7
La función de extracción, transformación y carga (ETL) de AWS Glue lee los datos de la fase de base de datos de AWS Glue y, a continuación, convierte los archivos del formato JSON al formato Parquet.

Paso 8
AWS Glue ETL escribe los archivos de Parquet en el bucket de análisis de S3. El rastreador AWS Glue rastrea los archivos de Parquet en el mismo bucket y, a continuación, crea tablas de análisis en la base de datos de análisis de AWS Glue.

Paso 9
Todos los catálogos de pruebas y análisis se mantienen en el catálogo de datos de AWS Glue.

Paso 10
Una función de Lambda actualiza la tabla de DynamoDB con el estado del trabajo de Step Functions.

Paso 11
Los analistas empresariales utilizan Amazon Athena para consultar los análisis de la base de datos de AWS Glue.

Comenzar

Implementar esta guía

Código de muestra

Utilice un código de muestra para implementar esta guía en su cuenta de AWS

Pilares de AWS Well-Architected Framework

AWS Well-Architected Framework le permite comprender las ventajas y desventajas de las decisiones que tome durante la creación de sistemas en la nube. Los seis pilares de este marco permiten aprender las prácticas recomendadas arquitectónicas para diseñar y explotar sistemas confiables, seguros, eficientes, rentables y sostenibles. Con la Herramienta de AWS Well-Architected, que se encuentra disponible gratuitamente en la Consola de administración de AWS, puede revisar sus cargas de trabajo con respecto a estas prácticas recomendadas al responder a un conjunto de preguntas para cada pilar.

El diagrama de arquitectura mencionado es un ejemplo de una solución que se creó teniendo en cuenta las prácticas recomendadas de una buena arquitectura. Para tener completamente una buena arquitectura, debe seguir todas las prácticas recomendadas de buena arquitectura posibles.

Excelencia operativa

Amazon CloudWatch proporciona información completa sobre el rendimiento y el estado mediante el registro operativo de cada componente arquitectónico. Utilice el registro de acceso a los servidores de Amazon S3 para realizar un seguimiento detallado de las solicitudes realizadas a su lago de datos, lo que le permitirá realizar auditorías de seguridad y acceso, así como comprender su facturación de Amazon S3. DynamoDB monitorea meticulosamente el estado de los trabajos de canalización de sus lagos de datos, lo que le permite identificar y resolver rápidamente cualquier error que pueda surgir.

Lea el documento técnico sobre excelencia operativa
Seguridad

AWS Key Management Service (AWS KMS) protege su lago de datos cifrando todos los datos en reposo mediante claves administradas por el cliente. Proteja los datos en tránsito con un sólido cifrado TLS 1.2. AWS Identity and Access Management (IAM) le permite administrar las identidades y el acceso a sus servicios y recursos de AWS con precisión, mediante el principio de privilegio mínimo.

Lea el documento técnico sobre seguridad
Fiabilidad

Amazon S3 actúa como la capa de almacenamiento más duradera y disponible. Las canalizaciones de datos se activan a través de EventBridge, que envía mensajes a Amazon SQS para iniciar los trabajos de canalización. Los errores se gestionan moviendo los mensajes a una cola de mensajes muertos para su depuración y reprocesamiento. La guía se puede volver a implementar en otra región o cuenta de AWS en caso de que se produzca un error regional, lo que garantiza la flexibilidad y la resiliencia.

Lea el documento técnico sobre fiabilidad
Eficiencia en el rendimiento

Esta solución optimiza el rendimiento mediante el uso de Lambda para tareas ligeras y AWS Glue para transformaciones de datos pesadas. AWS Glue, un servicio de integración de datos sin servidor, simplifica y acelera la preparación de los datos a la vez que reduce los costos. Aprovecha Apache Spark para la ejecución escalable de los trabajos de transformación. Step Functions organiza los trabajos de AWS Glue y proporciona capacidades de procesamiento distribuido para mejorar el rendimiento de la canalización de datos.

Lea el documento técnico sobre eficacia del rendimiento
Optimización de costos

Esta guía utiliza servicios de AWS sin servidor, lo que reduce los costos totales de propiedad y permite la escalabilidad en función de la demanda. Amazon S3 actúa como capa de almacenamiento y ofrece varias clases de almacenamiento rentables con una administración automatizada del ciclo de vida para diversos patrones de acceso a los datos. Al cambiar la administración de la infraestructura a AWS, el enfoque sin servidores permite a los desarrolladores centrarse en el código, lo que reduce aún más los costos y mejora la eficiencia.

Lea el documento técnico sobre la optimización de costos
Sostenibilidad

Los servicios sin servidor incluidos en esta guía se escalan en función de la demanda, lo que maximiza la eficiencia energética y minimiza los recursos informáticos. Amazon S3 implementa políticas de ciclo de vida de los datos y almacena los datos ingeridos en formato Parquet. Este formato comprimido reduce los escaneos de datos por consulta, lo que reduce aún más los recursos informáticos necesarios para la carga de trabajo. La combinación de una arquitectura sin servidor y un almacén de datos eficiente optimiza el rendimiento general y la utilización de los recursos.

Lea el documento técnico sobre sostenibilidad

Contenido relacionado

[Tipo de contenido]

[Título]

En esta [entrada de blog/libro electrónico/orientación/código de muestra] se demuestra cómo [insertar una descripción breve].

Descargo de responsabilidad

El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como ejecutar instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.

Las referencias a servicios u organizaciones de terceros en esta Guía no implican un respaldo, patrocinio o afiliación entre Amazon o AWS y el tercero. La orientación de AWS es un punto de partida técnico, y puede personalizar su integración con servicios de terceros al implementar la arquitectura.

¿Le resultó útil esta página?

Comentarios