Obtenga información integrada mediante la ejecución de análisis predictivos y en tiempo real sobre datos complejos y escalados en sus bases de datos operativas, lagos de datos, almacenamientos de datos y miles de conjuntos de datos de terceros.
Consulta federada: con la nueva capacidad de consulta federada de Amazon Redshift, puede trabajar con su base de datos relacional operativa. Realice consultas de datos en directo en una o más bases de datos de Amazon Relational Database Service (RDS), Aurora PostgreSQL, RDS MySQL y Aurora MySQL para obtener una visibilidad instantánea de las operaciones empresariales integrales, sin la necesidad de trasladar datos. Puede combinar datos de los almacenamientos de datos de Redshift, de un lago de datos y de los almacenes operativos, para tomar mejores decisiones basadas en los datos. Amazon Redshift ofrece optimizaciones para reducir el movimiento de datos en la red y las complementa con un procesamiento masivo de datos en paralelo para lograr consultas de alto rendimiento. Más información
Uso compartido: el uso compartido de datos de Amazon Redshift permite extender la facilidad de uso, el rendimiento y los beneficios en materia de costos que ofrece Amazon Redshift desde un solo clúster hasta despliegues de varios clústeres, a la vez que se pueden compartir los datos. El uso compartido de datos permite el acceso instantáneo, rápido y pormenorizado a los datos en todos los clústeres de Redshift, sin necesidad de copiarlos ni trasladarlos. El uso compartido de datos proporciona acceso en directo a los datos para que los usuarios siempre vean la información más actualizada y coherente a medida que se actualiza en el almacenamiento de datos. Puede compartir datos en directo de forma segura con los clústeres de Redshift que se encuentren en la misma cuenta de AWS o en cuentas diferentes y entre regiones. Más información
AWS Data Exchange para Amazon Redshift: consulte los conjuntos de datos de Amazon Redshift desde su propio clúster de Redshift sin necesidad de extracción, transformación y carga (ETL) de los datos. Puede suscribirse a los productos de almacenamiento de datos en la nube de Redshift en AWS Data Exchange. Apenas un proveedor efectúa una actualización, los suscriptores pueden ver el cambio. Si es un proveedor de datos, el acceso se otorga automáticamente cuando comienza la suscripción y se revoca cuando finaliza. Las facturas se generan de forma automática cuando vencen los pagos y estos se cobran a través de AWS. Puede autorizar el acceso a los archivos sin formato, los datos de Amazon Redshift y los datos entregados a través de las API, todo con una sola suscripción. Más información
Machine Learning de Redshift: el ML de Redshift facilita a los analistas de datos, los científicos de datos, los profesionales de BI y los desarrolladores la creación, la formación y la implementación de modelos de Amazon SageMaker mediante SQL. Con el machine learning de Redshift, puede utilizar instrucciones SQL para crear y formar modelos de Amazon SageMaker a partir de los datos de Amazon Redshift y, luego, utilizar esos modelos para hacer predicciones, como la detección de la deserción de clientes, los pronósticos financieros, la personalización y la puntuación de riesgos directamente en sus consultas e informes. Más información
Integración de Amazon Redshift para Apache Spark: esta característica facilita la creación y ejecución de aplicaciones de Apache Spark con datos de Amazon Redshift, lo que permite a los clientes ampliar el almacenamiento de datos para funcionar con un conjunto más amplio de soluciones de análisis y machine learning. Con la integración de Amazon Redshift para Apache Spark, los desarrolladores que utilizan análisis de AWS y servicios de ML como Amazon EMR, AWS Glue, Amazon Athena Spark y Amazon SageMaker pueden comenzar en segundos, y crear sin esfuerzo aplicaciones de Apache Spark que lean y escriban en su almacenamiento de datos de Amazon Redshift sin afectar el rendimiento de sus aplicaciones ni la coherencia transaccional de sus datos. La integración de Amazon Redshift para Spark también hace más fácil supervisar y solucionar errores de rendimiento de aplicaciones de Apache Spark cuando se utiliza con Amazon Redshift.
Integración de Amazon Aurora con Amazon Redshift sin ETL: una integración sin código entre Amazon Aurora y Amazon Redshift que permite a los clientes de Amazon Aurora utilizar Amazon Redshift para realizar análisis en tiempo y real y usar machine learning con petabytes de datos transaccionales. En cuestión de segundos, Amazon Aurora con Amazon Redshift sin ETL hace que los datos transaccionales que se han escrito en Amazon Aurora están disponibles de manera integral en Amazon Redshift, lo que elimina la necesidad de que los clientes creen y mantengan canalizaciones de datos complejas para realizar operaciones de extracción, transformación y carga (ETL). Esta integración reduce la carga operativa y los costos, y permite a los clientes centrarse en mejorar sus aplicaciones. Con acceso casi en tiempo real a los datos transaccionales, los clientes pueden beneficiarse de las capacidades de análisis y machine learning de Amazon Redshift para obtener información de los datos transaccionales, y otros datos, y así responder de manera eficaz a eventos críticos y sensibles al tiempo.
Ingesta de streaming: ingenieros de datos, analistas de datos y desarrolladores de macrodatos están utilizando motores de streaming en tiempo real para mejorar la capacidad de respuesta de los clientes. Con la nueva capacidad de ingesta de streaming en Amazon Redshift, puede utilizar SQL (Structured Query Language) para brindar la capacidad de conectarse e ingerir directamente a partir de Amazon Kinesis Data Streams y Amazon Managed Streaming para Apache Kafka (MSK). La ingesta de streaming de Amazon Redshift simplifica las canalizaciones de datos al permitirle crear vistas materializadas sobre los flujos directamente. Las vistas materializadas también pueden incluir transformaciones SQL como parte de la canalización ELT (Extract Load Transform). Puede actualizar de manera manual vistas materializadas definidas para consultar los datos de streaming más recientes. Este enfoque le permite realizar el procesamiento posterior y las transformaciones de los datos de streaming utilizando las herramientas existentes con las que está familiarizado, sin costo adicional.
Consulta de los datos y exportación desde y hacia un lago de datos: ningún otro almacenamiento de datos en la nube facilita tanto la consulta de los datos y su escritura de vuelta en el lago de datos en formatos abiertos. Puede realizar consultas en formatos de archivo abiertos, como Parquet, ORC, JSON, Avro, CSV y más directamente en Amazon S3 mediante el uso del conocido SQL ANSI. Para exportar datos a un lago de datos, tan solo debe utilizar el comando UNLOAD de Amazon Redshift en el código SQL y especificar Parquet como el formato de archivo. Amazon Redshift se encargará automáticamente de darle formato a los datos y de migrarlos a S3. Esto le da la flexibilidad para almacenar datos con un alto nivel de estructuración a los que se accede con frecuencia y datos semiestructurados en un almacenamiento de datos de Amazon Redshift y, al mismo tiempo, conservar exabytes de datos estructurados, semiestructurados y no estructurados en Amazon S3. Exportar datos desde Amazon Redshift de regreso a un lago de datos le permite analizar los datos en mayor medida con servicios de AWS como Amazon Athena, Amazon EMR y Amazon SageMaker.
Integración con los servicios de AWS: la integración nativa con los servicios de AWS, los servicios de bases de datos y de machine learning facilita la gestión de flujos de trabajo completos de análisis sin fricción. Por ejemplo, AWS Lake Formation es un servicio que facilita la configuración de un lago de datos seguro en cuestión de días. AWS Glue puede extraer datos de Amazon Redshift, transformarlos y cargarlos (ETL) también en dicho servicio. Amazon Kinesis Data Firehose es la forma más sencilla de registrar, transformar y cargar datos de streaming en Amazon Redshift para realizar análisis casi en tiempo real. Puede utilizar Amazon EMR para procesar datos con Hadoop/Spark y cargar el resultado en Amazon Redshift para tareas de inteligencia empresarial y análisis. Amazon QuickSight es el primer servicio de inteligencia empresarial con precios de pago por sesión que puede utilizar para crear informes, visualizaciones y paneles referidos a los datos de Redshift. Puede utilizar Amazon Redshift para preparar sus datos con el fin de ejecutar cargas de trabajo de machine learning (ML) con Amazon SageMaker. Para agilizar las migraciones a Amazon Redshift, puede utilizar AWS Schema Conversion Tool y AWS Database Migration Service (DMS). Amazon Redshift también está altamente integrado a Amazon Key Management Service (KMS) y Amazon CloudWatch para asuntos de seguridad, monitoreo y conformidad. También puede utilizar las funciones definidas por el usuario (UDF) de Lambda para invocar una función de Lambda desde sus consultas de SQL como si invocara una función definida por el usuario en Amazon Redshift. Puede escribir UDF de Lambda para integrarse a servicios de los socios de AWS y acceder a otros servicios populares de AWS, como Amazon DynamoDB y Amazon SageMaker.
Integración de la consola de socios: puede acelerar la incorporación de datos y crear información empresarial valiosa en minutos mediante la integración a soluciones de socios selectos en la consola de Amazon Redshift. Con estas soluciones, puede incorporar datos desde aplicaciones como Salesforce, Google Analytics, Facebook Ads, Slack, Jira, Splunk y Marketo a su almacenamiento de datos de Redshift de forma eficiente y optimizada. También le permite unir estos conjuntos de datos dispares y analizarlos juntos para producir información procesable.
Copia automática desde Amazon S3: Amazon Redshift admite la copia automática para simplificar y automatizar la carga de datos desde Amazon S3, y reduce el tiempo y el esfuerzo necesarios para crear soluciones personalizadas o administrar servicios de terceros. Con esta característica, Amazon Redshift elimina la necesidad de ejecutar de manera manual y repetida procedimientos de copia al automatizar la ingesta de archivos y encargarse de los pasos de carga de datos continua entre bastidores. La compatibilidad con la copia automática hace que para los usuarios de líneas de negocios y analistas de datos sin conocimientos de ingeniería de datos sea más fácil crear reglas de ingesta y configura la ubicación de los datos que desean cargar desde Amazon S3. A medida que los datos nuevos llegan a las carpetas de Amazon S3 especificadas, el proceso de ingesta se desencadena de forma automática según las configuraciones definidas por los usuarios. Todos los formatos de archivo son compatibles con el comando de copia de Redshift, incluidos CSV, JSON, Parquet y Avro.
Soporte nativo para análisis avanzado: Amazon Redshift admite tipos estándar de datos escalares como NUMBER, VARCHAR y DATETIME, y brinda soporte nativo para los siguientes tipos de procesamiento de análisis avanzado:
- Procesamiento de datos espaciales: Amazon Redshift ofrece un tipo de datos polimórfico, GEOMETRY, que admite varias formas geométricas, como Point, Linestring y Polygon. Amazon Redshift también proporciona funciones espaciales de SQL para crear formas geométricas, así como para importar, exportar y procesar datos espaciales y poder acceder a ellos. Puede agregar columnas de GEOMETRY a las tablas de Redshift y escribir consultas en SQL en datos espaciales y no espaciales. Esta capacidad le permite almacenar, recuperar y procesar datos espaciales y mejorar sin dificultades la información empresarial mediante la integración de los datos espaciales en sus consultas analíticas. Gracias a la capacidad de Amazon Redshift de consultar los lagos de datos sin inconvenientes, también puede extender fácilmente el procesamiento espacial a los lagos de datos mediante la integración de tablas externas a las consultas espaciales. Para obtener más información, consulte la documentación.
- Boceto de HyperLogLog: HyperLogLog es un algoritmo nuevo que calcula de forma eficaz la cantidad aproximada de valores distintos en un conjunto de datos. Un boceto de HLL es una construcción que encapsula la información sobre los valores distintos en el conjunto de datos. Puede utilizar bocetos de HLL para lograr obtener beneficios de rendimiento significativos en consultas que calculan la cardinalidad aproximada de grandes conjuntos de datos, con un promedio de error relativo entre el 0,01 y el 0,6 %. Amazon Redshift proporciona un tipo de datos de primera clase, HLLSKETCH, y funciones de SQL asociadas para generar, conservar y combinar bocetos de HyperLogLog. La capacidad HyperLogLog de Amazon Redshift utiliza técnicas de corrección de sesgo y proporciona precisión elevada con poca capacidad de memoria. Para obtener más información, consulte la documentación.
- Tipos de datos DATE y TIME: Amazon Redshift proporciona múltiples tipos de datos: DATE, TIME, TIMETZ, TIMESTAMP y TIMESTAMPTZ para almacenar y procesar de forma nativa datos de fecha y hora. Los tipos TIME y TIMESTAMP almacenan los datos de la hora sin información de la zona horaria, mientras que los tipos TIMETZ y TIMESTAMPTZ almacenan los datos de la hora con la información de la zona horaria. Puede utilizar diversas funciones SQL de fecha/hora para procesar los valores de fecha y hora en consultas de Redshift. Para obtener más información, consulte la documentación.
- Procesamiento de datos semiestructurados: el tipo de datos SUPER de Amazon Redshift almacena de forma nativa JSON y otros datos semiestructurados en tablas de Redshift y utiliza el lenguaje de consultas PartiQL para procesar los datos semiestructurados sin inconvenientes. El tipo de datos SUPER no es de naturaleza esquemática y permite el almacenamiento de valores anidados que podrían contener valores escalares, matrices anidadas y estructuras anidadas de Redshift. PartiQL es una extensión de SQL y brinda capacidades poderosas de consulta, como la navegación de objetos y matrices, la desanidación de matrices, la clasificación dinámica y la semántica sin esquemas. Esto permite lograr un análisis avanzado que combina los datos SQL estructurados clásicos con los datos semiestructurados SUPER con mayor rendimiento, flexibilidad y facilidad de uso. Para obtener más información, consulte la documentación.
- Integración con herramientas de terceros: existen muchas opciones que permiten mejorar las características de Amazon Redshift trabajando con las herramientas y los expertos líderes del sector para cargar, transformar y visualizar datos. Los socios que integran nuestra amplia lista de socios han certificado sus soluciones para que funcionen con Amazon Redshift.
- Cargue y transforme sus datos con los socios de integración de datos.
- Analice datos y comparta información útil en toda la organización con los socios de inteligencia empresarial.
- Diseñe la arquitectura e implemente su plataforma de análisis con los socios consultores y de integración de sistemas.
- Realice consultas, explore y modele los datos con las herramientas y las utilidades de los socios de consulta y modelado de datos.