AWS Glue 是一种无服务器数据集成服务,可提供多种数据集成引擎来支持您的用户和工作负载。通过 AWS Glue,您可以根据工作负载的特征以及开发人员和分析师的偏好,为任何工作负载使用合适的引擎。
主要功能
AWS Glue for Apache Spark
AWS Glue 提供性能优化的无服务器基础设施,用于运行 Apache Spark 以进行数据集成和提取、转换、加载(ETL)作业。AWS Glue for Apache Spark 支持批处理和流处理,并可以加快数据摄取、处理和集成的速度。然后,您可以创建和更新您的数据湖和数据仓库,并更快地从数据中提取见解。
AWS Glue for Ray
通过 AWS Glue for Ray,您的数据工程师和开发人员可以使用 Python 和热门的 Python 库来处理大型数据集。AWS Glue 使用 Ray (Ray.io),这是一种用于扩展 Python 工作负载的开源统一计算框架。AWS Glue for Ray 包含热门的 Python 数据处理库,因此您可以使用自己的库来自定义您的数据集成作业。
AWS Glue for Python Shell
通过 AWS Glue for Python Shell,您可以使用 Python Shell 作业在 AWS Glue 上运行 Python 脚本。通过这些作业,您可以用 Python 来编写复杂的数据集成和分析作业。AWS Glue for Python Shell 作业提供即开即用的常用分析库,包括 Pandas、NumPy 和 Amazon SageMaker Data Wrangler。您可以使用捆绑的功能连接到各种数据库、数据仓库和 AWS 服务。