为什么选择 Glue?
使用 AWS Glue 时,您需要按小时费率(按秒计)为爬网程序(发现数据)和提取、转换、加载(ETL)任务(处理和加载数据)付费。对于 AWS Glue Data Catalog,您需要为元数据的存储和访问支付简单月度费用。前 100 万个对象的存储和前 100 万次访问都是免费的。如果您预置了开发终端节点并以交互式方法开发 ETL 代码,那么您需要按小时费率付费 (按秒计)。对于 AWS Glue DataBrew,交互式会话按每次会话计费,DataBrew 作业按每分钟计费。用户可免费使用 AWS Glue Schema 注册表。
注意:定价可能因 AWS 区域而异。
-
ETL 作业和交互式会话
-
Data Catalog
-
爬网程序
-
DataBrew 交互式会话
-
DataBrew 作业
-
数据质量
-
零 ETL
-
ETL 作业和交互式会话
-
定价示例
ETL 任务:考虑一个运行 15 分钟并使用 6 DPU 的 AWS Glue Apache Spark 任务。1 个 DPU 小时的价格为 0.44 美元。由于您的任务运行了 15 分钟并使用了 6 个 DPU,AWS 将向您收取 6 个 DPU * 0.25 小时 * 0.44 美元,即 0.66 美元。
AWS Glue Studio Job Notebooks 和交互式会话:假设您使用 AWS Glue Studio 中的一个笔记本来交互式开发 ETL 代码。一个交互式会话默认有 5 个 DPU。1 个 DPU 小时的价格为 0.44 美元。如果您让该会话持续运行 24 分钟,则需要支付 5 个 DPU * 0.4 小时 * 0.44 美元,即 0.88 美元。
-
Data Catalog
-
AWS Glue Data Catalog 是您的各个数据来源(包括 Amazon S3、Amazon Redshift 和第三方数据来源)中的所有数据资产的集中式技术元数据存储库。可以从用于数据、分析和人工智能的 Amazon SageMaker Lakehouse 中访问 Data Catalog。它提供了一个统一的界面,用来将数据组织为目录、数据库和表,并从 Amazon Redshift、Amazon Athena 和 Amazon EMR 中进行查询。使用 Data Catalog 中的 AWS Lake Formation 功能,您可以在 AWS 中集中进行数据治理。利用精细的数据权限和熟悉的数据库式功能管理数据资产。
使用 Data Catalog 时,您需要为存储和访问表元数据以及运行计算表统计数据和表优化的数据处理作业付费。
元数据定价
借助 Data Catalog,您可以免费存储最多 100 万个元数据对象。如果存储的元数据对象超过 100 万个,对于超出 100 万的部分,每月每 10 万个对象的费用为 1.00 美元。Data Catalog 中的元数据对象可以是表、表版本、分区、分区索引、统计数据、数据库或目录。
表格维护和统计数据
Data Catalog 为 Amazon S3 对象存储中的 Apache Iceberg 表提供了托管式压缩,通过 Amazon Redshift、Athena、Amazon EMR 和 AWS Glue ETL 作业等 AWS 分析服务将小型对象压缩到更大的对象中,因此提高了读取性能。我们根据用来压缩表的数据处理单元(DPU)数量向您收取小时费率。一个数据处理单元(DPU)可提供 4 个 vCPU 和 16 GB 内存。您需要为每次运行(以 1 秒为增量且向上舍入到最接近的秒数,持续时间至少为 1 分钟)付费。
Data Catalog 还支持为 AWS Glue 表生成列级表统计数据。这些统计数据与 Athena 和 Amazon Redshift 数据湖查询中基于成本的优化器(CBO)集成,因此提高了查询性能并节省了潜在成本。
优化
- 优化 Apache Iceberg 表的费用为每个 DPU 每小时 0.44 美元,按秒计费,至少 1 分钟。
统计数据:
- 用于生成统计数据的每个 DPU 每小时 0.44 美元,按秒计费,至少 1 分钟。
额外使用量和成本
存储
使用 Data Catalog,您可以在 Amazon S3 和 Amazon Redshift 中创建和管理表,并且分别向您收取标准 Amazon S3 或 Amazon Redshift 表存储费率。Data Catalog 中没有额外的存储费用。
1.在 Amazon S3 中存储数据时,您将按标准 Amazon S3 费率支付存储、请求和数据传输费用。有关更多信息,请参阅 Amazon S3 定价。2.在 Amazon Redshift 中存储数据时,您将按标准 Amazon Redshift 费率支付存储费用。有关详细信息,请访问 Amazon Redshift 定价。
计算
当您从 Amazon EMR、AWS Glue、Athena 或者与 Apache Iceberg 兼容的任何开源引擎或第三方引擎访问 Amazon Redshift 表时,将对计算资源使用服务托管式 Amazon Redshift Serverless 工作组。Amazon Redshift Serverless 托管式工作组用来筛选表结果,您将按标准 Amazon Redshift Serverless 费率支付所用计算资源的费用。使用 Amazon Redshift 查询存储在 Amazon Redshift 中的表时,无需支付任何单独的费用。请访问 Amazon Redshift 定价,以了解更多信息。
Lake Formation 权限
Lake Formation 与 Data Catalog 集成,并利用基于标签或名称的访问控制和跨账户共享功能提供数据库、表、列、行和单元格级权限。创建 Lake Formation 权限或者将 Lake Formation 权限与集成的 AWS 服务结合使用时,无需支付任何单独的费用。
定价示例
AWS Free Tier 上的 Data Catalog:假设您在给定的月份在 Data Catalog 中存储 100 万个元数据对象,并发出 100 万个元数据请求以访问这些表。在这种情况下,您无需支付任何费用,因为您使用的资源均包含在 AWS Glue Data Catalog 免费套餐中。您每月可免费存储 100 万个元数据对象和发出 100 万个元数据请求。
Data Catalog 标准套餐:现在假设您每月的元数据存储使用量仍然是 100 万个元数据对象,但您每月发出的请求数量翻了一番,即 200 万个元数据请求。假设您还使用了爬网程序来发现新表格,它们运行了 30 分钟,并使用了 2 个 DPU。
您的存储费用仍然为 0 美元,因为您存储的前 100 万个元数据对象是免费的。您的前 100 万个请求也是免费的。您需要为超出 Data Catalog 免费套餐的 100 万个请求付费,即 1 美元。
将 Data Catalog 与其他服务结合使用:
例如,当您在 SageMaker Lakehouse 中使用 Athena SQL 查询 Amazon Redshift 中的表时,您需要支付以下费用:按标准 Amazon Redshift 定价为在 Amazon Redshift 中存储表付费;按标准 Data Catalog 请求定价为向 Data Catalog 发出的元数据请求付费;为用来在 Data Catalog 中存储目录、数据库和表元数据的元数据存储付费;按秒为筛选 Amazon Redshift 表结果时花费的 Amazon Redshift Serverless RPU 小时数付费(至少支付 60 秒的费用);以及按标准 Athena 定价为 Athena 查询扫描的字节数付费,四舍五入到最接近的兆字节,每个查询数据至少 10 MB。
在使用 Amazon EMR Serverless 在 Amazon Redshift 中查询表的另一种情形中,您需要支付以下费用:按标准 Amazon Redshift 定价为在 Amazon Redshift 中存储表付费;按标准 Data Catalog 请求定价为向 Data Catalog 发出的元数据请求付费;为用来在 Data Catalog 中存储目录、数据库和表元数据的元数据存储付费;按秒为筛选 Amazon Redshift 表结果时花费的 Amazon Redshift Serverless RPU 小时数付费(至少支付 60 秒的费用);以及为您的 Amazon EMR 应用程序中的工作线程使用的 vCPU、内存和存储资源的数量付费。
在使用 Amazon Redshift Serverless 在 Amazon S3 对象存储中查询 Apache Iceberg 表的另一种情形中,您需要支付以下费用:按标准 Amazon S3 定价为在 Amazon S3 中存储 Apache Iceberg 表付费;按标准 Data Catalog 请求定价为向 Data Catalog 发出的元数据请求付费;为用来在 Data Catalog 中存储目录、数据库和表元数据的元数据存储付费;以及按标准 Amazon Redshift 定价为计算小时数(RPU 小时数)付费。
AWS Glue 爬网程序的费用为每个 DPU 小时 0.44 美元,因此您需要为其支付的费用为 2 个 DPU * 0.5 小时 * 0.44 美元/DPU 小时,即 0.44 美元。
如果您为 AWS Glue 表生成统计数据,而且统计数据运行需要 10 分钟并消耗 1 个 DPU,您需要支付 1 个 DPU * 0.1666 小时 * 0.44 美元/DPU 小时的费用,即 0.07 美元。
如果您压缩存储在 Amazon S3 对象存储中的 Apache Iceberg 表,而且压缩运行 30 分钟并消耗 2 个 DPU,您需要支付 2 个 DPU * 0.5 小时 * 0.44 美元/DPU 小时的费用,即 0.44 美元。
- 优化 Apache Iceberg 表的费用为每个 DPU 每小时 0.44 美元,按秒计费,至少 1 分钟。
-
爬网程序
-
-
DataBrew 交互式会话
-
定价示例
AWS Glue DataBrew:每个 30 分钟交互式会话的价格为 1.00 USD。如果您在上午 9:00 开始一个会话,然后立即离开控制台,并从上午 9:20-9:30 开始返回,这样将会使用 1 个会话,总费用为 1.00 USD。
如果您在上午 9:00 开始一个会话并与 DataBrew 控制台互动到上午 9:50,然后退出 DataBrew 项目空间,并在上午 10:15 返回进行最后的互动,这样将会使用 3 个会话,每个会话将收取 1.00 USD,总共收取 3.00 USD。
-
DataBrew 作业
-
定价示例
AWS Glue DataBrew:如果 DataBrew 作业运行 10 分钟并使用 5 个 DataBrew 节点,则价格为 0.40 USD。由于您的作业运行了 10 分钟(即一小时的 1/6)并使用了 5 个节点,您需要支付的费用为 5 个节点 * 1/6 小时 * 0.48 USD/节点小时,共 0.40 USD。
-
数据质量
-
AWS Glue 数据质量自动监测功能通过帮助您实现高数据质量,让您对数据建立信心。它会自动测量、监控和管理数据湖和管道中的数据质量,让发现缺失、过时或损坏的数据变得更容易。
您可以通过 AWS Glue API,从 Data Catalog 和 AWS Glue Studio 访问数据质量功能。
管理数据目录中编目数据集数据质量的定价:您可以从数据目录中选择一个数据集并生成建议。此操作会为您将要预配的数据处理单元(DPU)生成一个建议任务。获得建议后,您可以修改或添加新规则并为其安排时间。这些任务称为“数据质量任务”,您需要为它们预配 DPU。您将需要至少 2 个 DPU,最短计费时长为 1 分钟。
管理在 AWS Glue ETL 上处理的数据集的数据质量的定价:您还可以向 ETL 作业添加数据质量检查,避免将损坏数据输入到数据湖中。这些数据质量规则会驻留在您的 ETL 作业中,导致运行时间增加或占用更多 DPU。或者,您可以对非 SLA 敏感型工作负载使用灵活执行。
在 AWS Glue ETL 中检测异常的定价:
异常检测
除了检测异常所需时间的 ETL 作业 DPU 外,每个统计数据还将产生 1 个 DPU。平均而言,检测 1 个统计数据的异常需要 10-20 秒。假设您配置了两条规则(规则 1:数据量必须大于 1000 条记录,规则 2:列数必须大于 10)和一个分析器(分析器 1:监控列的完整性)。此配置将生成三个统计数据:行数、列数和列的完整性百分比。您需要为检测异常所需的时间(最少 1 秒)额外支付 3 个 DPU 的费用。有关更多详细信息,请参阅示例 4。
重新训练:
您可能希望排除异常作业运行或统计数据,以便异常检测算法准确预测后续异常。为此,AWS Glue 允许您排除或包含统计数据。在重新训练模型所需的时间内,您将产生 1 个 DPU,用于进行重新训练。 平均而言,重新训练每个统计数据需要 10 秒到 20 分钟。有关更多详细信息,请参阅示例 5。
统计数据存储:
存储收集的统计数据不收取任何费用。每个账户的统计数据上限为 10 万个,并将存储 2 年。
额外费用:
AWS Glue 直接从 Amazon Simple Storage Service(Amazon S3)处理数据。使用 AWS Glue 读取数据无需额外支付存储费用。您将按标准 Amazon S3 费率支付存储、请求和数据传输费用。根据您的配置,临时文件、数据质量结果和随机文件存储在您选择的 S3 存储桶中,也是按照标准的 S3 费率收费。
如果您使用的是数据目录,则需要按标准 Data Catalog 费率支付费用。请选择数据目录存储和请求选项卡,了解详细信息。
定价示例
示例 1 — 获取对 Data Catalog 中的表的建议例如,假设有一个拥有 5 个 DPU 的建议任务在 10 分钟内完成。您需要支持 5 个 DPU * 1/6 小时 * 0.44 USD,等于 0.37 USD。
示例 2 — 估算 Data Catalog 中的表的数据质量查看建议后,您可以进行编辑(如必要),然后通过预置 DPU 为数据质量任务安排时间。例如,假设有一个拥有 5 个 DPU 的数据质量评估任务在 20 分钟内完成。
您需要支持 5 个 DPU * 1/3 小地 * 0.44 美元,等于 0.73 美元。
示例 3 – 估算 AWS Glue ETL 任务中数据质量的费用您还可以向 AWS Glue ETL 任务添加上述数据质量检查,避免将损坏数据输入到数据湖中。您可以通过在 AWS Glue Studio 上添加数据质量转换,或在 AWS Glue Studio 笔记本中编写的代码中使用 AWS Glue API 来进行此操作。假设有一个 AWS Glue 在运行,其中的数据质量规则被配置在管道内,使用 6 个 DPU 执行 20 分钟(即 1/3 小时)。您需要支持 6 个 DPU * 1/3 小时 * 0.44 美元,等于 0.88 美元。您可以改为使用 Flex 选项,您需要支付 6 个 DPU * 1/3 小时 * 0.29 美元,等于 0.58 美元。
示例 4 — 使用异常检测评估 AWS Glue ETL 作业中的数据质量
假设有一个 AWS Glue 作业,该作业从 Amazon S3 读取数据、转换数据并在加载到 Amazon Redshift 之前运行数据质量检查。假设此管道有 10 条规则和 10 个分析器,因此收集了 20 个统计数据。此外,假设提取、转换过程、加载、统计数据收集、数据质量评估将花费 20 分钟。如果未启用异常检测,则将向客户收取 6 个 DPU * 1/3 小时(20 分钟)* 0.44 美元,相当于 0.88 美元(A)。启用异常检测后,我们将为每个统计数据添加 1 个 DPU,平均需要 15 秒才能检测到异常。在此示例中,客户将产生 20 个统计数据 * 1 个 DPU * 15/3600(0.0041 小时/统计数据)* 0.44 美元(每个 DPU/小时的成本)= 0.037 美元(B)。他们完成这项工作的总成本为 0.88 美元(A)+ 0.037 美元(B)= 0.917 美元。
示例 5 — 重新训练假设您的 Glue 作业检测到了异常。您决定从模型中排除异常,以便异常检测算法能够准确预测未来的异常。为此,您可以通过排除此异常统计数据来重新训练模型。在重新训练模型所需的时间内,每个统计数据将产生 1 个 DPU。平均而言,这可能需要 15 秒。在此示例中,假设您排除 1 个数据点,则将产生 1 个统计数据 * 1 个 DPU * 15/3600(0.0041 小时/统计数据)* 0.44 美元 = 0.00185 美元。
-
零 ETL
-
零 ETL 是 AWS 的一组完全托管式集成,可最大限度地减少为分析和人工智能计划中的常见摄取和复制使用案例构建提取、转换、加载(ETL)数据管道的需求。AWS 不对零 ETL 集成收取额外费用。您需要为用来创建和处理在零 ETL 集成过程中创建的变更后的数据的源资源和目标资源付费。
Amazon SageMaker Lakehouse 和 Amazon Redshift 支持从应用程序中进行零 ETL 集成
Amazon SageMaker Lakehouse 和 Amazon Redshift 支持从应用程序中进行零 ETL 集成,可自动从应用程序提取数据并将其加载到 Amazon SageMaker Lakehouse 和 Amazon Redshift 中。要获得受支持的零 ETL 源的完整列表,请参阅 AWS Glue 零 ETL 文档。
AWS Glue 对摄取零 ETL 集成支持的应用程序源数据收取费用。您需要为用来从应用程序中提取插入、更新和删除内容的 AWS Glue 资源付费。您需要按从应用程序接收的数据量付费,但无需为发出数据摄取请求付费。AWS Glue 发出的每个摄取请求的最小容量为 1 兆字节(MB)。
将摄取的数据写入到 Amazon Redshift 时,您需要按 Amazon Redshift 定价费率为用来处理在零 ETL 集成过程中创建的变更后的数据的资源付费。
将摄取的数据写入到 SageMaker Lakehouse 时,您需要为用来处理在零 ETL 集成过程中创建的变更后的数据的资源付费。使用的计算资源基于为 SageMaker Lakehouse 选择的存储类型。
- 对于 Amazon Redshift 托管式存储,您需要基于 Amazon Redshift Serverless 计算付费。有关更多信息,请参阅 Amazon Redshift 定价。
- 对于 Amazon Simple Storage Service(S3),您需要按每个数据处理单元小时(DPU 小时)的 AWS Glue 计算付费,按秒计费,至少 1 分钟。
Amazon DynamoDB 与 Amazon SageMaker Lakehouse 的零 ETL 集成
Amazon DynamoDB 零 ETL 与 Amazon SageMaker Lakehouse 集成,可自动提取和加载数据,从而支持对来自数据湖仓中的 DynamoDB 表的数据应用分析和人工智能。
当您从 DynamoDB 连续备份中导出数据(时间点恢复)时,DynamoDB 将向您收费。有关更多信息,请参阅 Amazon DynamoDB 定价。
将摄取的数据写入到 Amazon SageMaker Lakehouse 时,您需要根据为 Amazon SageMaker Lakehouse 选择的存储类型为用来处理在零 ETL 集成过程中创建的变更后的数据的资源付费。
- 对于 Amazon Redshift 托管式存储,您需要基于 Amazon Redshift Serverless 计算付费。有关更多信息,请参阅 Amazon Redshift 定价。
- 对于 Amazon Simple Storage Service(S3),您需要按每个数据处理单元小时(DPU 小时)的 AWS Glue 计算付费,按秒计费,至少 1 分钟。
注意:定价可能因区域而异。
查看全球区域表,详细了解 AWS Glue 的可用情况。