일반
Q: AWS Glue란 무엇입니까?
AWS Glue는 분석, 기계 학습 및 애플리케이션 개발을 위해 데이터를 쉽게 탐색, 준비, 그리고 조합할 수 있도록 지원하는 서버리스 데이터 통합 서비스입니다. AWS Glue에서는 데이터 통합에 필요한 모든 기능을 제공하므로, 몇 개월이 아니라 몇 분 안에 데이터 분석을 시작하고 해당 내용을 활용할 수 있습니다. AWS Glue는 데이터 통합을 쉽게 준비할 수 있도록 시각적 인터페이스와 코드 기반 인터페이스를 모두 제공합니다. 사용자는 AWS Glue 데이터 카탈로그를 사용하여 데이터를 쉽게 찾고 액세스할 수 있습니다. 데이터 엔지니어와 ETL (추출, 변형 및 로드) 개발자는 AWS Glue Studio에서 몇 번의 클릭으로 ETL 워크플로를 시각적으로 생성, 실행 및 모니터링할 수 있습니다. 데이터 분석가와 데이터 사이언티스트는 AWS Glue DataBrew를 사용하여 코드를 작성하지 않고도 데이터를 시각적으로 풍성하게 하며, 정리하고 정규화할 수 있습니다.
Q: AWS Glue를 시작하려면 어떻게 해야 합니까?
AWS Glue 사용을 시작하려면 AWS Management Console에 로그인하여 [Analytics] 카테고리 아래의 [Glue]로 이동하면 됩니다. AWS Glue의 예제 사용 사례를 설명하는 안내 자습서 중 하나를 따라 하면 됩니다. 또한, AWS 랩 아래의 GitHub 리포지토리에서 샘플 ETL 코드를 확인할 수 있습니다.
Q: AWS Glue의 주요 구성 요소는 무엇입니까?
AWS Glue는 중앙 메타데이터 레포지토리인 Data Catalog로 구성되어 있습니다. ETL 엔진은 자동으로 Scala 또는 Python 코드를 생성합니다. 이는 의존성 결정, 작업 모니터링 및 재시도를 처리하는 탄력적인 스케줄러입니다. AWS Glue DataBrew는 데이터를 시각적 인터페이스를 통해 정리 및 정규화합니다. 이러한 구성 요소가 결합되어 데이터의 검색, 분류, 정리, 보강 및 이동과 관련된 획일화된 작업 대부분을 자동화하므로 사용자는 데이터 분석에 더 많은 시간을 할애할 수 있습니다.
Q: AWS Glue는 언제 사용해야 합니까?
AWS Glue는 소유한 데이터의 속성을 검색하고, 데이터를 변환하여 분석용으로 준비하는 데 사용해야 합니다. Glue는 Amazon S3의 데이터 레이크, Amazon Redshift의 데이터 웨어하우스, AWS에서 실행되는 다양한 데이터베이스에 저장된 정형 및 반정형 데이터를 모두 자동으로 검색할 수 있습니다. 또한, ETL에서 사용할 수 있고 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum과 같은 서비스에서 쿼리 및 보고하는 데 사용할 수 있는 Glue 데이터 카탈로그를 통해 데이터에 대한 통합된 뷰를 제공합니다. Glue는 ETL 작업을 위한 Scala 또는 Python 코드를 자동으로 생성하며, 이미 익숙한 도구를 사용하여 ETL 작업을 추가로 사용자 지정할 수 있습니다. 사용자는 AWS Glue DataBrew를 사용하여 코드를 작성하지 않고도 데이터를 시각적으로 정리하고 정규화할 수 있습니다.
Q: AWS Glue에서 지원하는 데이터 소스에는 어떤 것이 있습니까?
AWS Glue는 기본적으로 Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift, DynamoDB 및 Amazon S3뿐만 아니라 Amazon EC2에서 실행되는 Virtual Private Cloud(Amazon VPC)에 있는 MySQL, Oracle, Microsoft SQL Server 및 PostgreSQL 데이터베이스에 저장된 데이터를 지원합니다. AWS Glue는 Amazon MSK, Amazon Kinesis Data Streams 및 Apache Kafka의 데이터 스트림도 지원합니다.
또한 맞춤형 Scala 또는 Python 코드를 작성하고 사용자 지정 라이브러리와 Jar 파일을 AWS Glue ETL 작업으로 가져와서 AWS Glue에서 기본적으로 지원하지 않는 데이터 원본에 액세스할 수 있습니다. 사용자 지정 라이브러리를 가져오는 방법을 자세히 알아보려면 설명서를 참조하세요.
Q: AWS Glue는 AWS Lake Formation과 어떤 관계입니까?
A: Lake Formation은 콘솔 제어, ETL 코드 생성, 작업 모니터링, 공통 데이터 카탈로그, 서버리스 아키텍처를 포함하여 AWS Glue에서 공유 인프라를 활용합니다. AWS Glue는 아직 이러한 유형의 기능에 초점을 맞추고 있는 반면, Lake Formation은 AWS Glue 기능을 포함하면서, 동시에 데이터 레이크를 구축하고 보안하고 관리하는 데 유용한 추가 기능을 제공합니다. 자세한 내용은 AWS Lake Formation 페이지를 참조하십시오.
AWS Glue 데이터 카탈로그
Q: AWS Glue 데이터 카탈로그란 무엇입니까?
AWS Glue 데이터 카탈로그는 모든 데이터 자산의 정형 및 운영 메타데이터를 저장하는 중앙 리포지토리입니다. 해당 데이터 세트에 대해 테이블 정의와 물리적 위치를 저장하고, 비즈니스 관련 속성을 추가하고, 시간이 지나면서 이 데이터가 어떻게 변경되는지 추적할 수 있습니다.
AWS Glue 데이터 카탈로그는 Apache Hive Metastore와 호환되며, Amazon EMR에서 실행되는 빅 데이터 애플리케이션용 Apache Hive Metastore를 즉시 대체할 수 있습니다. AWS Glue 데이터 카탈로그를 Apache Hive Metastore로 사용하도록 EMR 클러스터를 설정하는 방법을 자세히 알아보려면 여기를 클릭하세요.
또한, AWS Glue 데이터 카탈로그는 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum과 즉시 통합될 수 있습니다. 일단 Glue 데이터 카탈로그에 테이블 정의를 추가하면, 이를 ETL에 사용할 수 있고 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum에서 쿼리하는 데 바로 사용할 수 있습니다. 따라서 이러한 서비스 간에 데이터에 대한 공통된 뷰가 제공됩니다.
Q: 내 메타데이터를 AWS Glue 데이터 카탈로그에 추가하려면 어떻게 해야 합니까?
AWS Glue는 메타데이터를 AWS Glue 데이터 카탈로그에 채우는 몇 가지 방법을 제공합니다. Glue 크롤러가 사용자가 소유한 다양한 데이터 스토어를 스캔하고, 스키마와 파티션 구조를 자동으로 추론한 후, 그에 해당하는 테이블 정의 및 통계로 Glue 데이터 카탈로그를 채웁니다. 크롤러가 정기적으로 실행되도록 일정을 예약하여 메타데이터가 항상 최신으로 유지되고 기본 데이터와 동기화되도록 할 수도 있습니다. 아니면 AWS Glue 콘솔을 사용하거나 API를 호출하여 수동으로 테이블 세부 정보를 추가 및 업데이트할 수 있습니다. 또한, Amazon Athena 콘솔을 통해 Hive DDL 문을 실행하거나 Amazon EMR 클러스터에서 Hive 클라이언트를 실행할 수도 있습니다. 마지막으로 이미 영구 Apache Hive Metastore가 있다면, AWS의 가져오기 스크립트를 사용하여 AWS Glue 데이터 카탈로그로 해당 메타데이터를 대량으로 가져오는 작업을 수행할 수 있습니다.
Q: AWS Glue 크롤러란 무엇입니까?
AWS Glue 크롤러는 데이터 스토어에 연결하고, 우선순위가 지정된 분류자 목록을 거치면서 데이터 스키마 및 기타 통계를 추출한 후, 이러한 메타데이터로 Glue 데이터 카탈로그를 채웁니다. 크롤러는 주기적으로 실행되어 새로운 데이터의 가용성과 기존 데이터에 대한 변경 사항(데이터 정의 변경 등)을 감지할 수 있습니다. 크롤러는 새로운 테이블, 기존 테이블에 새로운 파티션, 새로운 테이블 정의 버전을 자동으로 추가합니다. 자체 파일 유형을 분류하도록 Glue 크롤러를 사용자 지정할 수 있습니다.
Q: 내 기존 Apache Hive Metastore에서 AWS Glue 데이터 카탈로그로 데이터를 가져오려면 어떻게 해야 합니까?
Apache Hive Metastore에서 읽어오고, 읽어온 데이터를 Amazon S3에 중간 형식으로 내보낸 후, 해당 데이터를 AWS Glue 데이터 카탈로그로 가져오도록 ETL 작업을 실행하면 됩니다.
Q: 내 메타데이터를 AWS Glue 데이터 카탈로그에 저장하는 경우에 내 Apache Hive Metastore를 유지해야 합니까?
AWS Glue 데이터 카탈로그는 Apache Hive Metastore와 호환됩니다. Glue 데이터 카탈로그 엔드포인트를 가리키도록 하고 이를 Apache Hive Metastore 대신 사용할 수 있습니다. AWS Glue 데이터 카탈로그를 Apache Hive Metastore로 사용하도록 클러스터를 구성하는 방법에 대한 자세한 내용은 여기에서 설명서를 참조하세요.
Q: 이미 Amazon Athena 또는 Amazon Redshift Spectrum을 사용하고 있고 Amazon Athena의 내부 데이터 카탈로그에 테이블이 있는 경우, AWS Glue 데이터 카탈로그를 내 공통 메타데이터 리포지토리로 사용하기 시작하려면 어떻게 해야 합니까?
AWS Glue 데이터 카탈로그를 Amazon Athena, Amazon Redshift Spectrum 및 AWS Glue 간 공통 메타데이터 리포지토리로 사용하기 시작하려면 먼저 Amazon Athena 데이터 카탈로그를 AWS Glue 데이터 카탈로그로 업그레이드해야 합니다. 업그레이드에 필요한 단계는 여기에 자세히 나와 있습니다.
Q: 어떤 분석 서비스가 AWS Glue 데이터 카탈로그를 사용합니까?
AWS Glue 데이터 카탈로그에 저장된 메타데이터는 Glue ETL, Amazon Athena, Amazon EMR, Amazon Redshift Spectrum 및 타사 서비스에서 바로 액세스할 수 있습니다.
AWS Glue 스키마 레지스트리
Q: AWS Glue 스키마 레지스트리란 무엇인가요?
AWS Glue의 서버리스 기능인 AWS Glue 스키마 레지스트리를 통해 추가 요금 없이 Apache Avro에 등록 스키마 및 JSON 스키마 데이터 형식을 사용하여 스트리밍 데이터의 변화를 검증하고 제어할 수 있습니다. Apache 라이선스 직렬화 및 역직렬화를 통해 스키마 레지스트리는 Apache Kafka, Amazon Managed Streaming for Apache Kafka(MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink 및 AWS Lambda용으로 개발된 Java 애플리케이션과 통합됩니다. 데이터 스트리밍 애플리케이션을 스키마 레지스트리와 통합하면 스키마 변화를 관리하는 호환성 확인을 사용하여 데이터 품질을 개선하고 예기치 않은 변경으로부터 보호할 수 있습니다. 또한, 레지스트리에 저장된 Apache Avro 스키마를 사용하여 AWS Glue 테이블 및 파티션을 생성하거나 업데이트할 수 있습니다.
Q: AWS Glue 스키마 레지스트리를 사용해야 하는 이유는 무엇입니까?
AWS Glue 스키마 레지스트리를 사용하면 다음을 할 수 있습니다.
- 스키마 확인. 데이터 스트리밍 애플리케이션이 AWS Glue 스키마 레지스트리와 통합되는 경우 데이터 생산에 사용되는 스키마는 중앙 레지스트리 내의 스키마에 대해 검증되므로 중앙에서 데이터 품질을 제어할 수 있습니다.
- 스키마 발달 보호. 8가지 호환성 모드 중 하나를 사용하여 스키마가 진화할 수 있는 방법과 그렇지 않은 방법에 대한 규칙을 설정할 수 있습니다.
- 데이터 품질 개선. Serializer는 데이터 생산자가 레지스트리에 저장된 스키마에 대한 데이터 생산자가 사용하는 스키마를 검증하여 시작 시 데이터 품질을 개선하고 예기치 않은 스키마 드리프트에서 다운스트림 문제를 줄입니다.
- 비용 절감. Serializer는 전송 전에 데이터를 이진 형식으로 변환하고 압축할 수 있으므로 데이터 전송 및 저장소 비용이 절감됩니다.
- 처리 효율성 개선. 많은 경우에 데이터 스트림은 다른 스키마 기록을 포함합니다. 스키마 레지스트리는 데이터 스트림에서 읽어 콘텐츠를 구문 분석할 필요 없이, 스키마를 기반으로 하여 각 기록을 선택적으로 처리하므로 처리 효율성이 향상됩니다.
Q: AWS Glue 스키마 레지스트리가 지원하는 데이터 양식, 고객 언어 및 통합은 무엇인가요?
스키마 레지스트리는 Apache Avro 및 JSON 스키마 데이터 형식과 Java 클라이언트 애플리케이션을 지원합니다. 다른 데이터 형식 및 비 Java 클라이언트에 대한 지원을 계속 확장해 나갈 계획입니다. 스키마 레지스트리는 Apache Kafka, Amazon Managed Streaming for Apache Kafka(MSK),Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink 및 AWS Lambda용으로 개발된 애플리케이션과 통합됩니다.
Q: AWS Glue 스키마 레지스터리가 지원하는 변화 규칙의 종류는 무엇인가요?
스키마 발전 관리에 사용할 수 있는 호환성 모드는 뒤로, 뒤로 모두, 앞으로, 앞으로 모두, 전체, 전체, 없음 및 사용 불가입니다. 스키마 레지스트리 사용 설명서를 확인하여 호환 규칙에 대해 자세히 알아보세요.
Q: AWS Glue 스키마 레지스트리는 어떻게 애플리케이션의 고가용성을 유지하나요?
스키마 레지스트리는 고가용성을 위해 설계되었으며, AWS Glue SLA이 지원합니다. 그리고 serializer 및 deserializer는 캐시 모범 사례를 활용하여 고객 간 스키마 가용성을 극대화합니다.
Q: AWS Glue 스키마 레지스트리는 오픈 소스인가요?
AWS Glue 스키마 레지스트리 저장소는 AWS 서비스이며, serializer 및 deserializer는 Apache 라이선스의 오픈 소스 구성 요소입니다.
Q: AWS Glue 스키마 레지스트리가 유휴 및 변화 중 데이터에 대한 암호화를 제공하나요?
네, 고객은 HTTPS 대상 TLS 암호화를 사용하여 유휴 및 변화 중인 데이터에 대한 암호화하는 API 콜를 통한 스키마 레지스트리로 소통합니다. 스키마 레지스트리에 저장된 스키마는 항상 서비스 관리형 KMS 키를 사용하여 암호화됩니다.
Q: AWS Glue 스키마 레지스트리에 프라이빗하게 연결할 수 있나요?
AWS PrivateLink를 사용하여 AWS Glue용 인터페이스 VPC 엔드포인트를 정의해 AWS Glue에 데이터 생산자의 VPC를 연결할 수 있습니다. VPC 인터페이스 엔드포인트를 사용하는 경우 VPC와 AWS Glue 간 모든 통신이 AWS 네트워크 내에서 완전히 수행됩니다. 자세한 내용은 사용 설명서를 참조하십시오.
Q: AWS Glue 스키마 레지스터리 사용량을 어떻게 모니터링하나요?
AWS CloudWatch 지표는 CloudWatch 프리 티어의 일환으로 사용할 수 있습니다. CloudWatch 콘솔에서 이 지표에 액세스할 수 있습니다. 자세한 내용은 AWS Glue 스키마 레지스트리 사용 설명서를 참조하십시오.
Q: AWS Glue 스키마 레지스트리는 사용자 인증을 관리하는 도구를 제공하나요?
네, 스키마 레지스트리는 리소스 수준 승인 및 식별 기반 IAM 정책을 제공합니다.
Q: 기존 스키마 레지스트리에서 어떻게 AWS Glue 스키마 레지스트리로 마이그레이션하나요?
서드파티 스키마 레지스트리에서 AWS Glue 스키마 레지스트리로의 마이그레이션에 대한 내용은 사용자 설명서를 참조하십시오.
ETL(추출, 변환 및 로드)
Q: AWS Glue에 비주얼 ETL을 위한 노코드 인터페이스가 있습니까?
예. AWS Glue Studio는 Glue 작업 작성을 위한 그래픽 인터페이스를 제공하여 데이터를 처리할 수 있게 합니다. 비주얼 인터페이스에서 데이터 원본의 흐름, 변환 및 대상을 정의하고 나면, AWS Glue Studio에서 귀하를 대신해 Apache Spark 코드를 생성합니다.
Q: AWS Glue에서 ETL 코드를 작성하는 데 사용할 수 있는 프로그래밍 언어에는 어떤 것이 있습니까?
Scala 또는 Python을 사용할 수 있습니다.
Q: AWS Glue에서 생성한 ETL 코드를 사용자 지정하려면 어떻게 해야 합니까?
AWS Glue의 ETL 스크립트 권장 시스템에서는 Scala 또는 Python 코드를 생성합니다. 이 시스템은 Glue의 사용자 지정 ETL 라이브러리를 활용하여 데이터 소스에 대한 액세스를 간소화하고 작업 실행을 관리합니다. 라이브러리에 관한 세부 정보는 설명서를 참조하세요. AWS Glue의 사용자 지정 라이브러리를 사용하여 ETL 코드를 작성하거나, AWS Glue 콘솔 스크립트 편집기의 인라인 편집 기능을 사용하고, 자동 생성된 코드를 다운로드한 후, 자체 IDE에서 편집하여 Scala 또는 Python으로 임의 코드를 작성할 수 있습니다. 또한, Github 리포지토리에 호스팅된 수많은 샘플 중 하나로 시작하여 해당 코드를 사용자 지정할 수도 있습니다.
Q: ETL 스크립트의 일부로 사용자 지정 라이브러리를 가져올 수 있습니까?
예. 사용자 지정 Python 라이브러리와 Jar 파일을 AWS Glue ETL 작업으로 가져올 수 있습니다. 자세한 내용은 여기에서 설명서를 확인하세요.
Q: 내 자체 코드를 가져올 수 있습니까?
예. AWS Glue의 ETL 라이브러리를 사용하여 자체 코드를 작성하거나, 자체 Scala 또는 Python 코드를 작성하고 이를 Glue ETL 작업에 업로드할 수 있습니다. 자세한 내용은 여기에서 설명서를 확인하세요.
Q: 자체 IDE를 사용하여 ETL 코드를 개발하려면 어떻게 해야 합니까?
노트북과 IDE를 연결하는 방법을 제공하는 개발 엔드포인트를 생성하여 연결할 수 있습니다.
Q: AWS Glue에서 여러 개의 작업을 사용하는 엔드 투 엔드 ETL 워크플로를 구축하려면 어떻게 해야 합니까?
ETL 라이브러리 및 코드 생성 외에도 AWS Glue는 여러 개의 작업 간 종속성을 관리하여 엔드 투 엔드 ETL 워크플로를 구축할 수 있게 해주는 강력한 오케스트레이션 기능 세트를 제공합니다. AWS Glue ETL 작업은 일정에 따라 또는 작업 완료 이벤트에 따라 트리거될 수 있습니다. 여러 개의 작업을 병렬로 트리거하거나 작업 완료 이벤트에 따라 순차적으로 트리거할 수 있습니다. 또한, AWS Lambda 함수와 같은 외부 소스에서 하나 이상의 Glue 작업을 트리거할 수도 있습니다.
Q: AWS Glue에서는 종속성을 어떻게 모니터링합니까?
AWS Glue에서는 트리거를 사용하여 2개 이상의 작업 간 종속성 또는 외부 이벤트의 종속성을 관리합니다. 트리거는 하나 이상의 작업을 지켜보고 하나 이상의 작업을 호출할 수 있습니다. 주기적으로 작업을 호출하는 예정된 트리거, 온디맨드 트리거 또는 작업 완료 트리거를 사용할 수 있습니다.
Q: AWS Glue에서는 ETL 오류를 어떻게 처리합니까?
AWS Glue는 작업 이벤트 지표와 오류를 모니터링하고 모든 알림을 Amazon CloudWatch로 푸시합니다. Amazon CloudWatch에서는 AWS Glue의 특정 알림에 따라 트리거되는 호스트 작업을 구성할 수 있습니다. 예를 들어 Glue로부터 오류 또는 성공 알림을 수신하면, AWS Lambda 함수가 트리거되도록 할 수 있습니다. 또한, Glue는 기본 재시도 동작을 제공하므로 오류 알림을 전송하기 전에 모든 실패 작업을 3번 재시도하게 됩니다.
Q: AWS Glue로 기존 ETL 작업을 실행할 수 있습니까?
예. AWS Glue에서 기존 Scala 또는 Python 코드를 실행할 수 있습니다. Amazon S3로 코드를 업로드하고, 해당 코드를 사용하는 작업을 하나 이상 생성하기만 하면 됩니다. 여러 개의 작업에서 같은 코드를 재사용할 수 있습니다. 작업이 Amazon S3에 있는 같은 코드 위치를 가리키도록 하면 됩니다.
Q: AWS Glue를 사용하여 스트리밍 데이터를 ETL할 수 있습니까?
AWS Glue는 Amazon Kinesis Data Streams, Apache Kafka 및 Amazon MSK에서의 스트림에서 ETL도 지원합니다. 스트림을 Glue 데이터 카탈로그에 추가한 다음 AWS Glue 작업을 설정할 때 데이터 원본으로 선택합니다.
Q: 이 서비스를 사용하려면 AWS Glue 데이터 카탈로그와 Glue ETL을 모두 사용해야 합니까?
아니요. AWS Glue 데이터 카탈로그와 ETL을 모두 사용하면 엔드 투 엔드 ETL 환경이 제공되지만, 이 중 하나만 독립적으로 사용해도 됩니다.
Q: 언제 AWS Glue Streaming을 사용하고 언제 Amazon Kinesis Data Analytics를 사용해야 합니까?
AWS Glue 및 Amazon Kinesis Data Analytics는 모두 스트리밍 데이터를 처리하는 데 사용할 수 있습니다. 사용 사례가 주로 ETL이고 서버리스 Apache Spark 기반 플랫폼에서 작업을 실행하려는 경우 AWS Glue를 사용하는 것이 좋습니다. 사용 사례가 주로 분석이고 서버리스 Apache Flink 기반 플랫폼에서 작업을 실행하려는 경우 Amazon Kinesis Data Analytics를 사용하는 것이 좋습니다.
AWS Glue에서 스트리밍 ETL을 사용하면 현재 배치 작업에 사용하는 것과 동일한 서버리스, 종량 과금제 플랫폼을 사용하여 스트리밍 데이터에서 고급 ETL을 사용할 수 있습니다. AWS Glue는 맞춤형 설정이 가능한 ETL 코드를 생성하여 전송 도중에 데이터를 준비하고, 반정형 또는 진화하는 스키마가 있는 스트리밍 데이터를 처리하는 기능을 기본적으로 제공합니다. Glue를 사용하여 내장 및 Spark 기본 변환을 데이터 스트림에 적용하고 데이터 레이크나 데이터 웨어하우스에 로드합니다.
Amazon Kinesis Data Analytics를 사용하면 스트리밍 데이터를 실시간으로 분석하는 정교한 스트리밍 애플리케이션을 구축할 수 있습니다. 서버 없이도 자동으로 확장되고 애플리케이션 상태를 지속적으로 저장하는 Apache Flink 런타임을 제공합니다. 실시간 분석과 보다 일반적인 스트림 데이터 처리에 Amazon Kinesis Data Analytics를 사용하십시오.
Q: 언제 AWS Glue를 사용하고 언제 Amazon Kinesis Data Firehose를 사용해야 합니까?
AWS Glue 및 Amazon Kinesis Data Firehose는 모두 ETL 스트리밍에 사용할 수 있습니다. 스트림 조인 및 데이터 콘텐츠를 기반으로 Amazon S3에서 출력 파티셔닝을 포함하여 복잡한 ETL에 AWS Glue를 사용하는 것이 좋습니다. 사용 사례가 데이터 전송 및 전송 후 처리할 데이터를 준비하는 데 중점을 두고 있으면 Amazon Kinesis Data Firehose를 사용하는 것이 좋습니다.
AWS Glue에서 스트리밍 ETL을 사용하면 현재 배치 작업에 사용하는 것과 동일한 서버리스, 종량 과금제 플랫폼을 사용하여 스트리밍 데이터에서 고급 ETL을 사용할 수 있습니다. AWS Glue는 맞춤형 설정이 가능한 ETL 코드를 생성하여 전송 도중에 데이터를 준비하고, 반정형 또는 진화하는 스키마가 있는 스트리밍 데이터를 처리하는 기능을 기본적으로 제공합니다. Glue를 사용하여 데이터 스트림에 복잡한 변환을 적용하고, 다른 스트림 및 영구 데이터 스토어의 정보로 레코드를 보강한 다음 데이터 레이크나 데이터 웨어하우스에 로드할 수 있습니다.
Amazon Kinesis Data Firehose에서 ETL을 스트리밍하면 쉽게 데이터를 캡처, 변환 및 전송할 수 있습니다. Amazon Kinesis Data Firehose는 AWS Lambda를 통한 서버리스 데이터 변환 및 JSON에서 Parquet로의 형식 변환을 포함한 ETL 기능을 제공합니다. 전송 후 데이터를 보다 쉽게 처리할 수 있도록 설계된 ETL 기능이 포함되지만 AWS Glue가 지원하는 고급 ETL 기능은 여기에 포함되지 않습니다.
데이터 중복 제거
어떤 종류의 문제를 FindMatches ML Transform에서 해결합니까?
FindMatches는 일반적으로 레코드 링크와 데이터 복제 문제를 해결합니다. 중복 제거는 이론상 “동일”하지만 별도의 레코드가 있는 데이터베이스 내의 레코드를 식별하려고 할 때 사용해야 하는 것입니다. 복제 레코드가 고유 키(제품이 UPC 코드에 의해 고유하게 식별되는 인스턴스에 해당)에 의해 식별되는 경우에는 문제가 사소하지만 “퍼지 매치”를 실행해야 하는 경우에는 어려워집니다.
레코드 링크는 기본적으로 큐레이팅된 데이터 중복 제거와 동일한 문제이지만 이 용어는 보통 고유한 키를 공유하는 것이 아니라 단일 데이터베이스를 복제하는 두 데이터베이스의 “퍼지 조인”을 실행하고 있다는 것을 의미합니다. 예를 들어, 소비자의 라지 데이터베이스를 알려진 사기꾼의 작은 데이터베이스에 매칭하는 문제를 생각해보십시오. FindMatches는 레코드 링크와 복제 문제에 모두 사용될 수 있습니다.
에를 들어, AWS Glue의 FindMatches ML Transform는 다음과 같은 문제에 도움이 됩니다.
병원 간의 환자 레코드를 링크하여 의사가 더 많은 배경 정보를 가지고 양쪽 다 이름, 생일, 주소, 전화번호 등과 같은 일반 필드를 포함하고 있는 별도의 데이터베이스에서 FindMatches를 사용하여 환자를 더 잘 치료할 수 있습니다.
“제목’, “플롯 시노십스”, “개봉년도”, “상영 시간”, “등장인물”과 같은 열이 포함되어 있는 영화의 데이터베이스 복제 예를 들어, 동일한 영화가 “스타워즈”, “스타워즈: 새로운 희망”, “스타워즈: 에피스도 IV - 새로운 희망(특별 에디션)” 등과 같이 다양하게 식별될 수 있습니다.
의류 제품 카탈로그에서 크기와 색상의 차이를 무시하고 동일한 것을 의미하는"동등한" 항목을 정의하려고 하는 경우 해당 의류 제품 카탈로그에서 동등한 항목을 식별하여 모든 관련 제품을 상점 첫 화면에서 자동으로 그룹화합니다. 이런 이유로 “Levi 501 청바지, 34x34 사이즈”는 “Levi 501 진스 블랙, 32x31 사이즈”와 동일한 것으로 정의됩니다.
Q: AWS Glue는 내 데이터를 어떻게 복제합니까?
AWS Glue의 FindMatches ML Transform는 동일한 엔터티를 참조하지만 안전한 식별자를 공유하지 않는 링크 레코드를 쉽게 찾을 수 있도록 합니다. FindMatches 이전에는 일반적으로 개발자가 수많은 수동 조정 규칙을 작성하여 데이터 일치 문제를 결정적으로 해결했습니다. FindMatches는 배후에서 머신 학습 알고리즘을 사용하여 각 개발자의 자체 비즈니스 기준에 따라 레코드를 매칭시키는 방법을 학습합니다. FindMatches는 먼저 레코드가 매칭하는지 여부에 대해 레이블을 지정할 고객의 레코드를 식별한 다음 기계 학습을 사용하여 ML 변환을 작성합니다. 고객은 이 변환을 자신의 데이터베이스에서 실행하여 매칭 레코드를 찾거나 FindMatches에게 ML Transform에 대해 레이블을 지정할 추가 레코드를 제공하여 정확도의 레벨을 더 높일 수 있습니다.
Q: ML Transform은 무엇입니까?
ML Transform은 기계 학습 변환의 생성 및 관리를 위한 대상을 제공합니다. 생성과 교육 후 이 ML Transform은 표준 AWS Glue 스크립트에서 실행될 수 있습니다. 고객은 특정 알고리즘(예: FindMatches ML Transform)를 선택하고 데이터세트를 입력한 후 예시를 교육하고 알고리즘에 필요한 파라미터를 조정합니다. AWS Glue는 이러한 인풋을 사용하여 보통의 ETL Job 워크플로에 통합할 수 있는 ML Transform을 구축합니다.
Q: ML Transforms은 어떻게 작동합니까?
AWS Glue에는 특수 ML 기반 데이터세트 변환 알고리즘이 포함되어 있어서 고객은 자신의 ML Transform 작성에 사용할 수 있습니다. 여기에는 중복 제거와 매치 찾기가 포함되어 있습니다.
고객은 콘솔에 있는 ML Transform으로 이동하여(또는 ML Transform 서비스 엔드포인트를 이용하거나 CLI를 통해 ML Transform에 액세스하여) 자신이 첫 번째 ML Transform 모델을 작성하기 시작할 수 있습니다. ML Transform 탭은 사용자 변환의 관리를 위해 사용자 친화적인 뷰를 제공합니다. ML 변환은 다른 변환으로부터 뚜렷한 워크플로 요구 사항을 필요로 합니다. 여기에는 별도의 교육 및 파라미터 튜닝, 실행 워크플로의 필요성, 생성된 변환의 품질 지표 추산의 필요성, 교육과 활성화된 학습의 추가 진실성 레이블 관리와 수립에 대한 필요성이 포함됩니다.
콘솔을 통해 ML 변환을 만들려면 소비자는 먼저 변환 유형(Record Deduplication 및 Record Matching과 같은)을 선택하고 Data Catalog에서 이전에 발견된 적절한 데이터 소스를 제공합니다. 변환에 따라 소비자는 교육 도는 추가 파라미터에 대한 기본 진실성 레이블 데이터를 제공하라는 요청을 받을 수 있습니다. 소비자는 자신의 교육 작업 상태를 모니터링하고 각 변환의 품질 지표를 볼 수 있습니다. (품질 지표는 고객 제공 레이블 데이터의 보류 세트에 의해 보고됩니다.)
일단 성능에 만족하면 고객은 ML 변환 모델을 생산에 사용하도록 할 수 있습니다. 그런 다음 다른 AWS Glue 라이브러리에서 제공된 사전 구축된 변환과 비슷하게 서비스에 의해 자동 생성된 코드와 다른 작업과 함께 제출된 사용자 정의 스크립트에서 ML 변환을 ETL 워크플로 도중 사용할 수 있습니다.
Q: 매치를 찾고 레코드를 복사하기 위해 AWS Glue(및 AWS Lake Formation)를 사용하여 프레젠테이션을 볼 수 있습니까?
A: 예, AWS 온라인 테크 톡, "AWS Lake Formation을 위한 ML 변환으로 퍼지 매칭 및 데이터 복사"의 전체 녹화가 여기에 공개되어 있습니다.
AWS Glue DataBrew
Q: AWS Glue DataBrew란 무엇입니까?
AWS Glue DataBrew는 데이터 분석가와 데이터 사이언티스트가 코드를 작성하지 않고도 대화형 포인트 앤 클릭 시각적 인터페이스로 데이터를 쉽게 준비할 수 있도록 하는 시각적 데이터 준비 도구입니다. Glue DataBrew를 사용하면 Amazon S3, Amazon Redshift, Amazon Aurora, Amazon RDS를 비롯한 데이터 레이크, 데이터 웨어하우스 및 데이터베이스에서 테라바이트는 물론, 페타바이트 규모의 데이터를 직접 시각화, 정리 및 정규화할 수 있습니다. AWS Glue DataBrew는 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), EU(아일랜드), EU(프랑크푸르트), 아시아 태평양(시드니) 및 아시아 태평양(도쿄)에서 지금 사용할 수 있습니다.
Q: AWS Glue DataBrew를 사용할 수 있는 사람은 누구입니까?
AWS Glue DataBrew는 분석 및 기계 학습을 위해 데이터를 정리하고 정규화해야 하는 사용자를 위해 구축되었습니다. 데이터 분석가와 데이터 사이언티스트가 주요 사용자입니다. 비즈니스 인텔리전스 분석가, 운영 분석가, 시장 인텔리전스 분석가, 법률 분석가, 재무 분석가, 경제학자, 금융 시장 분석가 또는 회계사가 데이터 분석가에 속하고, 재료 과학자, 생물 분석 과학자 및 과학 연구원이 데이터 사이언티스트에 속합니다.
Q: AWS Glue DataBrew에서는 어떤 유형의 변환이 지원됩니까?
250여 개의 기본 제공 변환 중에서 선택하여 코드를 작성하지 않고도 데이터를 결합, 피벗 및 바꿀 수 있습니다. 또한 AWS Glue DataBrew는 이상 항목 필터링, 유효하지 않거나 잘못 분류되었거나 중복된 데이터 수정, 표준 날짜 및 시간 값으로 데이터 정규화, 분석을 위한 집계 생성 등의 변환을 자동으로 권장합니다. 단어를 공통 어원 또는 어근으로 변환하는 것과 같은 복잡한 변환의 경우 Glue DataBrew는 NLP(자연어 처리)와 같은 고급 기계 학습 기술을 사용하는 변환을 제공합니다. 여러 변환을 함께 그룹화하고 이를 레시피로 저장하여 새로 수신되는 데이터에 직접 적용할 수 있습니다.
Q: AWS Glue DataBrew는 어떤 파일 형식을 지원합니까?
AWS Glue DataBrew는 입력 데이터로 쉼표로 구분된 값(.csv), JSON 및 중첩 JSON, Apache Parquet 및 중첩 Apache Parquet, Excel 시트와 같이 일반적으로 사용되는 파일 형식이 지원되고, AWS Glue DataBrew는 출력 데이터로 쉼표로 구분된 값 (.csv), JSON, Apache Parquet, Apache Avro, Apache ORC 및 XML이 지원됩니다.
Q: AWS Glue DataBrew를 무료로 사용해 볼 수 있습니까?
예. AWS 프리 티어 계정에 가입한 다음, AWS Glue DataBrew Management Console에서 무료로 즉시 시작할 수 있습니다. Glue DataBrew를 처음 사용하는 경우 처음 40개의 대화형 세션이 무료입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.
Q: AWS Glue DataBrew를 사용하려면 AWS Glue 데이터 카탈로그 또는 AWS Lake Formation을 사용해야 합니까?
아니요. AWS Glue 데이터 카탈로그 또는 AWS Lake Formation을 사용하지 않고 AWS Glue DataBrew를 사용할 수 있습니다. 그러나 AWS Glue 데이터 카탈로그 또는 AWS Lake Formation을 사용하는 경우, DataBrew 사용자는 중앙식 데이터 카탈로그에서 사용할 수 있는 데이터 집합을 선택할 수 있습니다.
Q: 데이터의 모든 변경 기록을 유지할 수 있습니까?
예. AWS Glue DataBrew Management Console에서 데이터의 모든 변경 사항을 시각적으로 추적할 수 있습니다. 시각적 보기를 사용하여 데이터 세트, 프로젝트 및 레시피, 기타 모든 관련 작업의 변경 및 관계를 쉽게 추적할 수 있습니다. 또한, Glue DataBrew는 모든 계정 활동을 AWS CloudTrail에서 로그로 유지합니다.
AWS Glue Flex 작업
Q: Glue Flex란 무엇인가요?
AWS Glue Flex는 긴급하지 않은 데이터 통합 워크로드(예: 사전 프로덕션 작업, 테스트, 데이터 로드 등)의 비용을 최대 35% 절감할 수 있는 탄력적인 실행 작업 클래스입니다. Glue에는 표준 및 유연과 같은 두 가지 작업 실행 클래스가 있습니다. 표준 실행 클래스는 빠른 작업 시작과 전용 리소스를 요구하는 시간에 민감한 워크로드에 적합합니다. 탄력 실행 클래스는 시작 및 완료 시간이 달라질 수 있는 긴급하지 않은 작업에 적합합니다. AWS Glue Flex는 시간에 민감하지 않은 워크로드(예: 야간 배치 ETL 작업, 주말 작업, 일회성 대량 데이터 모으기 작업 등) 비용을 절감할 수 있습니다.
Q: AWS Glue의 표준 및 탄력 실행 클래스는 어떻게 다릅니까?
AWS Glue의 표준 및 탄력 실행 클래스의 실행 속성은 서로 다릅니다. 표준 실행 클래스에서 작업은 바로 시작되고 실행 중에 전용 리소스가 제공됩니다. 탄력 실행 클래스 작업은 AWS에서 비전용 컴퓨팅 리소스에서 실행됩니다. 이러한 리소스는 작업 실행 중에 회수 가능하며, 시작 시간과 완료 시간은 상황에 따라 달라집니다. 결과적으로 두 실행 클래스가 적합한 워크로드는 서로 다릅니다. 표준 실행 클래스는 빠른 작업 시작과 전용 리소스를 요구하는 시간에 민감한 워크로드에 적합합니다. 탄력 실행 클래스는 시작 시간 및 완료 시간의 변화가 허용될 수 있는 긴급하지 않은 작업에 더 적합하고 비용이 더 저렴합니다.
Q: AWS Glue Flex 탄력 실행 클래스 작업을 시작하려면 어떻게 해야 합니까?
탄력 실행 클래스는 Glue Spark 작업에서 사용할 수 있습니다. 탄력 실행 클래스를 사용하려는 경우 ‘STANDARD’에서 ‘FLEX’로 실행 클래스 파라미터의 기본 설정을 변경하면 됩니다. Glue Studio 또는 CLI에서 변경할 수 있습니다. 자세한 내용은 AWS Glue _사용 설명서_를 참조하세요.
Q: AWS Glue Flex 탄력 실행 클래스에 적합하지 않은 데이터 통합 및 ETL 워크로드 유형은 무엇입니까?
AWS Glue Flex 탄력 실행 클래스는 작업 시작 및 실행 시간이 일관되어야 하는 시간에 민감한 워크로드 또는 특정 시간까지 실행을 완료해야 하는 작업에 적합하지 않습니다. AWS Glue Flex는 장기 실행 데이터 통합 워크로드에도 권장되지 않습니다. 간섭을 받을 가능성이 크며 빈번하게 취소되기 때문입니다.
Q: AWS Glue Flex 탄력 실행 클래스에서 실행되는 작업의 예상 중단 빈도는 어느 정도로 예상할 수 있습니까?
AWS Glue Flex의 가용성 및 중단 빈도는 리전 및 가용 영역(AZ), 하루 중 시간, 요일을 비롯한 여러 요소에 따라 달라집니다. 리소스 가용성은 Glue Flex 작업이 시작되는지 여부를 확인합니다. 중단 비율은 피크 시간대에서 5~10%라면 Glue Flex 작업의 중단 비율은 5% 또는 Glue Flex 작업의 실패 비율(중단 비율이 5% 미만이므로)로 예상합니다.
Q: 탄력 실행 클래스는 항상 사용할 수 있습니까?
예. 항상 탄력 실행 클래스를 선택하여 Glue 작업을 실행할 수 있습니다. 그러나 이러한 작업을 실행하는 AWS Glue의 기능은 비전담 AWS 용량의 가용성 및 작업에 대해 선택한 작업자 수에 기반합니다. 피크 시간에 Glue는 작업에 적합한 용량을 지원하지 못할 수도 있습니다. 이 경우 작업은 시작되지 않습니다. Glue에서 작업을 취소하는 제한 시간 값을 지정할 수 있습니다. 제한 시간 값이 길수록 작업이 실행될 가능성도 큽니다.
Q: AWS Glue Flex 작업이 실행 중에 중단되면 어떻게 됩니까?
Glue Flex 작업이 중단되면 더 이상 작업자가 부족하여 지정된 작업자 수에 따라 작업을 완료할 수 없으므로 작업에 실패합니다. Glue는 작업을 취소하기 전에 작업 정의에 지정된 최대 재시도 수만큼 실패한 작업을 재시도합니다. 다른 시스템 또는 프로세스에 대한 다운스트림 종속성이 있는 작업에 대해서는 탄력 실행 클래스를 사용해서는 안 됩니다.
Q: 탄력 실행 클래스는 어떤 유형의 AWS Glue 작업을 지원합니까?
탄력 실행 클래스는 Glue Spark 작업만 지원합니다. Pythonshell 및 스트리밍은 지원되지 않습니다. AWS Glue Flex는 Glue 버전 3.0 이상에서만 지원됩니다. 탄력 실행 클래스는 현재 스트리밍 워크로드를 지원하지 않습니다.
AWS 제품 통합
Q: AWS Glue와 AWS Data Pipeline은 각각 언제 사용해야 합니까?
AWS Glue는 서버리스 Apache Spark 환경에서 실행되는 관리형 ETL 서비스를 제공합니다. 따라서 ETL 작업에 집중할 수 있고, 기본 컴퓨팅 리소스를 구성하거나 관리하는 데 신경을 쓸 필요가 없습니다. AWS Glue는 데이터 우선 접근 방식을 취하며 이를 통해 사용자는 데이터 속성과 데이터 조작에 집중하여 비즈니스 통찰력을 도출할 수 있는 형태로 데이터를 변환할 수 있습니다. 통합된 데이터 카탈로그를 제공하므로 메타데이터를 ETL에서뿐만 아니라 Amazon Athena 및 Amazon Redshift Spectrum을 통해 쿼리하는 데도 사용할 수 있습니다.
AWS Data Pipeline은 실행 환경, 코드를 실행하는 컴퓨팅 리소스에 대한 액세스 및 제어, 데이터 처리를 수행하는 코드 자체와 관련하여 탁월한 유연성을 지원하는 관리형 오케스트레이션 서비스를 제공합니다. AWS Data Pipeline은 사용자 계정에서 컴퓨팅 리소스를 시작하므로 Amazon EC2 인스턴스 또는 Amazon EMR 클러스터에 바로 액세스할 수 있습니다.
또한, AWS Glue ETL 작업은 Scala 또는 Python 기반입니다. 사용 사례에 따라 Apache Spark 이외의 엔진을 사용해야 하거나 Hive, Pig 등 다양한 엔진에서 실행되는 이기종 작업 세트를 실행하길 원하는 경우에는 AWS Data Pipeline을 사용하는 것이 좋습니다.
Q: AWS Glue와 AWS Data Pipeline은 각각 언제 사용해야 합니까?
AWS Glue는 Apache Spark 환경에서 작동하므로 데이터 변환 작업을 위한 스케일 아웃 실행 환경을 제공합니다. AWS Glue는 ETL 작업을 추론하고 발전시키고 모니터링하여 작업을 생성 및 유지 관리하는 프로세스를 대폭 간소화합니다. Amazon EMR은 Hadoop 환경에 대한 직접 액세스를 제공하므로 Spark 이외의 도구를 사용할 수 있는 더 뛰어난 유연성과 더 낮은 수준의 액세스를 지원합니다.
Q: AWS Glue와 AWS Database Migration Service는 각각 언제 사용해야 합니까?
AWS Database Migration Service(DMS)는 데이터베이스를 AWS로 쉽고 안전하게 마이그레이션할 수 있도록 지원합니다. 온프레미스에서 AWS로 데이터베이스를 마이그레이션해야 하거나 온프레미스 소스와 AWS 소스 간 데이터베이스 복제가 필요한 사용 사례의 경우 AWS DMS를 사용하는 것이 좋습니다. 데이터가 AWS에 있으며, AWS Glue를 사용하여 데이터 소스에서 다른 데이터베이스 또는 데이터 웨어하우스(Amazon Redshift 등)로 데이터를 이동, 조합, 복제, 변환할 수 있습니다.
Q: AWS Glue와 AWS Batch는 각각 언제 사용해야 합니까?
AWS Batch를 사용하면 작업의 성격과 관계없이 AWS에서 어떤 배치 컴퓨팅 작업이든 쉽고 효율적으로 수행할 수 있습니다. AWS Batch는 AWS 계정에서 컴퓨팅 리소스를 생성 및 관리하므로 사용되는 리소스에 대한 완벽한 제어권 및 가시성을 사용자에게 제공합니다. AWS Glue는 ETL 작업을 실행할 수 있도록 서버리스 Apache Spark 환경을 제공하는 완전관리형 ETL 서비스입니다. ETL 사용 사례의 경우에는 AWS Glue 사용을 검토하는 것이 좋습니다. 일부 ETL 사용 사례를 비롯하여 기타 배치 중심 사용 사례의 경우에는 AWS Batch를 사용하는 것이 더 적합할 수 있습니다.
요금 및 결제
Q: AWS Glue는 요금이 어떻게 부과됩니까?
AWS Glue 데이터 카탈로그에 저장되어 액세스되는 메타데이터에 대해서는 AWS Glue 데이터 카탈로그 프리 티어를 초과하는 부분에 한해 월별 요금을 지불합니다. 크롤러 실행에 대해서는 초 단위로 청구되는 시간당 요금을 지불하며 최소 시간은 10분입니다. 개발 엔드포인트를 사용하여 ETL 코드를 대화식으로 개발하는 경우, 개발 엔드포인트가 프로비저닝된 시간에 대해 초 단위로 청구되는 시간당 요금을 지불하며 최소 시간은 10분입니다. 또한 ETL 작업에 대해서는 초 단위로 청구되는 시간당 요금을 지불하며, 선택한 Glue 버전에 따라 최소 시간은 1분 또는 10분입니다. 자세한 내용은 요금 페이지를 참조하세요.
Q: AWS Glue 작업에 대한 청구는 언제 시작되고 언제 종료됩니까?
청구는 작업 실행 일정이 예약되는 대로 시작되고 전체 작업이 완료될 때까지 계속됩니다. AWS Glue에서는 작업이 실행된 시간에 대해서만 비용을 지불하며 환경 프로비저닝이나 가동 중단 시간에 대해서는 지불하지 않습니다.
보안 및 가용성
Q: AWS Glue에서 데이터를 안전하게 유지하려면 어떻게 해야 합니까?
AWS에서는 저장 데이터에 대해서 서버 측 암호화를 제공하고 전송 데이터에 대해서는 SSL를 제공합니다.
Q: AWS Glue와 관련된 서비스 한도에는 어떤 것이 있습니까?
서비스 한도에 대한 자세한 내용은 설명서를 참조하세요.
Q: 어떤 리전에서 AWS Glue를 사용할 수 있습니까?
AWS Glue 서비스의 리전별 가용성에 대한 자세한 내용은 리전별 제품 및 서비스를 참조하십시오.
Q: 개발 엔드포인트에는 몇 개의 DPU(데이터 처리 유닛)가 할당되어 있습니까?
개발 엔드포인트에는 기본적으로 5개의 DPU가 프로비저닝됩니다. 최소 2개의 DPU와 최대 5개의 DPU로 개발 엔드포인트를 구성할 수 있습니다.
Q: 내 AWS Glue ETL 작업 규모와 성능을 조정하려면 어떻게 해야 합니까?
ETL 작업에 할당하고자 하는 DPU(데이터 처리 유닛) 수를 지정하기만 하면 됩니다. Glue ETL 작업에는 최소 2개의 DPU가 필요합니다. 기본적으로 AWS Glue는 각 ETL 작업에 10개의 DPU를 할당합니다.
Q: 내 AWS Glue 작업 실행을 모니터링하려면 어떻게 해야 합니까?
AWS Glue는 각 작업 상태를 제공하며 모든 알림을 Amazon CloudWatch 이벤트로 푸시합니다. 작업 실패 또는 완료에 대해 알 수 있도록 CloudWatch 작업을 통해 SNS 알림을 설정할 수 있습니다.
서비스 수준 계약
Q: AWS Glue SLA에서 보장하는 것은 무엇입니까?
AWS Glue SLA에서는 AWS Glue에 대해 최소 99.9%의 월간 가동률을 보장합니다.
Q: SLA 서비스 크레딧을 수령할 자격이 있는지 어떻게 알 수 있습니까?
같은 리전 내에서 작업을 실행하고 있는 하나 이상의 가용 영역의 월간 가동률이 월별 청구 주기 동안 99.9%보다 낮은 경우, AWS Glue SLA에 따라 AWS Glue의 SLA 크레딧 지급 대상이 됩니다.
SLA 이용 약관과 요청 제출 방법에 대한 자세한 내용은 AWS Glue SLA 세부 정보 페이지를 참조하십시오.