Mengapa harus Glue?

Dengan AWS Glue, Anda membayar tarif per jam, yang ditagihkan berdasarkan detik, untuk perayap (penjelajahan data) dan tugas extract, transform, and load (ETL) (pemrosesan dan pemuatan data). Untuk Katalog Data AWS Glue, Anda cukup membayar biaya bulanan untuk menyimpan dan mengakses metadata. Gratis untuk satu juta objek pertama yang disimpan dan satu juta akses pertama. Jika Anda menyediakan titik akhir pengembangan untuk mengembangkan kode ETL secara interaktif, Anda cukup membayar tarif per jam, yang ditagihkan per detik. Untuk AWS Glue DataBrew, sesi interaktif ditagihkan per sesi dan tugas DataBrew ditagihkan per menit. Penggunaan Registri Skema AWS Glue ditawarkan tanpa biaya tambahan.

Catatan: Harga dapat bervariasi berdasarkan Wilayah AWS.

  • Tugas ETL dan sesi interaktif
  • Contoh harga

    Tugas ETL: Asumsikan tugas AWS Glue Apache Spark yang berjalan selama 15 menit dan menggunakan 6 DPU. Harga 1 Jam DPU adalah 0,44 USD. Karena tugas Anda berjalan selama 15 menit dan menggunakan 6 DPU, AWS akan menagih Anda 6 DPU * 0,25 jam * 0,44 USD, atau 0,66 USD.

    Notebook Tugas AWS Glue Studio dan Sesi Interaktif: Misalnya Anda menggunakan notebook di AWS Glue Studio untuk mengembangkan kode ETL Anda secara interaktif. Sesi Interaktif memiliki 5 DPU secara default. Harga 1 Jam DPU adalah 0,44 USD. Jika sesi tetap berjalan selama 24 menit, Anda akan ditagih untuk 5 DPU* 0,4 jam * 0,44 USD, atau 0,88 USD.

  • Katalog Data
  • Katalog Data AWS Glue adalah repositori metadata teknis terpusat untuk semua aset data Anda di berbagai sumber data termasuk Amazon S3, Amazon Redshift, dan sumber data pihak ketiga. Katalog Data dapat diakses dari Amazon SageMaker Lakehouse untuk data, analitik, dan AI. Ini menyediakan antarmuka terpadu untuk mengatur data sebagai katalog, basis data, dan tabel dan menjalankan kueri pada mereka dari Amazon Redshift, Amazon Athena, dan Amazon EMR. Kemampuan AWS Lake Formation di Katalog Data memungkinkan Anda untuk memusatkan tata kelola data di AWS. Atur aset data menggunakan izin data terperinci dan fitur gaya basis data yang sudah dikenal.

    Saat menggunakan Katalog Data, Anda dikenakan biaya untuk menyimpan dan mengakses metadata tabel dan untuk menjalankan tugas pemrosesan data yang melakukan komputasi statistik tabel dan pengoptimalan tabel.

    Harga metadata

    Dengan Katalog Data, Anda dapat menyimpan hingga satu juta objek metadata secara gratis. Jika Anda menyimpan lebih dari satu juta objek metadata, Anda akan dikenakan biaya 1,00 USD per 100.000 objek yang melebihi satu juta, per bulan. Satu objek metadata yang berada di Katalog Data dapat berupa tabel, versi tabel, partisi, indeks partisi, statistik, basis data, atau katalog.

    Pemeliharaan tabel dan statistik

    Katalog Data menyediakan pemadatan terkelola untuk tabel Apache Iceberg di penyimpanan objek Amazon S3, memadatkan objek kecil menjadi objek yang lebih besar untuk performa baca yang lebih baik oleh layanan analitik AWS seperti Amazon Redshift, Athena, Amazon EMR, dan AWS Glue ETL. Anda dikenai tarif per jam berdasarkan jumlah Unit Pemrosesan Data (DPU) yang digunakan untuk pemadatan tabel. Satu Unit Pemrosesan Data (DPU) menyediakan 4 vCPU dan 16 GB memori. Anda akan ditagih dengan kelipatan 1 detik, dibulatkan ke detik terdekat, dengan durasi minimum 1 menit per putaran.

    Katalog Data juga mendukung statistik tabel tingkat kolom untuk tabel AWS Glue. Statistik ini juga terintegrasi dengan pengoptimal berbasis biaya (CBO) di Athena dan kueri danau data Amazon Redshift, menghasilkan peningkatan performa kueri dan potensi penghematan biaya.

    Optimisasi

    • 0,44 USD per jam DPU untuk mengoptimalkan tabel Apache Iceberg, ditagih per detik dengan durasi minimum 1 menit.

    Statistik:

    • 0,44 USD per jam DPU untuk menghasilkan statistik, ditagih per detik dengan durasi minimum 1 menit.

    Penggunaan dan biaya tambahan

    Penyimpanan

    Menggunakan Katalog Data, Anda dapat membuat dan mengelola tabel di Amazon S3 dan Amazon Redshift, dan Anda masing-masing dikenai tarif standar Amazon S3 atau Amazon Redshift untuk penyimpanan tabel. Tidak ada biaya penyimpanan tambahan di Katalog Data.

        1. Saat menyimpan data di Amazon S3, Anda dikenakan tarif Amazon S3 standar untuk penyimpanan, permintaan, dan transfer data. Lihat harga Amazon S3 untuk informasi selengkapnya.

        2. Saat menyimpan data di Amazon Redshift, Anda dikenakan tarif Amazon Redshift standar untuk penyimpanan. Untuk detailnya, kunjungi harga Amazon Redshift.

    Komputasi

    Saat Anda mengakses tabel Amazon Redshift dari Amazon EMR, AWS Glue, Athena, atau mesin sumber terbuka atau pihak ketiga yang kompatibel dengan Apache Iceberg, grup kerja Amazon Redshift Nirserver yang dikelola layanan digunakan untuk sumber daya komputasi. Kelompok kerja terkelola Amazon Redshift Nirserver digunakan untuk memfilter hasil tabel, dan Anda dikenakan biaya untuk sumber daya komputasi yang Anda gunakan berdasarkan tarif Amazon Redshift Nirserver standar. Tidak ada biaya terpisah untuk tabel kueri yang disimpan di Amazon Redshift menggunakan Amazon Redshift. Kunjungi harga Amazon Redshift untuk mempelajari selengkapnya.

    Izin Lake Formation

    Lake Formation terintegrasi dengan Katalog Data dan menyediakan izin tingkat basis data, tabel, kolom, baris, dan sel menggunakan kontrol akses berbasis tag atau berbasis nama dan berbagi lintas akun. Tidak ada biaya terpisah saat membuat izin Lake Formation atau menggunakan izin Lake Formation dengan layanan AWS terintegrasi.

    Contoh harga

    Katalog Data di AWS Tingkat Gratis: Pertimbangkan bahwa Anda menyimpan satu juta objek metadata di Katalog Data dalam bulan tertentu dan membuat 1 juta permintaan metadata untuk mengakses tabel ini. Anda membayar 0 USD karena penggunaan Anda termasuk dalam Katalog Data AWS Glue Tingkat Gratis. Anda dapat menyimpan satu juta objek metadata pertama dan membuat satu juta permintaan metadata per bulan secara gratis.

    Tingkat standar Katalog Data: Sekarang pertimbangkan bahwa penggunaan penyimpanan metadata Anda tetap sama pada 1 juta objek metadata per bulan, tetapi permintaan Anda berlipat ganda menjadi 2 juta permintaan metadata per bulan. Anggaplah Anda juga menggunakan perayap untuk menemukan tabel baru, menjalankannya selama 30 menit, dan menggunakan 2 DPU.

    Biaya penyimpanan Anda tetap 0 USD, karena penyimpanan untuk satu juta objek metadata pertama Anda adalah gratis. Satu juta permintaan pertama Anda juga gratis. Anda akan ditagih untuk 1 juta permintaan yang melebihi Katalog Data Tingkat Gratis, yakni sebesar 1 USD.

    Menggunakan Katalog Data dengan layanan lain:

    Misalnya, saat Anda melakukan kueri tabel di Amazon Redshift menggunakan Athena SQL di SageMaker Lakehouse, Anda akan dikenakan biaya untuk: menyimpan tabel di Amazon Redshift berdasarkan harga Amazon Redshift standar; permintaan metadata yang dibuat ke Katalog Data berdasarkan harga permintaan Katalog Data standar; penyimpanan metadata untuk menyimpan katalog, basis data, dan metadata tabel di Katalog Data; Jam RPU Amazon Redshift Nirserver per detik (dengan biaya minimum 60 detik) untuk memfilter hasil tabel Amazon Redshift; dan jumlah byte yang dipindai oleh kueri Athena, dibulatkan ke megabyte terdekat, dengan minimum 10 MB per data kueri menggunakan harga Athena standar.

    Dalam skenario lain di mana Anda melakukan kueri tabel di Amazon Redshift menggunakan Amazon EMR Nirserver, Anda akan dikenakan biaya untuk: menyimpan tabel di Amazon Redshift berdasarkan harga Amazon Redshift standar; permintaan metadata yang dibuat ke Katalog Data berdasarkan harga permintaan Katalog Data standar; penyimpanan metadata untuk menyimpan katalog, basis data, dan metadata tabel di Katalog Data; Jam RPU Amazon Redshift Nirserver per detik (dengan biaya minimum 60 detik) untuk memfilter hasil tabel Amazon Redshift; dan jumlah sumber daya vCPU, memori, dan penyimpanan yang digunakan oleh pekerja Anda dalam aplikasi Amazon EMR.

    Dalam skenario lain di mana Anda melakukan kueri tabel Apache Iceberg di penyimpanan objek Amazon S3 menggunakan Amazon Redshift Nirserver, Anda akan dikenakan biaya untuk: menyimpan tabel Apache Iceberg di Amazon S3 berdasarkan harga standar Amazon S3; permintaan metadata yang dibuat ke Katalog Data berdasarkan harga permintaan Katalog Data standar; penyimpanan metadata untuk menyimpan katalog, basis data, dan metadata tabel di Katalog Data; dan jam komputasi (jam RPU) berdasarkan harga Amazon Redshift standar.

    Perayap AWS Glue ditagih sebesar 0,44 USD per jam DPU, sehingga Anda akan membayar untuk 2 DPU * 0,5 jam sebesar 0,44 USD per jam DPU, yang setara dengan 0,44 USD.

    Jika Anda menghasilkan statistik untuk tabel AWS Glue, dan menjalankan statistik memakan waktu 10 menit dan menggunakan 1 DPU, Anda akan ditagih 1 DPU * 0,1666 jam * 0,44 USD/jam DPU, yang setara dengan 0,07 USD.

    Jika Anda memadatkan tabel Apache Iceberg yang disimpan di penyimpanan objek Amazon S3, dan pemadatan berjalan selama 30 menit dan menggunakan 2 DPU, Anda akan ditagih 2 DPU * 0,5 jam * 0,44 USD/jam DPU, yang setara dengan 0,44 USD.

  • Perayap
  • Sesi interaktif DataBrew
  • Contoh harga

    AWS Glue DataBrew: Harga untuk setiap 30 menit sesi interaktif adalah 1,00 USD. Jika Anda memulai sesi pada pukul 9.00, lalu keluar dari konsol, dan kembali lagi pada pukul 9.20–9.30, berarti Anda akan menggunakan 1 sesi dengan total 1,00 USD.

    Jika Anda memulai sesi pada pukul 09.00 dan berinteraksi dengan konsol DataBrew hingga pukul 09.50, lalu keluar dari ruang proyek DataBrew, dan kembali untuk melakukan interaksi terakhir pada pukul 10.15, aktivitas ini akan menggunakan 3 sesi dan Anda akan ditagih 1,00 USD per sesi dengan total 3 USD.

  • Tugas DataBrew
  • Contoh harga

    AWS Glue DataBrew: Jika tugas DataBrew berjalan selama 10 menit dan menggunakan 5 simpul DataBrew, harganya akan menjadi 0,40 USD. Karena tugas Anda berjalan selama 1/6 jam dan menggunakan 5 simpul, Anda akan ditagih 5 simpul x 1/6 jam x 0,48 USD per jam simpul dengan total 0,40 USD.

  • Kualitas Data
  • Kualitas Data AWS Glue membangun keyakinan pada data Anda dengan membantu Anda mencapai kualitas data yang tinggi. AWS Glue DataBrew secara otomatis mengukur, memantau, dan mengelola kualitas data pada danau data dan alur Anda sehingga memudahkan untuk mengidentifikasi data yang hilang, kedaluwarsa, atau buruk.

    Anda dapat mengakses fitur kualitas data dari Katalog Data dan AWS Glue Studio serta melalui API AWS Glue.

    Harga untuk mengelola kualitas data dari set data yang dikatalogkan dalam Katalog Data:

    Anda dapat memilih set data dari Katalog Data dan membuat rekomendasi. Tindakan ini akan membuat Tugas Rekomendasi yang akan Anda sediakan dengan unit pemrosesan data (DPU). Setelah mendapatkan rekomendasi, Anda dapat mengubah atau menambahkan aturan baru dan menjadwalkannya. Tugas ini disebut Tugas Kualitas Data yang akan Anda sediakan dengan DPU. Anda akan memerlukan minimal 2 DPU dengan durasi penagihan minimum 1 menit.

    Harga untuk mengelola kualitas data dari set data yang diproses di AWS Glue ETL:

    Anda juga dapat menambahkan pemeriksaan kualitas data ke tugas ETL untuk mencegah data yang buruk memasuki danau data Anda. Aturan kualitas data ini akan berada di tugas ETL Anda, sehingga menghasilkan peningkatan runtime atau peningkatan penggunaan DPU. Anda juga dapat menggunakan eksekusi Fleksibel untuk beban kerja sensitif non-SLA.

    Harga untuk mendeteksi anomali di AWS Glue ETL:

    Deteksi anomali:
    Anda akan dikenai 1 DPU per statistik sebagai tambahan dari DPU tugas ETL Anda untuk waktu yang dibutuhkan dalam mendeteksi anomali. Rata-rata, dibutuhkan antara 10–20 detik untuk mendeteksi anomali pada 1 statistik. Mari kita asumsikan bahwa Anda mengonfigurasi dua Aturan (Rule1: volume data harus lebih besar dari 1000 catatan, Rule2: jumlah kolom harus lebih besar dari 10) dan satu Penganalisis (Penganalisis 1: pantau kelengkapan kolom). Konfigurasi ini akan menghasilkan tiga statistik: jumlah baris, jumlah kolom, dan persentase kelengkapan kolom. Anda akan dikenai biaya 3 DPU tambahan untuk waktu yang dibutuhkan dalam mendeteksi anomali dengan waktu minimum 1 detik. Lihat contoh - 4 untuk lebih jelasnya.

    Pelatihan ulang:
    Anda mungkin ingin mengecualikan proses tugas atau statistik anomali, sehingga algoritma deteksi anomali dapat memprediksi anomali berikutnya secara akurat. Untuk melakukan hal ini, AWS Glue memungkinkan Anda untuk mengecualikan atau menyertakan statistik. Anda akan dikenai 1 DPU untuk melatih ulang model pada waktu yang dibutuhkan untuk melatih ulang. Rata-rata, pelatihan ulang membutuhkan waktu 10 detik hingga 20 menit per statistik. Lihat contoh 5 untuk lebih jelasnya.

    Penyimpanan statistik:
    Tidak ada biaya untuk menyimpan statistik yang dikumpulkan. Ada batas 100 ribu statistik per akun dan itu akan disimpan selama 2 tahun.

    Biaya tambahan:
    AWS Glue memproses data secara langsung dari Amazon Simple Storage Service (Amazon S3). Tidak ada biaya penyimpanan tambahan untuk membaca data Anda dengan AWS Glue. Anda dikenakan tarif Amazon S3 standar untuk penyimpanan, permintaan, dan transfer data. Berdasarkan konfigurasi Anda, file sementara, hasil kualitas data, dan file shuffle akan disimpan di bucket S3 pilihan Anda serta akan ditagih sesuai tarif S3 standar.


    Jika Anda menggunakan Katalog Data, Anda dikenai tarif Katalog Data AWS Glue standar. Untuk detailnya, pilih tab penyimpanan dan permintaan Katalog Data.

    Contoh harga

    Contoh 1 – Dapatkan rekomendasi untuk tabel di Katalog Data

    Misalnya, pertimbangkan tugas rekomendasi dengan 5 DPU yang selesai dalam 10 menit. Anda akan membayar 5 DPU x 1/6 jam x 0,44 USD, yang setara dengan 0,37 USD.

    Contoh 2 – Evaluasi kualitas data tabel di Katalog Data

    Setelah meninjau rekomendasi, Anda dapat mengeditnya jika perlu dan menjadwalkan tugas kualitas data dengan menyediakan DPU. Misalnya, Anda memiliki tugas evaluasi kualitas data dengan 5 DPU yang selesai dalam 20 menit.
    Anda akan membayar 5 DPU x 1/3 jam x 0,44 USD, dengan total 0,73 USD.

    Contoh 3 – Evaluasi kualitas data di tugas ETL AWS Glue

    Anda juga dapat menambahkan pemeriksaan kualitas data ke tugas ETL AWS Glue untuk mencegah daya yang buruk memasuki danau data Anda. Anda dapat melakukannya dengan menambahkan Transformasi Kualitas Data ke AWS Glue Studio atau API AWS Glue dalam kode yang Anda tulis di notebook AWS Glue Studio. Anggaplah Anda memiliki operasi tugas AWS Glue dimana aturan kualitas data dikonfigurasi di dalam alur, yang berjalan selama 20 menit (1/3 jam) dengan 6 DPU. Anda akan dikenakan tarif 6 DPU x 1/3 jam x 0,44 USD, dengan total 0,88 USD. Anda juga dapat menggunakan Flex, yang akan mengenakan tarif 6 DPU x 1/3 jam x 0,29 USD, dengan total 0,58 USD.

    Contoh 4—Mengevaluasi kualitas data dalam tugas AWS Glue ETL dengan Deteksi Anomali

    Pertimbangkan tugas AWS Glue yang membaca data dari Amazon S3, mentransformasikan data, dan menjalankan pemeriksaan kualitas data sebelum memuat ke Amazon Redshift. Asumsikan bahwa pipeline ini memiliki 10 aturan dan 10 penganalisis yang menghasilkan 20 statistik yang dikumpulkan. Kemundian, asumsikan bahwa ekstraksi, proses transformasi, pemuatan, pengumpulan statistik, evaluasi kualitas data akan memakan waktu selama 20 menit. Tanpa mengaktifkan Deteksi Anomali, pelanggan akan dikenai biaya 6 DPU x 1/3 jam (20 menit) x 0,44 USD, dengan total 0,88 USD (A). Dengan mengaktifkan Deteksi Anomali, kami akan menambahkan 1 DPU untuk setiap statistik dan akan memakan waktu rata-rata 15 detik untuk mendeteksi anomali. Dalam contoh ini, pelanggan akan mengeluarkan 20 statistik x 1 DPU x 15/3600 (0,0041 jam/statistik) x 0,44 USD (biaya per DPU/jam) = 0,037 USD (B). Total biaya tugas mereka adalah 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.

    Contoh 5—Pelatihan Ulang

    Pertimbangkan bahwa tugas Glue Anda mendeteksi anomali. Anda memutuskan untuk mengecualikan anomali dari model sehingga algoritma deteksi anomali memprediksi anomali masa depan secara akurat. Untuk melakukan hal ini, Anda dapat melatih ulang model dengan mengecualikan statistik anomali ini. Anda akan dikenai 1 DPU per statistik untuk waktu yang dibutuhkan dalam melatih ulang model. Rata-rata, hal ini bisa memakan waktu selama 15 detik. Dalam contoh ini, dengan asumsi Anda mengecualikan 1 titik data, Anda akan mengeluarkan 1 statistik * 1 DPU * 15/3600 (0,0041 jam/statistik) * 0,44 USD = 0,00185 USD.

  • Nol-ETL
  • Nol-ETL adalah serangkaian integrasi terkelola penuh oleh AWS yang meminimalkan kebutuhan untuk membangun pipeline data extract, transform, and load (ETL) untuk kasus penggunaan penyerapan dan replikasi umum dalam inisiatif analitik dan AI Anda. AWS tidak membebankan biaya tambahan untuk integrasi nol-ETL. Anda membayar untuk sumber dan sumber daya target yang digunakan untuk membuat dan memproses data yang diubah yang dibuat sebagai bagian dari integrasi nol-ETL.

    Amazon SageMaker Lakehouse dan Amazon Redshift mendukung integrasi nol-ETL dari aplikasi

    Amazon SageMaker Lakehouse dan Amazon Redshift mendukung integrasi nol-ETL dari aplikasi, yang mengotomatiskan ekstraksi dan pemuatan data dari aplikasi ke Amazon SageMaker Lakehouse dan Amazon Redshift. Lihat dokumentasi AWS Glue nol-ETL untuk daftar lengkap sumber nol-ETL yang didukung.

    AWS Glue mengenakan biaya untuk penyerapan data sumber aplikasi yang didukung oleh integrasi nol-ETL. Anda membayar sumber daya AWS Glue yang digunakan untuk mengambil sisipan, pembaruan, dan penghapusan dari aplikasi Anda. Anda dikenakan biaya berdasarkan volume data yang diterima dari aplikasi, dan tidak dikenakan biaya untuk memulai permintaan untuk menyerap data. Setiap permintaan penyerapan yang dibuat oleh AWS Glue memiliki volume minimum 1 megabyte (MB).

    Saat data yang diserap ditulis ke Amazon Redshift, Anda membayar sumber daya yang digunakan untuk memproses data yang diubah yang dibuat sebagai bagian dari integrasi nol-ETL berdasarkan tarif harga Amazon Redshift.

    Saat data yang diserap ditulis ke SageMaker Lakehouse, Anda membayar sumber daya yang digunakan untuk memproses data yang diubah yang dibuat sebagai bagian dari integrasi nol-ETL. Sumber daya komputasi yang digunakan didasarkan pada jenis penyimpanan yang dipilih untuk SageMaker Lakehouse.

    • Untuk penyimpanan terkelola Amazon Redshift, Anda dikenakan biaya berdasarkan komputasi Amazon Redshift Nirserver. Untuk informasi selengkapnya, lihat harga Amazon Redshift.
    • Untuk Amazon Simple Storage Service (S3), Anda dikenakan biaya berdasarkan komputasi AWS Glue per Jam Unit Pemrosesan Data (Jam DPU), ditagih per detik dengan durasi minimum 1 menit.

     

    Integrasi nol-ETL Amazon DynamoDB dengan Amazon SageMaker Lakehouse

    Integrasi nol-ETL Amazon DynamoDB dengan Amazon SageMaker Lakehouse mengotomatiskan ekstraksi dan pemuatan data, memungkinkan analitik dan AI untuk data dari tabel DynamoDB di dalam lakehouse data.

    DynamoDB membebankan biaya kepada Anda untuk mengekspor data dari cadangan berkelanjutan DynamoDB Anda (pemulihan titik waktu). Untuk informasi selengkapnya, lihat harga Amazon DynamoDB.

    Saat data yang diserap ditulis ke Amazon SageMaker Lakehouse, Anda membayar sumber daya yang digunakan untuk memproses data yang diubah yang dibuat sebagai bagian dari integrasi nol-ETL berdasarkan jenis penyimpanan yang dipilih untuk Amazon SageMaker Lakehouse.

    • Untuk penyimpanan terkelola Amazon Redshift, Anda dikenakan biaya berdasarkan komputasi Amazon Redshift Nirserver. Untuk informasi selengkapnya, lihat harga Amazon Redshift.
    • Untuk Amazon Simple Storage Service (S3), Anda dikenakan biaya berdasarkan komputasi AWS Glue per Jam Unit Pemrosesan Data (Jam DPU), ditagih per detik dengan durasi minimum 1 menit.

Catatan: Harga dapat bervariasi berdasarkan Wilayah.

Lihat tabel Wilayah Global untuk mempelajari ketersediaan AWS Glue selengkapnya.