Instans Trn1 Amazon EC2

Pelatihan model AI generatif beperforma tinggi dan hemat biaya

Mengapa instans Trn1 Amazon EC2?

Instans Trn1 Amazon Elastic Compute Cloud (EC2), yang didukung oleh chip AWS Trainium, dibuat khusus untuk pelatihan deep learning (DL) performa tinggi model AI generatif, termasuk model bahasa besar (LLM) dan model difusi laten. Instans Trn1 menawarkan penghematan biaya pelatihan hingga 50% dibandingkan dengan instans Amazon EC2 lain yang sebanding. Anda dapat menggunakan instans Trn1 untuk melatih lebih dari 100 miliar model DL parameter dan AI generatif di berbagai rangkaian aplikasi, seperti merangkum teks, membuat kode, menjawab pertanyaan, membuat gambar dan video, memberikan rekomendasi, dan mendeteksi penipuan.

SDK AWS Neuron membantu developer melatih model di AWS Trainium (dan melakukan deployment model di cip AWS Inferentia). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk mempelajari dukungan Neuron saat ini pada kerangka kerja dan pustaka, arsitektur model, serta optimisasi perangkat keras machine learning (ML), lihat dokumentasi Neuron.

Memperkenalkan Instans Trn1 Amazon EC2 yang ditenagai oleh AWS Trainium

Manfaat

Instans Trn1 dibuat khusus untuk DL beperforma tinggi dan mengurangi waktu pelatihan dari hitungan bulan ke minggu, atau bahkan hari. Dengan waktu pelatihan yang berkurang, Anda dapat mengiterasi lebih cepat, membangun lebih banyak model inovatif, dan meningkatkan produktivitas. Instans Trn1n memberikan waktu hingga 20% lebih cepat dibandingkan instans Trn1 untuk model yang mendapat manfaat dari peningkatan bandwidth jaringan.

Instans Trn1 memberikan performa tinggi sekaligus menawarkan penghematan biaya hingga 50% dibandingkan instans Amazon EC2 lainnya yang sebanding.

Gunakan SDK AWS Neuron untuk mengekstrak performa penuh instans Trn1. Dengan Neuron, Anda dapat menggunakan kerangka kerja ML yang populer, seperti PyTorch dan TensorFlow serta terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk memulai instans Trn1 dengan cepat, lihat model populer contoh di dokumentasi Neuron.

Instans Trn1 mendukung hingga 800 Gbps bandwidth jaringan Elastic Fabric Adapter (EFAv2) generasi kedua. Instans Trn1n mendukung bandwidth jaringan EFAv2 hingga 1.600 Gbps untuk memberikan performa yang lebih tinggi lagi untuk model intensif jaringan. Deployment dilakukan pada kedua instans di EC2 UltraClusters yang memungkinkan kenaikan skala hingga 30.000 cip Trainium, yang saling terhubung dengan jaringan skala petabita tanpa pemblokiran untuk menyediakan 6 exaflop performa komputasi.

Fitur

Instans Trn1 didukung oleh hingga 16 cip AWS Trainium yang dibuat khusus untuk mempercepat pelatihan DL dan menghasilkan daya komputasi FP16/BF16 hingga 3 petaflop. Setiap cip mencakup dua NeuronCore generasi kedua.

Untuk mendukung data yang efisien dan paralelisme model, setiap instans Trn1 memiliki 512 GB memori akselerator bersama (HBM) dengan total bandwidth memori 9,8 TB/dtk.

Untuk mendukung pelatihan model intensif jaringan, seperti Mixture of Experts (MoE) dan Generative Pre-Training Transformers (GPT), setiap instans Trn1n memberikan bandwidth jaringan EFAv2 hingga 1.600 Gbps. Setiap instans Trn1 mendukung hingga 800 Gbps bandwidth EFAv2. EFAv2 mempercepat pelatihan terdistribusi dengan memberikan peningkatan hingga 50% dalam performa komunikasi kolektif dibandingkan EFA generasi pertama. Instans ini juga mendukung hingga 80 Gbps bandwidth Amazon Elastic Block Store (EBS) dan hingga 8 TB penyimpanan solid state drive (SSD) NVMe lokal untuk akses beban kerja cepat ke set data besar.

Untuk konektivitas cepat antara cip Trainium dan komunikasi kolektif yang efisien, instans Trn1 mendukung NeuronLink hingga 768 GB/detik, interkoneksi tanpa pemblokiran berkecepatan tinggi.

Untuk memberikan performa tinggi sembari memenuhi sasaran akurasi, instans Trn1 dioptimalkan untuk tipe data FP32, TF32, BF16, FP16, UINT8, dan FP8 (cFP8) baru yang dapat dikonfigurasi. Untuk mendukung laju inovasi DL dan AI generatif, instans Trn1 memiliki beberapa inovasi yang membuatnya fleksibel dan dapat diperpanjang untuk melatih model DL yang terus berkembang. Instans Trn1 memiliki optimisasi perangkat keras dan dukungan perangkat lunak untuk bentuk input dinamis. Untuk memungkinkan dukungan bagi operator baru di masa depan, instans Trn1 mendukung operator kustom yang ditulis dalam C++. Instans Inf2 juga mendukung pembulatan stokastik, suatu metode pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.

Testimoni Pelanggan dan Partner

Berikut ini beberapa contoh bagaimana pelanggan dan partner berhasil mencapai tujuan bisnis mereka dengan instans Trn1 Amazon EC2.

  • Databricks

    Lebih dari 10.000 organisasi di seluruh dunia — termasuk Comcast, Condé Nast, dan lebih dari 50% dari Fortune 500 — mengandalkan Databricks untuk menyatukan data, analitik, dan AI mereka.

    Ribuan pelanggan telah menerapkan Databricks di AWS, yang memberi mereka kemampuan untuk menggunakan MosaicML untuk melakukan pralatih, menyempurnakan, dan menyajikan model fondasi untuk berbagai kasus penggunaan. AWS Trainium memberi kami skala dan performa tinggi yang dibutuhkan untuk melatih model MPT Mosaic kami, dan dengan biaya rendah. Saat kami melatih model Mosaic MPT generasi berikutnya, Trainium2 akan memungkinkan pembangunan model yang lebih cepat, yang membuat kami dapat memberikan skala dan performa yang belum pernah ada sebelumnya bagi pelanggan agar mereka dapat menghadirkan aplikasi AI generatif mereka sendiri ke pasar dengan lebih cepat.

    Naveen Rao, VP of Generative AI, Databricks
  • Stockmark Co., Ltd

    Dengan misi “menemukan kembali mekanisme penciptaan nilai dan memajukan umat manusia”, Stockmark membantu banyak perusahaan menciptakan dan membangun bisnis inovatif dengan menyediakan teknologi pemrosesan bahasa alami yang mutakhir.

    Dengan 16 simpul instans Amazon EC2 Trn1 yang didukung cip AWS Trainium, kami telah mengembangkan dan merilis stockmark-13b, yaitu model bahasa besar dengan 13 miliar parameter, yang sebelumnya telah dilatih dari awal pada korpus 220 miliar token bahasa Jepang. Korpus tersebut mencakup teks domain bisnis terbaru hingga September 2023. Model tersebut mencapai skor JSQuAD tertinggi (0,813) pada tolok ukur JGLUE (Japanese General Language Understanding Evaluation) dibandingkan dengan model setara lainnya. Model ini tersedia di Hugging Face Hub dan dapat digunakan secara komersial dengan lisensi MIT. Instans Trn1 membantu kami mencapai pengurangan biaya pelatihan sebesar 20% dibandingkan dengan instans GPU yang setara.

    Kosuke Arima, CTO, Stockmark Co., Ltd.
  • RICOH

    RICOH menawarkan solusi tempat kerja dan layanan transformasi digital yang didesain untuk mengelola serta mengoptimalkan alur informasi di seluruh bisnis.

    Migrasi ke instans Trn1 cukup mudah. Kami dapat menyelesaikan pelatihan model parameter 13B kami hanya dalam waktu 8 hari. Berdasarkan kesuksesan ini, kami berharap dapat mengembangkan dan melatih model parameter 70 M kami di Trainium dan sangat antusias dengan potensi yang dimiliki oleh instans ini dalam melatih model kami dengan lebih cepat dan lebih hemat biaya.

    Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH
  • HeliXon

    Di HeliXon, kami membangun solusi AI generasi berikutnya untuk terapi berbasis protein. Kami bertujuan untuk mengembangkan alat AI yang memberdayakan ilmuwan untuk menguraikan fungsi dan interaksi protein, menyelidiki set data genomika skala besar untuk identifikasi target, serta mendesain terapi seperti antibodi dan terapi sel. Saat ini, kami menggunakan pustaka distribusi pelatihan seperti FSDP untuk memparalelkan pelatihan model di banyak server berbasis GPU, tetapi ini masih membutuhkan waktu berminggu-minggu bagi kami untuk melatih satu model. Kami sangat senang dapat menggunakan instans Trn1 Amazon EC2, yang menghadirkan bandwidth jaringan tertinggi (800 Gbps) yang tersedia di AWS untuk meningkatkan performa tugas pelatihan terdistribusi kami dan mengurangi waktu pelatihan model, sekaligus mengurangi biaya pelatihan.

    Jian Peng, CEO, Helixon
  • Money Forward, Inc.

    Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil.

    Kami meluncurkan layanan chatbot AI skala besar di instans Inf1 Amazon EC2 dan mengurangi latensi inferensi sebesar 97% dibandingkan instans berbasis GPU yang sebanding sekaligus mengurangi biaya. Saat kami meneruskan menyetel model NLP yang disesuaikan secara berkala, mengurangi waktu dan biaya pelatihan model juga penting. Berdasarkan pengalaman kami dari keberhasilan migrasi beban kerja inferensi pada instans Inf1 dan pekerjaan awal kami pada instans Trn1 EC2 berbasis AWS Trainium, kami berharap instans Trn1 akan memberikan nilai tambah dalam meningkatkan performa dan biaya ML ujung ke ujung.

    Takuya Nakade, CTO, Money Forward, Inc.
  • Magic

    Magic adalah perusahaan produk dan riset terintegrasi yang mengembangkan AI yang terasa seperti kolega untuk menjadikan dunia lebih produktif.

    Melatih model berbasis Transformer autoregresif yang besar merupakan komponen penting dalam pekerjaan kami. Instans Trn1 yang didukung AWS Trainium didesain khusus untuk beban kerja ini, menawarkan skalabilitas yang hampir tak terbatas, jaringan antar-simpul cepat, serta dukungan lanjutan untuk tipe data 16 dan 8 bit. Instans Trn1 akan membantu kami melatih model besar lebih cepat, dengan biaya lebih rendah. Kami sangat senang dengan dukungan native untuk pembulatan stokastik BF16 di Trainium, yang meningkatkan performa meskipun akurasi numerik tidak dapat dibedakan dari presisi penuh.

    Eric Steinberger, Cofounder dan CEO, Magic
  • Cactus Communications

    CACTUS memiliki rangkaian produk dan solusi untuk peneliti, dan organisasi yang meningkatkan bagaimana riset mendapat dana, diterbitkan, dikomunikasikan, serta ditemukan.

    Di Cactus Labs, kami memanfaatkan kekuatan AI, dengan penelitian yang berfokus pada pemrosesan bahasa alami, pemeringkatan dan rekomendasi, AI percakapan, model bahasa besar, penglihatan komputer, AR/VR, serta XAI. Selaras dengan upaya kami untuk memungkinkan pelatihan model machine learning yang lebih cepat serta memungkinkan peneliti kami menjalankan lebih banyak eksperimen sekaligus mengelola biaya infrastruktur, kami sangat senang dapat mengevaluasi AWS Trainium. Fitur inovatif AWS Trainium seperti optimisasi XLA, pelatihan paralel data multi-pekerja, dan caching grafik sangat berguna bagi kami untuk mengurangi waktu pelatihan serta membantu kami menjalankan lebih banyak eksperimen dengan lebih cepat dan lebih murah.

    Nishchay Shah, CTO dan Head of Emerging Products, Cactus Communications
  • Watashiha

    Watashiha menawarkan layanan chatbot AI yang inovatif dan interaktif, “OGIRI AI,” yang menggabungkan humor untuk memberikan jawaban lucu secara langsung untuk sebuah pertanyaan.

    Kami menggunakan Model Bahasa Besar untuk menggabungkan humor dan menawarkan pengalaman percakapan yang lebih relevan bagi pelanggan di layanan AI kami. Hal ini mengharuskan kami untuk sering melatih dan menyempurnakan model ini. Kami melatih sebelumnya model bahasa Jepang berbasis GPT di instans Trn1.32xlarge EC2, memanfaatkan tensor dan paralelisme data. Pelatihan ini diselesaikan dalam waktu 28 hari dengan pengurangan biaya 33% dibandingkan infrastruktur berbasis GPU kami sebelumnya. Seiring dengan makin kompleksnya model yang kami miliki, kami menantikan hadirnya instans Trn1n yang memiliki bandwidth jaringan dua kali lipat dibandingkan Trn1 untuk mempercepat pelatihan model yang lebih besar.

    Yohei Kobashi, CTO, Watashiha, K.K.
  • PyTorch

    Di PyTorch, kami mempercepat proses machine learning mulai dari prototipe penelitian hingga siap produksi untuk pelanggan. Kami telah bekerja sama sangat erat dengan tim AWS untuk menyediakan dukungan PyTorch native untuk instans Amazon EC2 Trn1 yang didukung AWS Trainium yang dibangun khusus untuk melatih model deep learning. Developer yang membangun model PyTorch dapat memulai pelatihan di instans Trn1 dengan perubahan kode minimal. Selain itu, kami telah bekerja sama dengan komunitas OpenXLA untuk mengaktifkan pustaka Terdistribusi PyTorch untuk migrasi model mudah dari instans berbasis GPU ke instans Trn1. Kami sangat senang dengan inovasi yang dihadirkan instans Trn1 ke komunitas PyTorch, termasuk tipe data yang lebih efisien, bentuk dinamis, operator kustom, pembulatan stokastik perangkat keras yang dioptimalkan, dan mode debug yang disukai. Semua hal tersebut membuat Trn1 sangat cocok diadopsi secara luas oleh para developer PyTorch dan kami menantikan kontribusi bersama di masa depan untuk PyTorch agar dapat lebih mengoptimalkan performa pelatihan.

    Geeta Chauhan, Applied AI, Engineering Manager, PyTorch
  • Hugging Face

    Hugging Face memiliki misi untuk membuka secara luas akses ke ML yang baik agar dapat membantu developer ML di seluruh dunia memecahkan masalah di dunia nyata. Kunci untuk mewujudkan hal itu adalah dengan memastikan model-model terbaru dan terhebat dapat berjalan secepat dan seefisien mungkin pada cip ML terbaik di cloud. Kami sangat senang dengan potensi Inferentia2 untuk menjadi cara standar baru untuk melakukan deployment model AI generatif dalam skala besar. Dengan Inf1, kami melihat biaya hingga 70% lebih rendah daripada instans berbasis GPU tradisional, dan dengan Inf2, kami telah melihat latensi hingga 8x lebih rendah untuk transformer yang mirip BERT dibandingkan dengan Inferentia1. Dengan Inferentia2, komunitas kami akan dapat dengan mudah menskalakan performa ini ke LLM pada skala lebih dari 100 miliar parameter, serta model difusi dan penglihatan komputer terbaru.

  • Amazon

    Kami melatih model bahasa besar (LLM) yang bersifat multimodal (teks + gambar), multibahasa, multi-locale, telah dilatih sebelumnya pada banyak tugas, dan menjangkau banyak entitas (produk, kueri, merek, ulasan, dll.) untuk meningkatkan pengalaman belanja pelanggan. Instans Trn1 menyediakan cara yang lebih berkelanjutan untuk melatih LLM dengan menghadirkan performa/watt terbaik dibandingkan solusi machine learning terakselerasi lainnya dan menawarkan performa tinggi dengan biaya terendah. Kami berencana untuk mengeksplorasi tipe data FP8 baru yang dapat dikonfigurasi dan pembulatan stokastik terakselerasi perangkat keras untuk lebih meningkatkan efisiensi pelatihan serta kecepatan pengembangan.

    Trishul Chilimbi, VP, Amazon Search

Memulai

Anda dapat dengan mudah melatih model pada instans Trn1 dengan menggunakan Amazon SageMaker. Secara signifikan mengurangi waktu dan biaya untuk melatih dan menyetel model ML tanpa perlu mengelola infrastruktur. Dengan SageMaker, Anda dapat menggunakan alat bawaan untuk mengelola dan melacak eksperimen pelatihan, secara otomatis memilih hyperparameter yang optimal, melakukan debug tugas pelatihan, serta memantau penggunaan sumber daya sistem.

AWS Deep Learning AMI (DLAMI) menyediakan praktisi dan peneliti deep learning (DL) dengan infrastruktur dan alat untuk mempercepat DL di AWS, dalam skala apa pun. Driver AWS Neuron telah dikonfigurasi sebelumnya di DLAMI untuk melatih model DL Anda secara optimal pada instans Trn1.

Sekarang Anda dapat men-deploy instans Trn1 di Amazon Elastic Kubernetes Service (EKS), layanan Kubernetes terkelola penuh, dan di Amazon Elastic Container Service (ECS), yaitu sebuah layanan orkestrasi kontainer terkelola penuh. Neuron prainstal juga tersedia di Kontainer AWS Deep Learning. Untuk mempelajari selengkapnya cara menjalankan kontainer pada instans Trn1, lihat Tutorial kontainer Neuron.

Detail produk

Ukuran Instans Cip Trainium
Akselerator
Memori
(GB)
vCPU Instans
Memori
(GiB)
Lokal
NVMe
Penyimpanan
(TB)
Jaringan
Bandwidth
(Gbps)
EFA dan
RDMA
Dukungan
EBS
Bandwidth
(Gbps)
Sesuai Permintaan
Harga per Jam
1 Tahun
Terpesan
Instans
Efektif
Per jam*
3 Tahun
Terpesan
Instans
Efektif
Per jam*
trn1.2xlarge 1 32 8 32 0,5 Hingga 12,5 Tidak Hingga 20 1,34 USD 0,79 USD 0,4744 USD
trn1.32xlarge 16 512 128 512 8 800 Ya 80 21,50 USD 12,60 USD 7,59 USD

trn1n.32xlarge

16 512 128 512 8 1.600 Ya 80 24,78 USD 14,52 USD 8,59 USD