Mengapa instans Trn1 Amazon EC2?
Instans Trn1 Amazon Elastic Compute Cloud (EC2), yang didukung oleh chip AWS Trainium, dibuat khusus untuk pelatihan deep learning (DL) performa tinggi model AI generatif, termasuk model bahasa besar (LLM) dan model difusi laten. Instans Trn1 menawarkan penghematan biaya pelatihan hingga 50% dibandingkan dengan instans Amazon EC2 lain yang sebanding. Anda dapat menggunakan instans Trn1 untuk melatih lebih dari 100 miliar model DL parameter dan AI generatif di berbagai rangkaian aplikasi, seperti merangkum teks, membuat kode, menjawab pertanyaan, membuat gambar dan video, memberikan rekomendasi, dan mendeteksi penipuan.
SDK AWS Neuron membantu developer melatih model di AWS Trainium (dan melakukan deployment model di cip AWS Inferentia). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada untuk melatih model di instans Trn1. Untuk mempelajari dukungan Neuron saat ini pada kerangka kerja dan pustaka, arsitektur model, serta optimisasi perangkat keras machine learning (ML), lihat dokumentasi Neuron.
Memperkenalkan Instans Trn1 Amazon EC2 yang ditenagai oleh AWS Trainium
Manfaat
Fitur
Testimoni Pelanggan dan Partner
Berikut ini beberapa contoh bagaimana pelanggan dan partner berhasil mencapai tujuan bisnis mereka dengan instans Trn1 Amazon EC2.
-
Databricks
Lebih dari 10.000 organisasi di seluruh dunia — termasuk Comcast, Condé Nast, dan lebih dari 50% dari Fortune 500 — mengandalkan Databricks untuk menyatukan data, analitik, dan AI mereka.
Ribuan pelanggan telah menerapkan Databricks di AWS, yang memberi mereka kemampuan untuk menggunakan MosaicML untuk melakukan pralatih, menyempurnakan, dan menyajikan model fondasi untuk berbagai kasus penggunaan. AWS Trainium memberi kami skala dan performa tinggi yang dibutuhkan untuk melatih model MPT Mosaic kami, dan dengan biaya rendah. Saat kami melatih model Mosaic MPT generasi berikutnya, Trainium2 akan memungkinkan pembangunan model yang lebih cepat, yang membuat kami dapat memberikan skala dan performa yang belum pernah ada sebelumnya bagi pelanggan agar mereka dapat menghadirkan aplikasi AI generatif mereka sendiri ke pasar dengan lebih cepat.
Naveen Rao, VP of Generative AI, Databricks -
Stockmark Co., Ltd
Dengan misi “menemukan kembali mekanisme penciptaan nilai dan memajukan umat manusia”, Stockmark membantu banyak perusahaan menciptakan dan membangun bisnis inovatif dengan menyediakan teknologi pemrosesan bahasa alami yang mutakhir.
Dengan 16 simpul instans Amazon EC2 Trn1 yang didukung cip AWS Trainium, kami telah mengembangkan dan merilis stockmark-13b, yaitu model bahasa besar dengan 13 miliar parameter, yang sebelumnya telah dilatih dari awal pada korpus 220 miliar token bahasa Jepang. Korpus tersebut mencakup teks domain bisnis terbaru hingga September 2023. Model tersebut mencapai skor JSQuAD tertinggi (0,813) pada tolok ukur JGLUE (Japanese General Language Understanding Evaluation) dibandingkan dengan model setara lainnya. Model ini tersedia di Hugging Face Hub dan dapat digunakan secara komersial dengan lisensi MIT. Instans Trn1 membantu kami mencapai pengurangan biaya pelatihan sebesar 20% dibandingkan dengan instans GPU yang setara.
Kosuke Arima, CTO, Stockmark Co., Ltd. -
RICOH
RICOH menawarkan solusi tempat kerja dan layanan transformasi digital yang didesain untuk mengelola serta mengoptimalkan alur informasi di seluruh bisnis.
Migrasi ke instans Trn1 cukup mudah. Kami dapat menyelesaikan pelatihan model parameter 13B kami hanya dalam waktu 8 hari. Berdasarkan kesuksesan ini, kami berharap dapat mengembangkan dan melatih model parameter 70 M kami di Trainium dan sangat antusias dengan potensi yang dimiliki oleh instans ini dalam melatih model kami dengan lebih cepat dan lebih hemat biaya.
Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH -
HeliXon
Di HeliXon, kami membangun solusi AI generasi berikutnya untuk terapi berbasis protein. Kami bertujuan untuk mengembangkan alat AI yang memberdayakan ilmuwan untuk menguraikan fungsi dan interaksi protein, menyelidiki set data genomika skala besar untuk identifikasi target, serta mendesain terapi seperti antibodi dan terapi sel. Saat ini, kami menggunakan pustaka distribusi pelatihan seperti FSDP untuk memparalelkan pelatihan model di banyak server berbasis GPU, tetapi ini masih membutuhkan waktu berminggu-minggu bagi kami untuk melatih satu model. Kami sangat senang dapat menggunakan instans Trn1 Amazon EC2, yang menghadirkan bandwidth jaringan tertinggi (800 Gbps) yang tersedia di AWS untuk meningkatkan performa tugas pelatihan terdistribusi kami dan mengurangi waktu pelatihan model, sekaligus mengurangi biaya pelatihan.
Jian Peng, CEO, Helixon -
Money Forward, Inc.
Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil.
Kami meluncurkan layanan chatbot AI skala besar di instans Inf1 Amazon EC2 dan mengurangi latensi inferensi sebesar 97% dibandingkan instans berbasis GPU yang sebanding sekaligus mengurangi biaya. Saat kami meneruskan menyetel model NLP yang disesuaikan secara berkala, mengurangi waktu dan biaya pelatihan model juga penting. Berdasarkan pengalaman kami dari keberhasilan migrasi beban kerja inferensi pada instans Inf1 dan pekerjaan awal kami pada instans Trn1 EC2 berbasis AWS Trainium, kami berharap instans Trn1 akan memberikan nilai tambah dalam meningkatkan performa dan biaya ML ujung ke ujung.
Takuya Nakade, CTO, Money Forward, Inc. -
Magic
Magic adalah perusahaan produk dan riset terintegrasi yang mengembangkan AI yang terasa seperti kolega untuk menjadikan dunia lebih produktif.
Melatih model berbasis Transformer autoregresif yang besar merupakan komponen penting dalam pekerjaan kami. Instans Trn1 yang didukung AWS Trainium didesain khusus untuk beban kerja ini, menawarkan skalabilitas yang hampir tak terbatas, jaringan antar-simpul cepat, serta dukungan lanjutan untuk tipe data 16 dan 8 bit. Instans Trn1 akan membantu kami melatih model besar lebih cepat, dengan biaya lebih rendah. Kami sangat senang dengan dukungan native untuk pembulatan stokastik BF16 di Trainium, yang meningkatkan performa meskipun akurasi numerik tidak dapat dibedakan dari presisi penuh.
Eric Steinberger, Cofounder dan CEO, Magic -
Cactus Communications
CACTUS memiliki rangkaian produk dan solusi untuk peneliti, dan organisasi yang meningkatkan bagaimana riset mendapat dana, diterbitkan, dikomunikasikan, serta ditemukan.
Di Cactus Labs, kami memanfaatkan kekuatan AI, dengan penelitian yang berfokus pada pemrosesan bahasa alami, pemeringkatan dan rekomendasi, AI percakapan, model bahasa besar, penglihatan komputer, AR/VR, serta XAI. Selaras dengan upaya kami untuk memungkinkan pelatihan model machine learning yang lebih cepat serta memungkinkan peneliti kami menjalankan lebih banyak eksperimen sekaligus mengelola biaya infrastruktur, kami sangat senang dapat mengevaluasi AWS Trainium. Fitur inovatif AWS Trainium seperti optimisasi XLA, pelatihan paralel data multi-pekerja, dan caching grafik sangat berguna bagi kami untuk mengurangi waktu pelatihan serta membantu kami menjalankan lebih banyak eksperimen dengan lebih cepat dan lebih murah.
Nishchay Shah, CTO dan Head of Emerging Products, Cactus Communications -
Watashiha
Watashiha menawarkan layanan chatbot AI yang inovatif dan interaktif, “OGIRI AI,” yang menggabungkan humor untuk memberikan jawaban lucu secara langsung untuk sebuah pertanyaan.
Kami menggunakan Model Bahasa Besar untuk menggabungkan humor dan menawarkan pengalaman percakapan yang lebih relevan bagi pelanggan di layanan AI kami. Hal ini mengharuskan kami untuk sering melatih dan menyempurnakan model ini. Kami melatih sebelumnya model bahasa Jepang berbasis GPT di instans Trn1.32xlarge EC2, memanfaatkan tensor dan paralelisme data. Pelatihan ini diselesaikan dalam waktu 28 hari dengan pengurangan biaya 33% dibandingkan infrastruktur berbasis GPU kami sebelumnya. Seiring dengan makin kompleksnya model yang kami miliki, kami menantikan hadirnya instans Trn1n yang memiliki bandwidth jaringan dua kali lipat dibandingkan Trn1 untuk mempercepat pelatihan model yang lebih besar.
Yohei Kobashi, CTO, Watashiha, K.K.
-
PyTorch
Di PyTorch, kami mempercepat proses machine learning mulai dari prototipe penelitian hingga siap produksi untuk pelanggan. Kami telah bekerja sama sangat erat dengan tim AWS untuk menyediakan dukungan PyTorch native untuk instans Amazon EC2 Trn1 yang didukung AWS Trainium yang dibangun khusus untuk melatih model deep learning. Developer yang membangun model PyTorch dapat memulai pelatihan di instans Trn1 dengan perubahan kode minimal. Selain itu, kami telah bekerja sama dengan komunitas OpenXLA untuk mengaktifkan pustaka Terdistribusi PyTorch untuk migrasi model mudah dari instans berbasis GPU ke instans Trn1. Kami sangat senang dengan inovasi yang dihadirkan instans Trn1 ke komunitas PyTorch, termasuk tipe data yang lebih efisien, bentuk dinamis, operator kustom, pembulatan stokastik perangkat keras yang dioptimalkan, dan mode debug yang disukai. Semua hal tersebut membuat Trn1 sangat cocok diadopsi secara luas oleh para developer PyTorch dan kami menantikan kontribusi bersama di masa depan untuk PyTorch agar dapat lebih mengoptimalkan performa pelatihan.
Geeta Chauhan, Applied AI, Engineering Manager, PyTorch -
Hugging Face
Hugging Face memiliki misi untuk membuka secara luas akses ke ML yang baik agar dapat membantu developer ML di seluruh dunia memecahkan masalah di dunia nyata. Kunci untuk mewujudkan hal itu adalah dengan memastikan model-model terbaru dan terhebat dapat berjalan secepat dan seefisien mungkin pada cip ML terbaik di cloud. Kami sangat senang dengan potensi Inferentia2 untuk menjadi cara standar baru untuk melakukan deployment model AI generatif dalam skala besar. Dengan Inf1, kami melihat biaya hingga 70% lebih rendah daripada instans berbasis GPU tradisional, dan dengan Inf2, kami telah melihat latensi hingga 8x lebih rendah untuk transformer yang mirip BERT dibandingkan dengan Inferentia1. Dengan Inferentia2, komunitas kami akan dapat dengan mudah menskalakan performa ini ke LLM pada skala lebih dari 100 miliar parameter, serta model difusi dan penglihatan komputer terbaru.
-
Amazon
Kami melatih model bahasa besar (LLM) yang bersifat multimodal (teks + gambar), multibahasa, multi-locale, telah dilatih sebelumnya pada banyak tugas, dan menjangkau banyak entitas (produk, kueri, merek, ulasan, dll.) untuk meningkatkan pengalaman belanja pelanggan. Instans Trn1 menyediakan cara yang lebih berkelanjutan untuk melatih LLM dengan menghadirkan performa/watt terbaik dibandingkan solusi machine learning terakselerasi lainnya dan menawarkan performa tinggi dengan biaya terendah. Kami berencana untuk mengeksplorasi tipe data FP8 baru yang dapat dikonfigurasi dan pembulatan stokastik terakselerasi perangkat keras untuk lebih meningkatkan efisiensi pelatihan serta kecepatan pengembangan.
Trishul Chilimbi, VP, Amazon Search
Memulai
Detail produk
Ukuran Instans | Cip Trainium |
Akselerator Memori (GB) |
vCPU | Instans Memori (GiB) |
Lokal NVMe Penyimpanan (TB) |
Jaringan Bandwidth (Gbps) |
EFA dan RDMA Dukungan |
EBS Bandwidth (Gbps) |
Sesuai Permintaan Harga per Jam |
1 Tahun Terpesan Instans Efektif Per jam* |
3 Tahun Terpesan Instans Efektif Per jam* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Hingga 12,5 | Tidak | Hingga 20 | 1,34 USD | 0,79 USD | 0,4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Ya | 80 | 21,50 USD | 12,60 USD | 7,59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1.600 | Ya | 80 | 24,78 USD | 14,52 USD | 8,59 USD |