Menggunakan AI untuk Mengajar 300 Juta Orang
Mempelajari bahasa asing mungkin menjadi salah satu tujuan Anda tahun lalu. Dan dua tahun yang lalu, dan tiga tahun yang lalu. Sebagaimana keanggotaan gym, niat terbaik kami sering kali tidak bertahan lama. Selain butuh waktu untuk mencapai kemahiran dalam bahasa baru, sebagian besar orang masih menggunakan pendekatan tradisional dalam belajar. Bahkan banyak alat bahasa berbasis web yang monoton dan tidak praktis.
Duolingo, perusahaan rintisan yang berbasis di Pittsburgh, mengubah semua itu dengan platform pembelajaran bahasa berbasis AI. Perusahaan tersebut menjangkau lebih dari 300 juta pengguna dengan lebih dari 32 kursus bahasa, dari bahasa Prancis dan Tamil hingga bahasa yang terancam punah, seperti Hawaii dan Navajo.
Perbedaan yang dibawa Duolingo adalah pendekatan pembelajarannya yang dipersonalisasi, yang menggunakan permainan dalam pengalaman belajar melalui sistem penghargaan berbasis poin untuk membuat pengguna tetap aktif dan melanjutkan kursus hingga tingkat mahir. Departemen Luar Negeri AS memperkirakan bahwa dibutuhkan 600 jam untuk mempelajari bahasa kategori satu, seperti Prancis atau Italia. Duolingo berharap Anda dapat mempelajari bahasa hanya dengan 15 menit sehari.
Pengguna memulai dengan tes penempatan adaptif Duolingo berbasis AI yang melakukan penjajakan dengan latihan nyata yang akan mereka lakukan selama kursus. Jadi, jika Anda sudah mempelajari bahasa Prancis selama empat tahun di sekolah menengah, Anda tidak harus memulai kursus paling dasar di awal. Setiap pertanyaan atau tantangan dalam tes dipilih secara adaptif berdasarkan pertanyaan sebelumnya, terlepas dari Apakah Anda menjawabnya dengan benar atau salah.
“Tingkat kesulitan kata-kata, tata bahasa, dan cara kami menyajikannya kepada Anda dalam ujian, semuanya berperan untuk memilih konfigurasi yang tepat sehingga dalam waktu kurang dari lima menit kami sudah dapat mengetahui dari level apa Anda akan memulai kursus,” jelas Burr Settles, Research Director di Duolingo.
Dengan menggunakan konsep yang dikenal dengan pengulangan berjeda, pelajaran bahasa dirancang agar pengguna mempraktikkan tugas-tugas yang dipersonalisasi dalam interval yang lebih lama dan terus menerus, yang terbukti lebih efektif daripada membebankan tugas-tugas tersebut dalam waktu yang singkat.
Setelah menjadi lebih mahir, Anda berinteraksi dengan konten dengan cara yang berbeda. Misalnya, untuk setiap kata dalam kurikulum, Duolingo mencatat berapa kali Anda melihatnya, berapa kali Anda menjawabnya dengan benar, dengan mode apa Anda menjawabnya dengan benar, dan berapa lama Anda telah mempraktikkannya.
“Menggunakan AI, kami dapat memprediksi kapan saja kemungkinan Anda dapat mengingat kata itu dalam konteks tertentu,” jelas Burr. “Dan kami dapat menambahkan apa yang Anda butuhkan untuk terus berlatih, tepat ketika Anda membutuhkannya.”
“Kami dapat menambahkan apa yang Anda butuhkan untuk terus berlatih, tepat ketika Anda membutuhkannya."
Burr Settles
Research Director
Duolingo
“Kami dapat menambahkan apa yang Anda butuhkan untuk terus berlatih, tepat ketika Anda membutuhkannya."
Burr Settles
Research Director
Duolingo
Pembelajaran di balik bahasa asing (lingo)
Untuk mengaktifkan AI ini, Duolingo menggunakan deep learning, yaitu bagian dari AI dan machine learning yang menggunakan jaringan neural untuk meniru perilaku otak untuk menganalisis data dengan cepat dan membuat prediksi cerdas. Menggunakan algoritma deep learning untuk pemrosesan bahasa alami, perusahaan dapat menganalisis data log pengguna untuk memprediksi kemungkinan pengguna akan menjawabnya dengan benar. Prediksi ini adalah dasar untuk mempersonalisasi uji pembelajaran adaptif dan konten untuk aplikasi pembelajaran.
Namun, awalnya tidak seperti itu. Perusahaan ini berdiri pada tahun 2009 dengan proyek penerjemahan di Carnegie Mellon University (CMU), yang disebut Monolingo. Tujuannya adalah untuk mengajarkan bahasa asing kepada pengguna dengan meminta mereka menerjemahkan dokumen, seperti artikel dari Wikipedia atau situs berita. Pada saat itu, Monolingo (dan bahkan Duolingo awal) menggunakan algoritma ilmu kognitif yang lebih tradisional. Misalnya, algoritma dasar menggunakan parameter yang dipilih khusus, yang artinya algoritma ini belum tentu belajar dari data nyata. Ketika para peneliti Duolingo melakukan A/B testing terhadap berbagai pendekatan dengan para pengguna, tingkat personalisasi yang mereka targetkan jelas-jelas membutuhkan model machine learning yang lebih canggih dan disesuaikan.
“Ini adalah masalah khusus, jadi kami harus menciptakan semuanya dari awal,” kata Burr. “Dalam kasus penggunaan ini, sudah menjadi siklus hidup yang normal untuk mencoba pendekatan kognitif yang belum sempurna terlebih dahulu untuk mulai mengumpulkan data, lalu setelah Anda memiliki data, mulai menyempurnakannya dengan deep learning.”
Untuk mengembangkan algoritma khusus ini (mulai dari pengenalan ucapan non-native hingga klasifikasi untuk penilaian otomatis), Duolingo menggunakan kerangka kerja deep learning PyTorch di Amazon Web Services (AWS). Model deep learning ini dilatih lalu dilakukan deployment ke dalam produksi menggunakan instans GPU beperforma tinggi Amazon EC2 P3. Kecepatan dan skalabilitas sangat penting untuk pelatihan karena model dapat menggunakan 100.000 hingga 30 juta titik data sekaligus, tergantung pada masalahnya, untuk membuat lebih dari 300 juta prediksi setiap hari.
“Kami akan menggunakan protokol sliding window karena hanya dalam dua minggu, data sudah cukup banyak mengingat jumlah pengguna, jumlah tes, jumlah bahasa, untuk melatih model kami,” kata Burr. Guna mengelola alur data untuk machine learning, perusahaan menggunakan Amazon DynamoDB untuk manajemen data, Amazon EMR dengan Amazon EBS sebagai penyimpanan sementara, Amazon S3 untuk penyimpanan permanen, dan Spark untuk melakukan komputasi untuk prediksi batch berkala.
Selain itu, agar aplikasinya lebih hidup, Duolingo menggunakan Amazon Polly, alat teks ke ucapan yang didukung deep learning yang dengan mudah diintegrasikan ke dalam aplikasinya, untuk memberikan suara pada ujian dan berbagai kursus.
Menggunakan alat deep learning ini, perusahaan melihat peningkatan, baik dalam akurasi prediksi maupun keterlibatan pengguna. Jumlah pengguna yang menggunakan Duolingo dan menggunakannya kembali di hari kedua langsung meningkat sebesar 12 persen.
Burr dan tim Duolingo terus menguji kemungkinan baru dengan deep learning sehingga dapat mengeksplorasi model untuk keamanan tes, deteksi kecurangan, biometrik, dan memahami konteks. Misalnya, Anda mungkin menjawab pertanyaan dengan salah, tetapi alasan Anda menjawab salah masih belum diketahui. Apakah Anda salah karena Anda lupa kata-katanya? Atau mungkin Anda salah menyusun kata-katanya.
“Dari data yang kami dapatkan, apa yang menjadi penyebab masih belum diketahui,” kata Burr. “Ada lebih banyak yang harus dilakukan AI.”
Seiring meningkatnya penawaran bahasa dari Duolingo menggunakan deep learning, setidaknya satu cita-cita dari resolusi Tahun Baru Anda bisa saja terpenuhi.