L'IA permet à Duolingo de personnaliser l'apprentissage des langues

Utilisation de l'IA pour enseigner à 300 millions de personnes

L'apprentissage d'une langue étrangère était probablement l'un de vos objectifs cette année. Ainsi que l'année dernière, et l'année précédente. À l'instar des abonnements aux salles de sport, nos bonnes résolutions ne tiennent généralement pas longtemps. Outre le temps nécessaire pour maîtriser une nouvelle langue, la plupart des gens éprouvent des difficultés avec les approches traditionnelles d'apprentissage. Même des outils linguistiques variés en ligne peuvent devenir monotones et fastidieux.

La start-up Duolingo, basée à Pittsburgh, change la donne avec sa plateforme d'apprentissage des langues basée sur l'IA. Avec plus de 32 langues enseignées, du français et du tamoul aux langues menacées telles que l'hawaïen et le navajo, l'entreprise touche plus de 300 millions d'utilisateurs.

Ce qui différencie Duolingo, c'est son approche d'apprentissage personnalisée. En effet, la plateforme propose une expérience d'apprentissage ludique avec un système de récompenses basé sur des points. L'objectif est de maintenir l'engagement des utilisateurs pour les faire progresser vers la maîtrise. Le Département d'État américain estime qu'il faut 600 heures pour apprendre une langue de catégorie 1 comme le français ou l'italien. Duolingo espère pouvoir vous donner ces compétences en seulement 15 minutes par jour.

Les utilisateurs commencent par passer un test de classement adaptatif piloté par l'IA de Duolingo. Ce test leur permet de faire des exercices réels pendant le cours. Ainsi, si vous avez étudié le français au lycée pendant quatre ans, vous n'avez pas à commencer par les cours les plus élémentaires. Chaque question ou défi du test est choisi de manière adaptative en fonction de la question précédente et de la réponse que vous avez donnée.

« Lors du test, la complexité des mots, la grammaire et la façon dont nous vous présentons l'énoncé jouent toutes un rôle dans la personnalisation de votre configuration, nous pouvons ainsi définir le point de départ de vos cours en moins de cinq minutes », explique Burr Settles, Research Director chez Duolingo.

À l'aide d'un concept appelé répétition espacée, les cours de langue sont conçus de manière à ce que les utilisateurs s'entraînent à effectuer des tâches personnalisées sur des intervalles de plus en plus longs. Cela s'est avéré plus efficace que la répétition des notions sur une courte période.

Au fur et à mesure que vous progressez, vous interagissez avec le contenu de différentes manières. Par exemple, pour chaque mot du programme, Duolingo enregistre le nombre de fois qu'il s'est affiché, combien de fois vous l'avez correctement compris, les modes dans lesquels vous l'avez correctement compris et depuis combien de temps vous ne l'avez pas pratiqué.

« Grâce à l'IA, nous pouvons prédire à tout moment la probabilité que vous puissiez vous souvenir de ce mot dans un contexte donné, explique M. Burr. Nous pouvons ainsi vous donner ce dont vous avez besoin pour continuer à vous entraîner, exactement quand vous en avez besoin. »

« Nous pouvons vous donner ce dont vous avez besoin pour continuer à vous entraîner, exactement quand vous en avez besoin. »

Burr Settles
Research Director
Duolingo

« Nous pouvons vous donner ce dont vous avez besoin pour continuer à vous entraîner, exactement quand vous en avez besoin. »

Burr Settles
Research Director
Duolingo

L'apprentissage qui se cache derrière le langage

Pour rendre cette IA possible, Duolingo utilise le deep learning : un sous-ensemble de l'IA et du machine learning qui utilise des réseaux neuronaux pour imiter le comportement du cerveau humain afin d'analyser rapidement les données et de faire des prédictions intelligentes. À l'aide d'algorithmes de deep learning servant au traitement du langage naturel, l'entreprise peut analyser les données du journal des utilisateurs afin de prévoir la probabilité que les utilisateurs obtiennent une réponse correcte. Ces prédictions constituent la base de la personnalisation du test d'apprentissage adaptatif et du contenu éducatif de l'application.

Mais cela n'a pas toujours été le cas. L'entreprise est née en 2009 d'un projet de traduction à l'université Carnegie Mellon (CMU) appelé Monolingo. L'objectif était d'enseigner une langue étrangère aux utilisateurs en leur demandant de traduire des documents tels que des articles provenant de Wikipédia ou de sites d'actualités. À l'époque, Monolingo (ainsi que Duolingo à ses débuts) utilisait des algorithmes de sciences cognitives plus traditionnels. Par exemple, les algorithmes de base utilisaient des paramètres très précis, ils ne pouvaient donc pas apprendre à partir de données réelles. Lorsque les chercheurs de Duolingo ont évalué différentes approches auprès des utilisateurs au moyen de tests A/B, il était clair que, compte tenu du niveau de personnalisation qu'ils visaient, des modèles de machine learning plus sophistiqués et personnalisés étaient nécessaires.

« Ces problématiques sont très spécifiques, et nous avons donc dû tout inventer en partant de zéro, explique M. Burr. Dans ces cas d'utilisation, il est normal d'essayer d'abord une approche cognitive rudimentaire, cela permet de commencer à collecter des données. Puis, une fois que vous avez des données, vous pouvez commencer à les affiner grâce au deep learning. »

Pour développer ces algorithmes personnalisés (de la reconnaissance vocale non native à la classification pour la notation automatisée), Duolingo utilise le framework de deep learning PyTorch sur Amazon Web Services (AWS). Ces modèles de deep learning sont entraînés puis déployés en production à l'aide d'instances GPU hautes performances Amazon EC2 P3. La rapidité et la capacité de mise à l'échelle sont essentielles pour entraîner les modèles. En effet, ces derniers peuvent utiliser entre 100 000 et 30 millions de points de données à la fois, selon le problème, afin de réaliser plus de 300 millions de prévisions par jour.

« Nous allons utiliser une fenêtre glissante. Compte tenu du nombre d'utilisateurs, du nombre de tests et du nombre de langues, deux semaines de données suffisent pour entraîner nos modèles », explique M. Burr. Afin de gérer les pipelines de données du machine learning, l'entreprise utilise Amazon DynamoDB pour la gestion des données, Amazon EMR avec Amazon EBS comme stockage temporaire, Amazon S3 pour le stockage permanent et Spark pour effectuer des calculs en vue de prévisions périodiques par lots.

En outre, pour donner vie à ses applications, Duolingo utilise Amazon Polly. Il s'agit d'un outil de synthèse vocale basé sur le deep learning qui s'intègre facilement aux applications pour donner une voix au test et à de nombreux cours.

En utilisant ces outils de deep learning, l'entreprise a constaté une amélioration de la précision des prévisions et de l'engagement des utilisateurs. Le nombre d'utilisateurs qui ont essayé Duolingo et qui sont revenus le deuxième jour s'est immédiatement amélioré de 12 %.

M. Burr et l'équipe de Duolingo continuent de tester de nouvelles possibilités grâce au deep learning, notamment en explorant des modèles de sécurité des tests, de détection des fraudes, de biométrie et de compréhension du contexte. Par exemple, lorsque vous vous trompez sur une question, il est difficile de connaître la raison exacte de votre erreur. Avez-vous oublié le mot ? Ou peut-être est-ce une erreur de conjugaison ?

« Il n'est pas toujours facile de déterminer la cause du signal que nous recevons, explique M. Burr. Il y a encore beaucoup à faire en matière d'IA. »

Tandis que Duolingo continue d'améliorer ses offres linguistiques grâce au deep learning, il n'est pas impossible que vous teniez une de vos résolutions du Nouvel An.

Kia utilise le ML pour réduire le nombre de décès par accident de la route

En savoir plus »

TuSimple utilise le machine learning pour former des semi-remorques à conduite autonome

En savoir plus »

GE Healthcare obtient de meilleurs résultats en soins de santé grâce au ML

En savoir plus »

Zocdoc utilise l'IA pour renforcer la confiance des patients

En savoir plus »