利用 AI 教導 3 億使用者
學習外語可能是您去年的目標之一,甚至去年和前年都是如此。就像健身房會員資格一樣,我們往往無法長時間堅持最初的志向。除了精通新語言所需的時間之外,大多數人在透過傳統方法學習的過程中都耗費大量精力,但不見成效。許多以 Web 為基礎的語言工具也顯得單調和繁瑣。
總部位於匹茲堡的新創公司 Duolingo,透過以 AI 為基礎的語言學習平台徹底改變局面。這家公司觸及的使用者超過 3 億名,提供超過 32 種語言課程,從法語和泰米爾語,到夏威夷語和納瓦荷語等瀕危語言。
Duolingo 的不同之處在於個人化的學習方法,透過以積分為基礎的獎勵系統,提供遊戲形式的學習體驗,確保使用者的參與度並協助使用者更加精通所學語言。美國國務院估計,學習法語或義大利語等第一類語言需要 600 個小時。Duolingo 預期您每天只需 15 分鐘即可達成此目標。
使用者從 Duolingo 的 AI 驅動型分級測驗開始,該測試將透過使用者在課程中接受的真實練習來進行測驗;因此,如果您已經接受四年的高中法語教學,就不必從最基本的課程開始。系統會根據上一個問題以及您的答案是對還是錯,以調適性的方式選擇測驗中的每個問題或挑戰。
Duolingo 研究總監 Burr Settles 解釋說:「單字的難度、語法以及測驗中的出題方式,都會影響實際設定的選擇,因此在不到五分鐘的時間內,我們就可以掌握您將從哪裡開始課程。」
語言課程使用一種名為間隔溫習的概念,語言課程設計能讓使用者在越來越長的時間間隔內練習個人化任務,此方法已被證明比在短時間內填鴨式學習更有效。
您越來越精通所學語言之後,就可以透過不同的方式與內容互動。例如,對於課程中每個單字,Duolingo 都會追蹤您看過的次數、正確回答的次數,正確回答的模式以及自您練習以來經過的時間。
Burr 解釋說:「我們可以使用 AI,在任何指定時間預測您能夠在指定情境中回憶起該單字的機率。」「而且我們可以在您正好需要的時候,加入讓您持續練習所需的教材。」
「我們可以在您正好需要的時候,加入讓您持續練習所需的教材。」
Burr Settles
研究總監
Duolingo
「我們可以在您正好需要的時候,加入讓您持續練習所需的教材。」
Burr Settles
研究總監
Duolingo
語言學習背後的演算法
為了實現這種 AI,Duolingo 使用深度學習,這是 AI 和機器學習的子集,使用神經網路模仿大腦的行為,以快速分析資料並進行智慧預測。Duolingo 透過深度學習演算法進行自然語言處理,能夠分析使用者日誌資料,以預測使用者正確回答的可能性。這些預測是將調適型學習測驗和學習應用程式內容個人化的基礎。
但一開始並非如此。Duolingo 起源於 2009 年在卡內基美隆大學 (CMU) 一項名為 Monolingo 的翻譯專案。其目標是讓使用者翻譯文件,例如維基百科上的文章或新聞網站,來教導使用者學習外語。當時,Monolingo (甚至是早期的 Duolingo) 使用的是更傳統的認知科學演算法。例如,基準演算法使用的是精心挑選的參數,這表示這些演算法不一定會從真實資料中學習。隨著 Duolingo 研究人員對使用者進行各種方法的 AB 測驗,顯而易見的是,如需達成他們追求的個人化程度,更複雜和自訂程度更高的機器學習模型是不可或缺的。
Burr 說:「這些都是非常有針對性的問題,因此我們必須從頭開始創造一切」。「這些使用案例的正常生命週期是,先嘗試基本的認知方法來開始收集資料,然後在取得資料之後,開始使用深度學習來讓資料更完善。」
為了開發這些自訂演算法 (從非原生語音辨識到自動評分的分類),Duolingo 使用了 Amazon Web Services (AWS) 的 PyTorch 深度學習架構。使用 Amazon EC2 P3 高效能 GPU 執行個體,將經過訓練的這些深度學習模型部署到生產環境中。速度和可擴展性對於訓練至關重要,因為根據問題的不同,模型可能一次使用 10 萬到 3000 萬個資料點,以便每天進行超過 3 億次預測。
Burr 表示:「我們會使用移動時段,因為考量到使用者數量、測驗數量和語言數量,僅僅兩週的資料就足以訓練模型。」為了管理用於機器學習的資料管道,Duolingo 使用 Amazon DynamoDB 進行資料管理、使用 Amazon EMR 和 Amazon EBS 作為臨時儲存,使用 Amazon S3 作為永久儲存,以及使用 Spark 執行定期批次預測的計算。
此外,為了讓應用程式更完善,Duolingo 使用 Amazon Polly,這是一種採用深度學習技術的文字轉語音工具,可輕鬆整合至應用程式中,為測驗和各種課程提供語音。
借助這些深度學習工具,Duolingo 在預測準確性和使用者參與度方面都有所改善。使用過 Duolingo 並在隔天再次使用的使用者數量立即提高 12%。
Burr 和 Duolingo 團隊繼續透過深度學習來測試新的可能性、探索用於測試安全性、詐騙偵測、生物識別技術和理解上下文的模型。例如,您可能會答錯問題,但不明白為何自己答錯。是因為忘了某個單字? 或者,也許是詞形變化有誤。
「我們並不一定總能從得到的訊號中梳理出原因為何。」Burr 說。「還有很多 AI 需要開發。」
隨著 Duolingo 使用深度學習改善語言產品,您將能夠實現新年計劃中的目標之一。