什麼是大型語言模型?
大型語言模型,又稱為 LLM,是利用大量資料進行預訓練的超大型深度學習模型。基礎轉換器是一組神經網路,這些神經網路由具有自我專注功能的編碼器和解碼器組成。編碼器和解碼器從一系列文字中提取含義,並理解其中的字詞和片語之間的關係。
轉換器 LLM 能夠進行無監督的訓練,但更精確的解釋是轉換器可以執行自主學習。透過此程序,轉換器可學會理解基本的語法、語言和知識。
與早期按連續處理輸入的遞歸神經網路 (RNN) 不同,轉換器並行處理整個序列。這可讓資料科學家使用 GPU 訓練基於轉換器的 LLM,從而大幅度縮短訓練時間。
藉助轉換器神經網路架構,您可使用非常大規模的模型,其中通常具有數千億個參數。這種大規模模型可以擷取通常來自網際網路的大量資料,但也可以從包含 500 多億個網頁的 Common Crawl 和擁有約 5700 萬個頁面的 Wikipedia 等來源擷取資料。
為什麼大型語言模型如此重要?
大型語言模型非常靈活。一個模型可以執行完全不同的任務,例如回答問題、總結文件、翻譯語言和完成語句。LLM 有可能破壞內容創作以及人們使用搜尋引擎和虛擬助手的方式。
儘管並不完美,但 LLM 表現出根據相對較少量的提示或輸入做出預測的非凡能力。LLM 可用於生成式 AI (人工智慧),以根據人類語言的輸入提示產生內容。
LLM 非常龐大。它們可以考慮數十億個參數,並且有許多可能的用途。以下是一些範例:
- Open AI 的 GPT-3 模型有 1750 億個參數。類似的產品 ChatGPT 可以從資料中辨識模式並產生自然且可讀的輸出。雖然我們不知道 Claude 2 的規模,但該模型可以在每個提示中輸入多達 10 萬個字符,這意味著它可以處理數百頁的技術文件,甚至可以處理整本書。
- AI21 Labs 的 Jurassic-1 模型具有 1780 億個參數和由 25 萬字詞部分組成的字符詞彙以及類似的對話功能。
- Cohere 的 Command 模型具有類似的功能,並且可以使用 100 多種不同的語言開展工作。
- LightOn 的 Paradigm 提供基礎模型,並且宣稱該模型的功能超過 GPT-3。所有這些 LLM 都帶有 API,可讓開發人員打造獨特的生成式 AI 應用程式。
大型語言模型如何運作?
LLM 運作方式的一個關鍵因素是它們表示字詞的方式。早期的機器學習使用數字資料表來表示每個字詞。但是,這種表示形式無法辨識字詞之間的關係,例如具有相似含義的字詞。人們採用如下方式克服此限制:使用多維向量 (通常稱為字詞嵌入) 來表示字詞,從而使具有相似上下文含義或其他關係的字詞在向量空間中彼此接近。
使用字詞嵌入,轉換器可以透過編碼器將文字預處理為數位表示,並理解含義相似的字詞和片語的情境以及字詞之間的其他關係,例如語音部分。然後,LLM 就可以透過解碼器套用這些語言知識來產生獨特的輸出。
大型語言模型有哪些應用?
LMS 有許多實際應用。
文案撰寫
除了 GPT-3 和 ChatGPT 之外,Claude、Llama 2、Cohere Command 和 Jurassic 也可編寫原件。AI21 Wordspice 建議修改原始語句以改善風格和語音。
知識庫回答
該技術通常稱為知識密集型自然語言處理 (KI-NLP),是指可以根據數位封存中的資訊協助回答特定問題的 LLM。AI21 Studio playground 能夠回答常識性問題就是此類範例。
文字分類
使用叢集,LLM 可以對含義或情緒相似的文字進行分類。用途包括衡量客戶情緒、確定文字之間的關係和文件搜尋。
產生程式碼
LLM 擅長根據自然語言提示產生程式碼。 Amazon Q Developer 可以使用 Python、JavaScript、Ruby 和其他幾種程式設計語言編寫程式碼。其他編碼應用包括建立 SQL 查詢、編寫 Shell 命令和進行網站設計。
文字生成
與程式碼產生類似,文字產生可以完成不完整的語句,編寫產品文件,或者像 Alexa Create 一樣創作簡短的兒童故事。
如何訓練大型語言模型?
基於轉換器的神經網路非常龐大。這些網路包含多個節點和層。層中的每個節點都有指向後續層中所有節點的連接,並且每個節點都有權重和偏差。權重和偏差以及嵌入稱為模型參數。基於轉換器的大型神經網路可以有數十億個參數。模型的大小通常由模型大小、參數數量和訓練資料規模之間的經驗關係決定。
使用大量高品質資料執行訓練。在訓練過程中,模型會反覆調整參數值,直到模型可根據前一個輸入字符序列正確預測下一個字符。為此,模型使用自學技術,這些技術教導模型調整參數,以最大限度地提高訓練範例中正確預測下一個字符的可能性。
經過訓練,LLM 可以很容易地適應使用相對較小的監督式資料集執行多項任務,這一過程稱為微調。
存在三種常見的學習模型:
- 零樣本學習;Base LLM 無需明確訓練即可回應各種請求,通常是透過提示,但是答案的準確性各不相同。
- 少量樣本學習:透過提供一些相關的訓練範例,基礎模型在該特定領域的表現顯著提升。
- 微調:這是少量樣本學習的擴展,其中資料科學家訓練基礎模型,使模型使用與特定應用相關的其他資料來調整其參數。
LLM 的未來前景是什麼?
隨著 ChatGPT、Claude 2 和 Llama 2 等可以回答問題和產生文字的大型語言模型的引入,我們可以預見令人興奮的未來前景。可以肯定的是,LLM 會越來越接近人性化的表現,儘管這一過程會較為漫長。這些 LLM 即時取得的成功表明人們對機器人類型 LLM 的濃厚興趣,這些 LLM 可模仿人類大腦的思維,在某些情況下表現甚至優於人類大腦。以下是一些關於 LLM 未來前景的想法:
增強的功能
儘管 LLM 給人們留下了深刻的印象,但當前的技術水準並不完善,LLM 也並非絕對可靠。然而,隨著開發人員學習如何在減少偏見和消除錯誤答案的同時提高效能,較新的 LLM 版本將提高準確性和增強功能。
視聽訓練
開發人員使用文字訓練大多數 LLM,但有些人已經開始使用視訊和音訊輸入來訓練模型。這種形式的訓練應該可以加快模型開發速度,並為將 LLM 用於自動駕駛汽車開闢新的可能性。
工作場所轉型
LLM 是顛覆性的因素,它將轉變工作場所。LLM 可能會採用機器人處理重複性製造任務的相同方式來減少單調和重複的任務。可能減少的任務包括重複的文書任務、客戶服務聊天機器人和簡單的自動文案寫作。
對話式 AI
LLM 無疑將提高 Alexa、Google Assistant 和 Siri 等自動虛擬助理的效能。這些虛擬助手將能夠更妥善地解釋使用者意圖並回應複雜的命令。
AWS 如何在 LLM 方面提供協助?
AWS 為大型語言模型開發人員提供了多種可能性。Amazon Bedrock 是使用 LLM 建構和擴展生成式 AI 應用程式的最簡單方法。Amazon Bedrock 是一項全受管服務,可透過 API 提供 Amazon 和領先 AI 新創公司的 LLM,因此您可以從各種 LLM 中進行選擇,以找到最適合您的使用案例的模型。
Amazon SageMaker JumpStart 是機器學習中心,其中包含基礎模型、內建演算法和預建置的機器學習解決方案,只需點按幾下即可部署。使用 SageMaker JumpStart,您可以存取預訓練的模型 (包括基礎模型) 來執行文章摘要和影像產生等任務。預先訓練的模型可針對您的資料使用案例來完全自訂,而且您可以透過使用者介面或 SDK 輕鬆將其部署到生產環境中。
立即建立免費帳戶,開始使用 AWS 上的 LLM 和 AI。