基礎模型有什麼獨特之處?
基礎模型的一個獨有特徵是其適應性。這些模型可以根據輸入提示高度準確地執行各種不同的任務。一些任務包括自然語言處理 (NLP)、問題回答和影像分類。基礎模型 (FM) 的規模和通用性質使其不同于傳統的機器學習模型,後者通常執行特定的任務,例如分析文字中的情緒、對影像進行分類和預測趨勢。
可以使用基礎模型作為基本模型來開發更加專用的下游應用程式。這些模型是十多年開發工作的結晶,因此它們的規模和複雜性不斷增加。
例如,最早的雙向基礎模型之一 BERT 於 2018 年發佈。該模型使用 3.4 億個參數和 16GB 的訓練資料集進行訓練。僅僅五年後,OpenAI 就在 2023 年使用 170 萬億個參數和 45GB 的訓練資料集訓練 GPT-4。根據 OpenAI 提供的資料,自 2012 年以來,基礎建模所需的運算能力每 3.4 個月翻一番。當今的 FM,例如大型語言模型 (LLM) Claude 2 和 Llama 2,以及 Stability AI 提供的文字到影像模型 Stable Diffusion,可以即時可用地執行跨越多個領域的各種任務,如撰寫部落格文章、產生影像、解決數學問題、參與對話和依據文件回答問題。
為什麼基礎建模如此重要?
基礎模型有望顯著改變機器學習的生命週期。儘管目前從頭開發基礎模型要花費數百萬美元,但從長遠來看,它們可發揮重要作用。對於資料科學家來說,可以更快速、更經濟地使用預先訓練的 FM 開發新的機器學習應用程式,而不是從頭開始訓練獨特的機器學習模型。
基礎模型的一種潛在用途是自動執行任務和程序,尤其是需要推理能力的任務和程序。以下是基礎模型的一些應用:
- 客戶支援
- 語言翻譯
- 內容產生
- 文案撰寫
- 影像分類
- 高解析度影像建立和編輯
- 文件擷取
- 機器人
- 醫療保健
- 自動駕駛汽車
基礎模型如何運作?
基礎模型是生成式人工智慧 (生成式 AI) 的一種形式。這些模型以人類語言指令的形式從一個或多個輸入 (提示) 中產生輸出。模型基於複雜的神經網路,包括生成式對抗網路 (GAN)、轉換器和變分編碼器。
儘管每種類型的網路功能不同,但它們的運作方式是相似的。通常,FM 使用學習的模式和關係來預測序列中的下一個項目。例如,在產生影像時,模型會分析影像並建立更清晰、更明確定義的影像版本。同樣,對於文字,模型會依據之前的字詞及其情境預測文字字串中的下一個字詞。後,模型使用概率分佈技術選擇下一個字詞。
基礎模型使用自我監督式學習從輸入資料建立標籤。這意味著沒有人使用帶標籤的訓練資料集來指導或訓練模型。此功能將 LLM 與以前的機器學習架構區分,後者使用監督式或非監督式學習。
基礎模型可以實現哪些功能?
儘管基礎模型已經過預訓練,但其可以在推理過程期間持續從資料輸入或提示中學習。這意味著可以透過精心策劃的提示來形成全面的輸出。FM 可以執行的任務包括語言處理、視覺理解、程式碼產生和以人為本的參與。
語言處理
這些模型具有回答自然語言問題的非凡能力,甚至能夠根據提示撰寫簡短的指令碼或文章。它們還可以使用 NLP 技術翻譯語言。
視覺理解
FM 在電腦視覺方面表現出色,尤其是在識別影像和實體物件方面。這些功能可能會用於自動駕駛和機器人等應用。另一項功能是透過輸入文字產生影像,以及編輯照片和視訊。
產生程式碼
基礎模型可以根據自然語言輸入產生各種程式設計語言的電腦程式碼。也可使用 FM 評估和偵錯程式碼。
以人為本的參與
生成式 AI 模型使用人工輸入來學習和改進預測結果。一種重要但有時被忽視的應用是這些模型能夠支援人為決策。潛在用途包括臨床診斷、決策支援系統和分析。
另一項功能是透過微調現有基礎模型來開發新的人工智慧應用程式。
語音轉換文字
由於 FM 理解語言,因此可以將其用於語音轉換文字任務,例如各種語言的轉錄和視訊字幕。
基礎模型有哪些範例?
市場上基礎模型的數量和規模都在快速增長。目前有幾十種模型可供選擇。以下是自 2018 年以來發佈的著名基礎模型清單。
BERT
基於轉換器的雙向編碼器表示形式 (BERT) 於 2018 年發佈,是最早的基礎模型之一。BERT 是一種雙向模型,它分析完整序列的情境,然後進行預測。該模型在純文字語料庫和 Wikipedia 上進行訓練,使用了 33 億個字符 (字詞) 和 3.4 億個參數。BERT 可以回答問題、預測語句和翻譯文字。
GPT
生成式預訓練轉換器 (GPT) 模型由 OpenAI 於 2018 年開發。該模型使用帶自我專注機制的 12 層轉換器解碼器。該模型在 BookCorpus 資料集上訓練,此資料集包含超過 11,000 本免費小說。GPT-1 的一個顯著特徵是能夠進行零樣本學習。
GPT-2 於 2019 年發佈。OpenAI 使用 15 億個參數對此模型進行訓練 (而 GPT-1 上使用的參數量僅為 1.17 億)。GPT-3 擁有 96 層神經網路和 1750 億個參數,使用 5000 億字詞的 Common Crawl 資料集進行訓練。廣受歡迎的 ChatGPT 聊天機器人基於 GPT-3.5。最新版本 GPT-4 於 2022 年底推出,其成功通過了統一律師資格考試,得分為 297 (76%)。
Amazon Titan
Amazon Titan FM 已針對大型資料集進行預先訓練,使其成為功能強大的一般用途模型。這些模型可以按原樣使用,也可以使用公司特定資料針對特定任務進行私有自訂,而無需注釋大量資料。Titan 最初將提供兩種模型。第一個模型是生成式 LLM,用於諸如摘要、文字產生、分類、開放式問答和資訊擷取等任務。第二個模型是嵌入 LLM,它將文字輸入 (包括字詞、片語或大型文字單元) 轉換為包含文字語義含義的數位表示形式 (稱為嵌入)。雖然此 LLM 不會產生文字,但它對個人化和搜尋等應用程式很有用,因為透過比較嵌入,該模型將產生比字詞相符更相關、更有情境的回應。為了持續支援負責任使用人工智慧中的最佳實務,Titan FM 旨在偵測和刪除資料中的傷害性內容,拒絕使用者輸入中的不當內容,並篩選包含不當內容 (例如仇恨言論、褻瀆和暴力) 的模型輸出。
AI21 Jurassic
urassic-1 於 2021 年發佈,是一款 76 層自回歸語言模型,其具有 1780 億個參數。Jurassic-1 產生人性化的文本並解決複雜的任務。它的效能與 GPT-3 相媲美。
2023 年 3 月,AI21 Labs 發佈了 Jurrassic-2,該模型提高了指令追蹤和語言能力。
Claude
Claude 3.5 Sonnet
Anthropic 最智能和最進階的模型 Claude 3.5 Sonnet,在各種任務和評估中展現出色的能力,同時還優於 Claude 3 Opus。
Claude 3 Opus
Opus 是一款高度智慧的模型,在複雜任務上具有可靠的效能。它可透過出色的流利性和似人類的理解,來瀏覽開放式提示和未經評估的案例。使用 Opus 可自動執行任務,並加速各種使用案例和產業的研發。
Claude 3 Haiku
Haiku 是 Anthropic 最快捷、最緊湊的模型,具有近乎即時的回應速度。如需建置模仿人類互動的無縫 AI 體驗,Haiku 是最佳選擇。企業可利用 Haiku 來審核內容,優化庫存管理,製作快速準確的翻譯,總結非結構化資料等。
Cohere
Cohere 有兩個 LLM:一個是功能與 GPT-3 相似的生成模型,另一個是用於理解語言的表示模型。儘管 Cohere 只有 520 億個參數,但該模型在許多方面的表現都優於 GPT-3。
Stable Diffusion
Stable Diffusion 是一種文字到影像模型,可以產生外觀逼真、高清晰度的影像。該模型於 2022 年發佈,其擴散模型使用雜訊和去除雜訊技術來學習如何建立影像。
該模型的規模小於競爭對手的擴散技術 (例如 DALL-E 2),這意味著它不需要廣泛的運算基礎設施。Stable Diffusion 可以在普通圖形卡上執行,甚至可以在搭載 Snapdragon Gen2 平台的智慧手機上運行。
BLOOM
BLOOM 是一種多語言模型,其架構與 GPT-3 類似。該模型於 2022 年開發,是一項由一千多名科學家和 Hugging Space 團隊共同協作的專案。該模型有 1760 億個參數,使用 384 個 Nvidia A100 GPU 進行為期 3.5 個月的訓練。儘管 BLOOM 檢查點需要 330GB 的儲存空間,但它將在具有 16GB RAM 的獨立 PC 上執行。BLOOM 可以用 46 種語言建立文字,以及用 13 種程式設計語言編寫程式碼。
Hugging Face
Hugging Face 是提供開放原始碼工具的平台,供您建置和部署機器學習模型。該平台充當社群中心,開發人員可以在其中分享和探索模型與資料集。個人會員資格是免費的,但付費訂閱可提供更高層級的存取權限。您可以公開存取近 20 萬個模型和 30,000 個資料集。
基礎模型面臨哪些挑戰?
對於其尚未接受過明確訓練的主題,基礎模型可以一致地回應提示。但是,這些模型存在某些弱點。以下是基礎模型面臨的一些挑戰:
- 基礎設施要求。從頭開始兼職基礎模型非常昂貴,需要大量資源,而且可能需要幾個月的時間完成訓練。
- 前端開發。對於實際應用,開發人員需要將基礎模型整合到軟體堆疊中,包括用於快速工程、微調和管道工程的工具。
- 缺乏理解。儘管基礎模型可以提供語法上和事實上正確的答案,但它們很難理解提示的情境。此外,這些模型不具備社交或心理意識。
- 不可靠的答案。某些主題相關問題的答案可能不可靠,有時甚至不合適、令人極不愉快或不正確。
- 偏見。基礎模型很可能提供帶偏見的答案,因為模型可以從訓練資料集中選取仇恨言論和不恰當的暗示。為避免這種情況,開發人員應仔細篩選訓練資料,並將特定規範編碼到模型中。
AWS 如何提供協助?
Amazon Bedrock 是使用基礎模型建置和擴展生成式 AI 應用程式的最簡單方法。Amazon Bedrock 是一項全受管服務,可透過 API 提供 Amazon 和領先 AI 新創公司的基礎模型,因此您可以從各種 FM 中進行選擇,以找到最適合您的使用案例的模型。 藉助 Bedrock,您可以加快開發和部署可擴展、可靠和安全的生成式 AI 應用程式,而無需管理基礎設施。
Amazon SageMaker JumpStart 是推出各種模型、演算法和解決方案的機器學習中心,它提供數百種基礎模型的存取權限,包括效能最佳的公開基礎模型。該中心持續新增基礎模型,包括 Llama 2、Falcon 和 Stable Diffusion XL 1.0。