基盤モデルとは?
膨大なデータセットに基づいてトレーニングされた基盤モデル (FM) は、データサイエンティストによる機械学習 (ML) へのアプローチを一変させた大規模な深層学習ニューラルネットワークです。データサイエンティストは、人工知能 (AI) をゼロから開発するのではなく、基盤モデルを出発点として、新しいアプリケーションをより迅速かつコスト効率よく強化する ML モデルを開発します。基盤モデルという用語は、一般化されたデータやラベル付けされていない幅広いデータに基づいてトレーニングされ、言語の理解、テキストや画像の生成、自然言語での会話など、さまざまな一般的なタスクを実行できる機械学習モデルを表すために研究者によって考案されました。
基盤モデルのユニークな点は何ですか?
基盤モデルのユニークな特徴は、その適応性です。これらのモデルは、入力プロンプトに基づいて、さまざまな異なるタスクを高い精度で実行できます。タスクには、自然言語処理 (NLP)、質問応答、画像分類などがあります。テキストによるセンチメントの分析、画像の分類、傾向の予測などの特定のタスクを実行する従来の機械学習モデルと比べ、FM はサイズと汎用性が異なります。
基盤モデルを、より専門的なダウンストリームアプリケーションを開発するためのベースモデルとして使用できます。これらのモデルは、規模と複雑さが増した 10 年以上にわたる研究の集大成です。
たとえば、最初の双方向基盤モデルの 1 つである BERT は、2018 年にリリースされました。3 億 4,000 万個のパラメータと 16GB のトレーニングデータセットを使用してトレーニングされました。わずか 5 年後の 2023 年、OpenAI は 170 兆個のパラメータと 45 GB のトレーニングデータセットを使用して GPT-4 をトレーニングしました。OpenAI によると、基盤モデリングに必要なコンピューティング能力は、2012 年以降、3、4 か月ごとに倍増しています。大規模言語モデル (LLM) の Claude 2 や Llama 2、およびテキストから画像へのモデルである Stability AI (Stability AI) の Stable Diffusion などの今日の FM は、ブログ投稿の作成、画像の生成、数学の問題の解決、対話への参加、ドキュメントに基づく質問への回答など、複数のドメインにわたるさまざまなタスクをすぐに実行できます。
基盤モデリングがなぜ重要なのですか?
基盤モデルは、機械学習のライフサイクルを大きく変える可能性を秘めています。現在、基盤モデルをゼロから開発するには数百万 USD の費用がかかりますが、長期的には有用です。データサイエンティストにとっては、独自の機械学習モデルをゼロからトレーニングするよりも、事前にトレーニングされた FM を使用して新しい機械学習アプリケーションを開発する方が迅速かつ安価です。
考えられる用途の 1 つは、特に推論機能を必要とするタスクとプロセスの自動化です。基盤モデルの用途は次のとおりです。
- カスタマーサポート
- 言語の翻訳
- コンテンツ生成
- コピーライティング
- 画像の分類
- 高解像度の画像作成と編集
- ドキュメント抽出
- ロボット工学
- 医療
- 自動走行車
基盤モデルでできること
基盤モデルは、事前にトレーニングされていても、推論中にデータ入力やプロンプトから学習し続けることができます。つまり、入念にキュレーションされたプロンプトにより、包括的なアウトプットを開発できるということです。FM が実行できるタスクには、言語処理、視覚的理解、コード生成、人間中心のエンゲージメントなどがあります。
言語処理
これらのモデルには、自然言語の質問に答える優れた機能があり、プロンプトに応じて短いスクリプトや記事を書く機能さえあります。また、NLP 技術を使用して言語を翻訳することもできます。
視覚的理解
FM は、特に画像や物理的な物体の識別に関して、コンピュータビジョンに適しています。これらの機能は、自動運転やロボット工学などのアプリケーションで使用される可能性があります。また、入力テキストからの画像の生成、写真やビデオの編集が可能です。
コードの生成
基盤モデルは、自然言語での入力に基づいて、さまざまなプログラミング言語のコンピュータコードを生成できます。FM を使用してコードを評価およびデバッグすることもできます。
人間中心のエンゲージメント
生成 AI モデルは、人間の入力を使用して学習し、予測を改善します。重要でありながら見過ごされがちな応用例として、これらのモデルが人間の意思決定をサポートできることが挙げられます。潜在的な用途には、臨床診断、意思決定支援システム、分析などがあります。
また、既存の基盤モデルをファインチューニングすることで、新しい AI アプリケーションを開発できます。
音声からテキストへ
FM は言語を理解するため、さまざまな言語での文字起こしやビデオキャプションなどの音声テキスト変換タスクに使用できます。
基盤モデルはどのように機能しますか?
基盤モデルは、生成人工知能 (生成 AI) の一種です。1 つ以上の入力 (プロンプト) から人間の言葉による指示という形で出力を生成します。モデルは、敵対的生成ネットワーク (GANs)、トランスフォーマー、変分エンコーダーなどの複雑なニューラルネットワークに基づいています。
ネットワークの機能は種類によって異なりますが、その仕組みの背後にある原則は似ています。一般に、FM は学習したパターンと関係を使用してシーケンス内の次の項目を予測します。たとえば、画像生成では、モデルが画像を分析し、より鮮明で明確に定義された画像を作成します。同様に、テキストの場合、モデルは前の単語とそのコンテキストに基づいて、テキスト文字列内の次の単語を予測します。次に、確率分布手法を使用して次の単語を選択します。
基盤モデルは、自己教師あり学習を使用して入力データからラベルを作成します。つまり、ラベル付きのトレーニングデータセットを使用してモデルを指示またはトレーニングした人は誰もいないということです。この特徴により、LLM は、教師あり学習または教師なし学習を使用する以前の機械学習アーキテクチャと区別されます。
基盤モデルの例にはどのようなものがありますか?
市場に出回っている基盤モデルの数とサイズは急速に増加しています。現在、数十種類のモデルが利用可能です。以下は、2018 年以降にリリースされた著名な基盤モデルのリストです。
BERT
2018 年にリリースされた Bidirectional Encoder Representations from Transformers (BERT) は、初期の基盤モデルの 1 つでした。BERT は、シーケンス全体のコンテキストを分析して予測を行う双方向モデルです。33 億のトークン (単語) と 3 億 4,000 万のパラメータを使用して、プレーンテキストのコーパスと Wikipedia でトレーニングされました。BERT は質問に答えたり、文章を予測したり、テキストを翻訳したりできます。
GPT
Generative Pre-trained Transformer (GPT) モデルは、2018 年に OpenAI によって開発されました。自己注意機構を備えた 12 層のトランスフォーマーデコーダを使用しています。また、11,000 冊以上の無料の小説が収録されている BookCorpus データセットでトレーニングされました。GPT-1 の特長は、ゼロショット学習ができることです。
GPT-2 は 2019 年にリリースされました。OpenAI は 15 億個のパラメータを使用してトレーニングしました (GPT-1 では 1 億 1,700 万個のパラメータが使用されていました)。GPT-3 は 96 層のニューラルネットワークと 1,750 億のパラメータを使用しており、5,000 億ワードの Common Crawl データセットでトレーニングされています。人気の ChatGPT チャットボットは GPT-3.5 をベースにしています。そして、最新バージョンの GPT-4 は 2022 年後半にリリースされ、統一司法試験に 297 点 (76%) のスコアで無事合格しました。
Amazon Titan
Amazon Titan FM は大規模なデータセットで事前にトレーニングされているため、強力な汎用モデルとなっています。そのまま使用できるほか、大量のデータに注釈を付けることなく、特定のタスクに合わせ会社固有のデータを使用して非公開にカスタマイズすることもできます。当初、Titan は 2 つのモデルを提供しました。1 つ目は、要約、テキスト生成、分類、自由形式の Q&A、情報抽出などのタスクのための生成 LLM です。もう 1 つは、語句、フレーズ、大きなテキスト単位を含むテキスト入力を、テキストのセマンティックな意味を含む数値表現 (埋め込み表現と呼ばれる) に変換する LLM です。この LLM はテキストを生成しませんが、埋め込み表現を比較することで、単語のマッチングよりも関連性が高く文脈に沿った応答を生成できるため、パーソナライゼーションや検索などのアプリケーションに役立ちます。責任ある AI 使用のベストプラクティスを引き続きサポートするために、Titan の FM は、データ内の有害なコンテンツを検出して削除し、ユーザーが入力した不適切なコンテンツを拒否し、ヘイトスピーチ、冒涜、暴力などの不適切なコンテンツを含むモデル出力をフィルタリングするように構築されています。
AI21 Jurassic
2021 年にリリースされた Jurassic-1 は、1,780 億個のパラメータを持つ 76 層の自動回帰言語モデルです。Jurassic-1 は人間が書くようなテキストを生成し、複雑なタスクを解決します。その性能は GPT-3 に匹敵します。
2023 年 3 月、AI21 Labs は Jurrassic-2 をリリースしました。これにより、指示に従う能力、そして言語能力が向上しました。
Claude
Claude 3.5 Sonnet
Anthropic の最もインテリジェントで高度なモデルである Claude 3.5 Sonnet は、さまざまなタスクや評価において優れた機能を発揮すると同時に、Claude 3 Opus よりも優れたパフォーマンスを発揮します。
Claude 3 Opus
Opus は、複雑なタスクでも信頼性の高いパフォーマンスを発揮する非常にインテリジェントなモデルです。オープンエンドのプロンプトや、見たことのないシナリオに、驚くべき流暢さと人間のような理解力で対応します。Opus を使用してタスクを自動化し、さまざまなユースケースや業界にわたる研究開発を加速させましょう。
Claude 3 Haiku
Haiku は、ほぼ即時の応答性を実現する Anthropic の最速かつ最もコンパクトなモデルです。Haiku は、人間の対話を模倣するシームレスな AI エクスペリエンスを構築するのに最適な選択肢です。企業は Haiku を使用して、コンテンツのモデレーション、在庫管理の最適化、迅速かつ正確な翻訳の生成、非構造化データの要約などを行うことができます。
Cohere
Cohere には 2 つの LLM があります。1 つは GPT-3 と同様の機能を持つ世代モデルで、もう 1 つは言語を理解することを目的とした表現モデルです。Cohere には 520 億のパラメーターしかありませんが、多くの点で GPT-3 よりも優れています。
Stable Diffusion
Stable Diffusion は、本物そっくりの高精細画像を生成できるテキストから画像への変換モデルです。2022 年にリリースされ、ノイズとノイズ除去の技術を使用して画像の作成方法を学習する拡散モデルを採用しています。
このモデルは、DALL-E 2 のような競合する拡散技術よりも小さいため、大規模なコンピューティングインフラストラクチャを必要としません。Stable Diffusion は、通常のグラフィックカードでも、Snapdragon Gen2 プラットフォームを搭載したスマートフォンでも動作します。
BLOOM
BLOOM は GPT-3 と同様のアーキテクチャを持つ多言語モデルです。これは、1,000 人以上の科学者と Hugging Space チームが協力して 2022 年に開発されました。このモデルには 1,760 億のパラメーターがあり、384 個の Nvidia A100 GPU を使用してトレーニングに 3 か月半かかりました。BLOOM チェックポイントには 330 GB のストレージが必要ですが、16 GB の RAM を搭載したスタンドアロン PC で動作します。BLOOM は 46 の言語でテキストを作成し、13 のプログラミング言語でコードを書くことができます。
Hugging Face
Hugging Face は、機械学習モデルを構築してデプロイするためのオープンソースツールを提供するプラットフォームです。コミュニティハブとして機能し、デベロッパーはモデルやデータセットを共有したり探索したりできます。個人のメンバーシップは無料ですが、有料サブスクリプションではより高いレベルのアクセスが可能です。約 200,000 のモデルと 30,000 のデータセットにパブリックアクセスできます。
基盤モデルにはどのような課題がありますか?
基盤モデルは、明示的にトレーニングを受けていないテーマのプロンプトにも一貫性を持って対応できます。しかし、弱点もあります。基盤モデルが直面している課題のいくつかを以下に示します。
- インフラストラクチャ要件。基盤モデルをゼロから構築するのは費用がかかり、膨大なリソースを必要とし、トレーニングには数か月かかる場合があります。
- フロントエンド開発。実用的なアプリケーションでは、デベロッパーは基盤モデルをソフトウェアスタックに統合する必要があります。これには、プロンプトエンジニアリング、ファインチューニング、パイプラインエンジニアリング用のツールが含まれます。
- 理解力の欠如。文法的にも事実的にも正しい答えを出すことはできますが、基盤モデルではプロンプトのコンテキストを理解することが困難です。それに、社会意識や感情もありません。
- 信頼できない答え。特定の主題に関する質問への回答は、信頼性が低く、不適切、有害、または不正確である場合があります。
- バイアス。モデルがトレーニングデータセットからヘイトスピーチや不適切な含みを拾い上げることがあるため、バイアスが生じる可能性は明らかです。これを避けるには、デベロッパーはトレーニングデータを注意深くフィルタリングし、特定の基準をモデルにエンコードする必要があります。
AWS はどのように役に立ちますか?
Amazon Bedrock は、基盤モデルを使用して生成 AI アプリケーションを非常に簡単に構築およびスケールできます。Amazon Bedrock は、Amazon や主要な AI スタートアップ企業が提供する基盤モデルを API を通じて利用できるようにする完全マネージド型サービスです。そのため、さまざまな FM から選択して、ユースケースに最も適したモデルを見つけることができます。 Bedrock を使用すると、インフラストラクチャを管理する必要なく、スケーラブルで信頼性が高く、安全な生成 AI アプリケーションの開発とデプロイをスピードアップできます。
モデル、アルゴリズム、ソリューションを提供する機械学習ハブである Amazon SageMaker JumpStart では、一般に公開されている最高性能の基盤モデルを含め、数百の基盤モデルにアクセスできます。Llama 2、Falcon、Stable Diffusion XL 1.0 など、新しい基盤モデルが引き続き追加されます。