大規模言語モデルとは何ですか?
LLM としても知られる大規模言語モデルは、膨大な量のデータで事前トレーニングされた、非常に大規模な深層学習モデルです。基盤となるトランスフォーマーは、自己注意機能を備えたエンコーダーとデコーダーで構成されるニューラルネットワークのセットです。エンコーダーとデコーダーは、一連のテキストから意味を抽出し、その中の単語とフレーズの関係を理解します。
トランスフォーマー LLM は教師なしでのトレーニングが可能です。より正確には、トランスフォーマーは自己学習を行うということです。このプロセスを通じて、トランスフォーマーは基本的な文法、言語、知識を理解することを学びます。
入力を順次処理する以前のリカレントニューラルネットワーク (RNN) とは異なり、トランスフォーマーはシーケンス全体を並列に処理します。これにより、データサイエンティストはトランスフォーマーベースの LLM のトレーニングに GPU を使用できるようになり、トレーニング時間を大幅に短縮できます。
トランスフォーマーのニューラルネットワークアーキテクチャでは、数千億ものパラメータを持つ非常に大きなモデルを使用できます。このような大規模なモデルでは、多くの場合インターネットから大量のデータを取り込むことができますが、500 億を超えるウェブページで構成される Common Crawl や約 5,700 万ページの Wikipedia などのソースからも、大量のデータを取り込むことができます。
なぜ大規模な言語モデルは重要?
大規模な言語モデルは非常に柔軟です。1 つのモデルで、質問への回答、ドキュメントの要約、言語の翻訳、文章の完成など、まったく異なるタスクを実行できます。LLM は、コンテンツの作成や、検索エンジンやバーチャルアシスタントの使用方法を混乱させる可能性があります。
完璧ではありませんが、LLM は比較的少数のプロンプトやインプットに基づいて予測を行う優れた能力を発揮しています。LLM は生成 AI (人工知能) に使用でき、人間の言葉による入力プロンプトに基づいてコンテンツを作成できます。
LLM は大きい、いえ、とても大きいです。何十億ものパラメータを考慮することができ、多くの用途があります。次に例を示します。
- Open AI の GPT-3 モデルには 1,750 億個のパラメータがあります。その従兄弟である ChatGPT は、データからパターンを識別し、自然で読みやすい出力を生成できます。Claude 2 のサイズはわかりませんが、各プロンプトで最大 10 万トークンの入力が可能です。つまり、数百ページを超える技術ドキュメント、あるいは本全体を処理できるということです。
- AI21 Labs の Jurassic-1 モデルには、1,780 億個のパラメータと、25 万語のパーツからなるトークン語彙、および同様の会話機能があります。
- Cohere の Command モデルにも同様の機能があり、100 以上の異なる言語で動作します。
- LightOn のパラダイムは、GPT-3 を超えると謳われている機能を備えた基盤モデルを提供しています。これらの LLM にはすべて、デベロッパーが独自の生成系 AI アプリケーションを作成できるようにする API が付属しています。
大規模言語モデルはどのように機能しますか?
LLM の仕組みを左右する重要な要素は、単語の表現方法です。以前の形式の機械学習では、数値表を使用して各単語を表していました。しかし、この表現形式では、意味が似ている単語などの単語間の関係を認識できませんでした。この制限は、一般的に単語埋め込みと呼ばれる多次元ベクトルを使用して単語を表現し、文脈上の意味やその他の関係が類似する単語がベクトル空間内で互いに近くなるようにすることで克服されました。
単語埋め込みを使用すると、トランスフォーマーはエンコーダーを介してテキストを数値表現として前処理し、類似した意味を持つ単語やフレーズのコンテキスト、および品詞などの単語間のその他の関係を理解できます。そうすれば、LLM は言語に関するこの知識をデコーダーを通じて適用し、独自の出力を生成することができます。
大規模言語モデルの用途とは?
LLM には多くの実用的な用途があります。
コピーライティング
GPT-3 と ChatGPT のほか、Claude、Llama 2、Cohere Command、Jurassic はオリジナルコピーを書くことができます。AI21 Wordspice は、スタイルと音声を改善するために元の文章を変更することを提案します。
ナレッジベースへの回答
知識集約型自然言語処理 (KI-NLP) と呼ばれることが多いこの手法は、デジタルアーカイブ内の情報ヘルプから特定の質問に答えることができる LLM を指します。その一例が、AI21 Studio プレイグラウンドが一般的な知識の質問に答える機能です。
テキストの分類
クラスタリングを使用すると、LLM は意味や感情が似ているテキストを分類できます。用途には、顧客センチメントの測定、テキスト間の関係の判断、ドキュメント検索などがあります。
コードの生成
LLM は、自然言語プロンプトからのコード生成に長けています。 Amazon Q Developer は、Python、JavaScript、Ruby、およびその他いくつかのプログラミング言語でコードを記述できます。その他のコーディングアプリケーションには、SQL クエリの作成、シェルコマンドの作成、ウェブサイトのデザインなどがあります。
テキスト生成
コード生成と同様に、テキスト生成では不完全な文章を完成させたり、製品ドキュメントを作成したり、Alexa Create のように短い子供向けのストーリーを書いたりできます。
大規模言語モデルはどのようにトレーニングされるのですか?
トランスフォーマーベースのニューラルネットワークは非常に大きいです。そのネットワークは、複数のノードと層で構成されています。層内の各ノードは、後続する層のすべてのノードと結合していて、各ノードには重みとバイアスが設定されます。重みとバイアス、および埋め込みは、モデルパラメータとして知られています。トランスフォーマーベースの大規模なニューラルネットワークは、何十億ものパラメータを持つ可能性があります。モデルのサイズは通常、モデルサイズ、パラメータ数、およびトレーニングデータのサイズの間の関係によって経験的に決定されます。
トレーニングは、大量の高品質データを使用して行われます。トレーニング中、モデルは前の入力トークンのシーケンスから次のトークンを正しく予測するまで、パラメータ値を繰り返し調整します。これは、トレーニング例で次のトークンの確率を最大化するようにパラメータを調整するようにモデルを鍛える自己学習手法によって行われます。
トレーニングが完了したら、比較的少量の教師ありデータを使用して LLM で複数のタスクを実行できるようにします。このプロセスを「ファインチューニング」と呼びます。
一般的な学習モデルには次の 3 つがあります。
- ゼロショット学習: ベース LLM は、トレーニングを明示的に行わなくてもプロンプトの幅広い要求に応えることができますが、回答の精度はさまざまです。
- フューショット学習: 関連するトレーニング例をいくつか提供することで、その特定の領域におけるベースモデルのパフォーマンスが大幅に向上します。
- ファインチューニング: これは、データサイエンティストがベースモデルをトレーニングして、特定のアプリケーションに関連する追加データを使用してパラメータを調整するという点で、フューショット学習の延長線上にあります。
LLM の未来はどのようなものですか?
質問に答えたり、テキストを生成したりできる ChatGPT、Claude 2、Llama 2 のような大規模な言語モデルの導入は、将来の可能性を秘めています。LLM はゆっくりと、しかし確実に、人間のようなパフォーマンスに近づきつつあります。これらの LLM がすぐに成功したことは、人間の脳をエミュレートし、場合によっては人間の脳よりも優れたパフォーマンスを発揮するロボットタイプの LLM に強い関心があることを示しています。LLM の将来についての考えをいくつかご紹介します。
能力の向上
素晴らしいとはいえ、現在の技術レベルは完璧ではなく、LLM も万全ではありません。ただし、デベロッパーがバイアスを減らし、誤った回答を排除しながらパフォーマンスを向上させる方法を学ぶにつれて、今後のリリースでは精度が向上し能力が強化されるでしょう。
視聴覚トレーニング
デベロッパーはテキストを使用してほとんどの LLM をトレーニングしますが、ビデオとオーディオ入力を使用してモデルのトレーニングを開始したデベロッパーもいます。この形式のトレーニングは、モデル開発の迅速化につながり、自動運転車に LLM を使用するという点で新しい可能性が開かれるはずです。
ワークプレイスの変革
LLM は職場を変える破壊的な要因です。LLM は、ロボットが反復的な製造タスクで行ったのと同じように、単調で反復的なタスクを減らす可能性があります。可能性としては、反復的な事務作業、カスタマーサービスのチャットボット、シンプルな自動コピーライティングなどがあります。
会話型 AI
LLM は、Alexa、Google アシスタント、Siri などの自動化された仮想アシスタントのパフォーマンスを間違いなく向上させます。ユーザーの意図をよりよく解釈し、高度なコマンドに応答できるようになります。
AWS は LLM でどのようにサポートを行いますか?
AWS は、大規模言語モデルのデベロッパー向けにいくつかの可能性を提供しています。Amazon Bedrock は、LLM を使用して生成 AI アプリケーションを非常に簡単に構築およびスケールできます。Amazon Bedrock は、Amazon や主要な AI スタートアップが提供する LLM を API を通じて利用できるようにするフルマネージド型サービスです。そのため、さまざまな LLM から選択して、ユースケースに最も適したモデルを見つけることができます。
Amazon SageMaker JumpStart は、基盤モデル、組み込みアルゴリズム、事前構築済み機械学習ソリューションを備えた機械学習ハブであり、数回クリックするだけでデプロイできます。SageMaker JumpStart を使用すると、基盤モデルを含む事前トレーニング済みのモデルにアクセスして、記事の要約や画像生成などのタスクを実行できます。事前トレーニング済みのモデルは、データを使用してユースケースに合わせて完全にカスタマイズでき、ユーザーインターフェイスまたは SDK を使用して本番環境に簡単にデプロイできます。
今すぐ無料アカウントを作成して、AWS で LLM と AI の使用を開始しましょう。