LLMのファインチューニングの有効性

事前学習した大規模言語モデルを新しいタスクに使うには、主にIn-context learningとfine tuningの2つの方法がある.

In-Context Learning and Indexing

  • 一般的なテキストコーパスで事前学習した大規模言語モデル(LLM)は文脈内学習が可能であり、LLMが明示的に訓練されていない特定のタスクや新しいタスクを実行したい場合に、事前学習したLLMをさらに訓練したり微調整する必要がない。
  • これはモデルに直接アクセスできない場合、例えば、APIを通じてモデルを使用している場合などに非常に有効。
  • In-context learningは、出力を改善するために入力を変更する"ハード"プロンプトチューニングによって利用される.
  • 特定のタスクに対してモデルのパラメータを更新しないため、タスク固有のニュアンスへの適応が制限される可能性があり、その性能は一般的に微調整に及ばない。
  • プロンプトチューニングは、異なるプロンプトの品質を比較するために人間が関与することが多いため、基本的には労力がかかる.

indexing

  • In-context learningを利用するもう1つの方法

文脈内学習に基づくアプローチを利用するもう一つの方法として、indexingがある。 LLMの領域でindexing作成は、LLMを外部リソースやウェブサイトからデータを抽出するための情報検索システムに変換することを可能にする、コンテキスト内学習の回避策とみなすことができる。このプロセスでは、インデックス作成モジュールが文書やウェブサイトをより小さなセグメントに分解し、ベクトルデータベースに格納できるようにベクトルに変換する。そして、ユーザーがクエリを送信すると、インデックス作成モジュールは、埋め込まれたクエリとデータベース内の各ベクトルとの間のベクトルの類似性を計算します。最終的に、インデックス作成モジュールは、最も類似した上位k個の埋め込みをフェッチし、応答を生成する。

3つの従来の特徴ベースアプローチとファインチューニングアプローチ

  • In-context learningは、APIなどを通じてLLMと対話する場合など、大規模言語モデル(LLM)への直接アクセスが制限される状況において有効な手段
  • しかし、もしLLMにアクセスできるのであれば、ターゲットドメインのデータを使ってターゲットタスクに適応させ、fine tuningすることで、基本的に優れた結果を得ることができる。では、どのようにすればモデルを対象タスクに適応させることができるのだろうか。従来からの以下の3つのアプローチがある。

The 3 conventional feature-based and finetuning approaches.

1) 特徴量ベースアプローチ

訓練済みのLLMを使って特徴量を抽出し,それを用いて分類モデルを訓練する方法. (BERTのような埋め込みに特化したものでは一般的だが,GPT形式の生成モデルから埋め込みを抽出することも可能) モデルはロジスティック回帰モデル,ランダムフォレスト, XGBoostなどなんでも良いが,ロジスティック回帰のような線形分類器が有効な場合が多い.

2) Finetuning I – 最終層の更新

  • 事前学習されたLLMのパラメータをfix
  • 出力層のファインチューニング
  • 理論的には特徴ベースのアプローチと同様の性能を発揮するはず。しかし、特徴量ベースのアプローチでは、トレーニングデータセットに埋め込む特徴量を事前に計算し、保存することが若干容易になるため、特定の実用的なシナリオでは、特徴量ベースのアプローチの方が便利な場合がある。

3) Finetuning II – 全ての層の更新

  • ターゲットタスクやターゲットドメインが、モデルが事前学習したデータセットとどれだけ似ているかによって、アプローチは変わる。しかし、実際には、すべてのレイヤーを細かく調整することで、ほとんどの場合、優れたモデリング性能を得ることができる。

Parameter-Efficient Finetuning

少数のパラメータ更新で有用なfine tuning手法

基本的には少数の追加パラメータを導入するもの

Reinforcement Learning with Human Feedback

教師あり学習強化学習の組み合わせにより,事前学習したモデルをfinetuningする. InstructGPTをベースとしたChatGPTによって広まった.

RLHFは人間がモデルの出力をランクづけや評価することで報酬信号を提供し,人間のフィードバックを収集し,報酬ラベルとしてモデルの訓練に使用される.

報酬モデル自体は教師あり学習で学習される?? 事前に訓練されたLLMを更新するために使用される 近接政策最適化と呼ばれる強化学習の一種

結論

事前学習されたLLMの全層を微調整することは、新しいターゲットタスクに適応するためのゴールドスタンダードであり続けているが、効率的な代替手段がいくつか存在する。特徴ベースのアプローチ、in-context learning、パラメータ効率の良いfine tuning技術などの方法は、計算コストとリソースを最小限に抑えながら、新しいタスクにLLMを効果的に適用することができる。 さらに、人間によるフィードバックを伴う強化学習(RLHF)は、教師ありの微調整の代替となり、モデルの性能を向上させる可能性がある。

Reference

以下の記事の要約,翻訳です. magazine.sebastianraschka.com