OpenAI Fine-Tuning

W&B を使用して OpenAI モデルをファインチューンする方法。

4 minute read

Try in Colab

OpenAI GPT-3.5 または GPT-4 モデルのファインチューニングのメトリクスと設定を W&B に記録します。W&B のエコシステムを利用して、ファインチューニングの実験、モデル、データセットを追跡し、同僚と結果を共有します。

ファインチューニングできるモデルのリストについては、OpenAI のドキュメントを参照してください。

W&B と OpenAI をファインチューニング用に統合する方法に関する補足情報については、OpenAI のドキュメントのWeights and Biases Integrationセクションを参照してください。

OpenAI Python API のインストールまたはアップデート

W&B OpenAI ファインチューニングインテグレーションは、OpenAI バージョン 1.0 以降で動作します。OpenAI Python API ライブラリの最新バージョンについては、PyPI のドキュメントを参照してください。

OpenAI Python API をインストールするには、以下を実行します。

pip install openai

OpenAI Python API がすでにインストールされている場合は、以下を実行してアップデートできます。

pip install -U openai

OpenAI ファインチューニングの結果を同期する

W&B を OpenAI のファインチューニング API と統合して、ファインチューニングのメトリクスと設定を W&B に記録します。これを行うには、wandb.integration.openai.fine_tuning モジュールの WandbLogger クラスを使用します。

from wandb.integration.openai.fine_tuning import WandbLogger

# Finetuning logic

WandbLogger.sync(fine_tune_job_id=FINETUNE_JOB_ID)

ファインチューンを同期する

スクリプトから結果を同期します。

from wandb.integration.openai.fine_tuning import WandbLogger

# one line command
WandbLogger.sync()

# passing optional parameters
WandbLogger.sync(
    fine_tune_job_id=None,
    num_fine_tunes=None,
    project="OpenAI-Fine-Tune",
    entity=None,
    overwrite=False,
    model_artifact_name="model-metadata",
    model_artifact_type="model",
    **kwargs_wandb_init
)

リファレンス

引数	説明
fine_tune_job_id	これは、`client.fine_tuning.jobs.create` を使用してファインチューンジョブを作成するときに取得する OpenAI Fine-Tune ID です。この引数が None (デフォルト) の場合、まだ W&B に同期されていないすべての OpenAI ファインチューンジョブが W&B に同期されます。
openai_client	初期化された OpenAI クライアントを `sync` に渡します。クライアントが提供されない場合、ロガー自体によって初期化されます。デフォルトでは None です。
num_fine_tunes	ID が提供されない場合、同期されていないすべてのファインチューンが W&B に記録されます。この引数を使用すると、同期する最新のファインチューンの数を選択できます。num_fine_tunes が 5 の場合、最新の 5 つのファインチューンが選択されます。
project	ファインチューンのメトリクス、モデル、データなどが記録される Weights and Biases プロジェクト名。デフォルトでは、プロジェクト名は “OpenAI-Fine-Tune” です。
entity	run の送信先の W&B ユーザー名またはチーム名。デフォルトでは、デフォルトのエンティティが使用されます。通常はユーザー名です。
overwrite	同じファインチューンジョブの既存の wandb run を強制的にログに記録して上書きします。デフォルトでは False です。
wait_for_job_success	OpenAI のファインチューニングジョブが開始されると、通常、少し時間がかかります。メトリクスがファインチューンジョブの完了後すぐに W&B に記録されるようにするために、この設定では、60 秒ごとにファインチューンジョブのステータスが `succeeded` に変わるかどうかをチェックします。ファインチューンジョブが成功したと検出されると、メトリクスは自動的に W&B に同期されます。デフォルトでは True に設定されています。
model_artifact_name	ログに記録されるモデル Artifacts の名前。デフォルトは `"model-metadata"` です。
model_artifact_type	ログに記録されるモデル Artifacts のタイプ。デフォルトは `"model"` です。
**kwargs_wandb_init	`wandb.init()` に直接渡される追加の引数。

データセットのバージョン管理と可視化

バージョン管理

ファインチューニング用に OpenAI にアップロードするトレーニングデータと検証データは、より簡単なバージョン管理のために W&B Artifacts として自動的にログに記録されます。以下は、Artifacts のトレーニングファイルのビューです。ここでは、このファイルをログに記録した W&B run、ログに記録された日時、これがデータセットのどのバージョンであるか、メタデータ、およびトレーニングデータからトレーニングされたモデルへの DAG リネージを確認できます。

可視化

データセットは W&B テーブルとして可視化され、データセットの探索、検索、および操作を行うことができます。以下の W&B テーブルを使用して可視化されたトレーニングサンプルをチェックしてください。

ファインチューニングされたモデルとモデルのバージョン管理

OpenAI は、ファインチューニングされたモデルの ID を提供します。モデルの重みにアクセスできないため、WandbLogger は、モデルのすべての詳細 ( ハイパーパラメーター、データファイル ID など) と fine_tuned_model ID を含む model_metadata.json ファイルを作成し、W&B Artifacts としてログに記録します。

このモデル ( メタデータ ) Artifacts は、W&B Registry のモデルにさらにリンクできます。

よくある質問

チームでファインチューンの結果を W&B で共有するにはどうすればよいですか?

以下を使用して、ファインチューンジョブをチームアカウントにログに記録します。

WandbLogger.sync(entity="YOUR_TEAM_NAME")

run を整理するにはどうすればよいですか?

W&B run は自動的に整理され、ジョブタイプ、ベースモデル、学習率、トレーニングファイル名、その他のハイパーパラメーターなど、任意の設定パラメータに基づいてフィルタリング/ソートできます。

さらに、run の名前を変更したり、メモを追加したり、タグを作成してグループ化したりできます。

満足したら、ワークスペースを保存し、それを使用してレポートを作成し、run と保存された Artifacts ( トレーニング / 検証ファイル ) からデータをインポートできます。

ファインチューニングされたモデルにアクセスするにはどうすればよいですか?

ファインチューニングされたモデル ID は、Artifacts (model_metadata.json) および設定として W&B にログに記録されます。

import wandb

ft_artifact = wandb.run.use_artifact("ENTITY/PROJECT/model_metadata:VERSION")
artifact_dir = artifact.download()

ここで、VERSION は次のいずれかです。

v2 などのバージョン番号
ft-xxxxxxxxx などのファインチューン ID
latest や手動で追加されたエイリアスなど、自動的に追加されたエイリアス

次に、ダウンロードした model_metadata.json ファイルを読み取ることで、fine_tuned_model ID にアクセスできます。

ファインチューンが正常に同期されなかった場合はどうなりますか?

ファインチューンが W&B に正常にログに記録されなかった場合は、overwrite=True を使用して、ファインチューンジョブ ID を渡すことができます。

WandbLogger.sync(
    fine_tune_job_id="FINE_TUNE_JOB_ID",
    overwrite=True,
)

W&B でデータセットとモデルを追跡できますか?

トレーニングおよび検証データは、Artifacts として W&B に自動的にログに記録されます。ファインチューニングされたモデルの ID を含むメタデータも、Artifacts としてログに記録されます。

wandb.Artifact、wandb.log などの低レベルの wandb API を使用してパイプラインを常に制御できます。これにより、データとモデルの完全なトレーサビリティが可能になります。

リソース

OpenAI Fine-tuning Documentation は非常に詳細で、多くの役立つヒントが含まれています。
デモ Colab
How to Fine-Tune Your OpenAI GPT-3.5 and GPT-4 Models with W&B レポート

[i18n] feedback_title

[i18n] feedback_question

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

最終更新 April 3, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷

OpenAI Fine-Tuning

OpenAI Python API のインストールまたはアップデート

OpenAI ファインチューニング の 結果 を 同期 する

ファインチューン を 同期 する

リファレンス

データセット の バージョン管理 と 可視化

バージョン管理

可視化

ファインチューニング された モデル と モデル の バージョン管理