Log distributed training experiments

W&B を使用して、複数の GPU を使用した分散型トレーニングの実験管理をログ記録します。

4 minute read

分散トレーニングでは、モデルは複数の GPU を並行して使用してトレーニングされます。W&B は、分散トレーニングの実験管理を追跡するための 2 つのパターンをサポートしています。

単一プロセス: W&B (wandb.init) を初期化し、単一のプロセスから実験 (wandb.log) をログ記録します。これは、PyTorch Distributed Data Parallel (DDP) クラスを使用した分散トレーニングの実験をログ記録するための一般的なソリューションです。場合によっては、マルチプロセッシングキュー (または別の通信プリミティブ) を使用して、他のプロセスからメインのログ記録プロセスにデータを送り込むユーザーもいます。
多数のプロセス: W&B (wandb.init) を初期化し、すべてのプロセスで実験 (wandb.log) をログ記録します。各プロセスは、事実上別の実験です。W&B を初期化する際に group パラメータ (wandb.init(group='group-name')) を使用して、共有実験を定義し、ログ記録された値を W&B App UI にまとめてグループ化します。

以下の例では、単一マシン上の 2 つの GPU で PyTorch DDP を使用して、W&B でメトリクスを追跡する方法を示します。PyTorch DDP (torch.nn の DistributedDataParallel) は、分散トレーニング用の一般的なライブラリです。基本的な原則は、あらゆる分散トレーニング設定に適用されますが、実装の詳細は異なる場合があります。

これらの例の背後にあるコードを W&B GitHub の examples リポジトリ (こちら) で確認してください。特に、単一プロセスおよび多数プロセスのメソッドを実装する方法については、log-dpp.py Python スクリプトを参照してください。

方法 1: 単一プロセス

この方法では、ランク 0 のプロセスのみを追跡します。この方法を実装するには、W&B (wandb.init) を初期化し、W&B Run を開始して、ランク 0 のプロセス内でメトリクス (wandb.log) をログ記録します。この方法はシンプルで堅牢ですが、他のプロセスからモデルのメトリクス (たとえば、バッチからの損失値または入力) をログ記録しません。使用量やメモリなどのシステムメトリクスは、その情報がすべてのプロセスで利用できるため、すべての GPU に対してログ記録されます。

この方法を使用して、単一のプロセスから利用可能なメトリクスのみを追跡します。一般的な例としては、GPU/CPU の使用率、共有検証セットでの振る舞い、勾配とパラメータ、および代表的なデータ例での損失値などがあります。

サンプル Python スクリプト (log-ddp.py) 内で、ランクが 0 かどうかを確認します。これを行うには、まず torch.distributed.launch で複数のプロセスを起動します。次に、--local_rank コマンドライン引数でランクを確認します。ランクが 0 に設定されている場合、train() 関数で wandb ログ記録を条件付きで設定します。Python スクリプト内で、次のチェックを使用します。

if __name__ == "__main__":
    # Get args
    args = parse_args()

    if args.local_rank == 0:  # only on main process
        # Initialize wandb run
        run = wandb.init(
            entity=args.entity,
            project=args.project,
        )
        # Train model with DDP
        train(args, run)
    else:
        train(args)

W&B App UI を調べて、単一のプロセスから追跡されたメトリクスのダッシュボード例を表示します。ダッシュボードには、両方の GPU で追跡された温度や使用率などのシステムメトリクスが表示されます。

ただし、エポックとバッチサイズの関数としての損失値は、単一の GPU からのみログ記録されました。

方法 2: 多数のプロセス

この方法では、ジョブ内の各プロセスを追跡し、各プロセスから wandb.init() と wandb.log() を個別に呼び出します。すべてのプロセスが適切に終了するように、トレーニングの最後に wandb.finish() を呼び出すことをお勧めします。これにより、run が完了したことを示します。

この方法により、より多くの情報がログ記録にアクセスできるようになります。ただし、複数の W&B Runs が W&B App UI に報告されることに注意してください。複数の実験にわたって W&B Runs を追跡することが難しい場合があります。これを軽減するには、W&B を初期化する際に group パラメータに値を指定して、どの W&B Run が特定の実験に属しているかを追跡します。トレーニングと評価の W&B Runs を実験で追跡する方法の詳細については、Run のグループ化を参照してください。

個々のプロセスからメトリクスを追跡する場合は、この方法を使用してください。一般的な例としては、各ノード上のデータと予測 (データ分布のデバッグ用) や、メインノード外の個々のバッチ上のメトリクスなどがあります。この方法は、すべてのノードからシステムメトリクスを取得したり、メインノードで利用可能な概要統計を取得したりするために必要ではありません。

次の Python コードスニペットは、W&B を初期化するときに group パラメータを設定する方法を示しています。

if __name__ == "__main__":
    # Get args
    args = parse_args()
    # Initialize run
    run = wandb.init(
        entity=args.entity,
        project=args.project,
        group="DDP",  # all runs for the experiment in one group
    )
    # Train model with DDP
    train(args, run)

W&B App UI を調べて、複数のプロセスから追跡されたメトリクスのダッシュボード例を表示します。左側のサイドバーに 2 つの W&B Runs がグループ化されていることに注意してください。グループをクリックして、実験専用のグループページを表示します。専用のグループページには、各プロセスからのメトリクスが個別に表示されます。

上記の画像は、W&B App UI ダッシュボードを示しています。サイドバーには、2 つの実験が表示されます。1 つは「null」というラベルが付いており、2 つ目 (黄色のボックスで囲まれています) は「DPP」と呼ばれています。グループを展開すると (グループドロップダウンを選択)、その実験に関連付けられている W&B Runs が表示されます。

W&B Service を使用して、一般的な分散トレーニングの問題を回避する

W&B と分散トレーニングを使用する際に発生する可能性のある一般的な問題が 2 つあります。

トレーニングの開始時にハングする - wandb マルチプロセッシングが分散トレーニングからのマルチプロセッシングに干渉すると、wandb プロセスがハングする可能性があります。
トレーニングの最後にハングする - wandb プロセスがいつ終了する必要があるかを認識していない場合、トレーニングジョブがハングする可能性があります。Python スクリプトの最後に wandb.finish() API を呼び出して、Run が完了したことを W&B に伝えます。wandb.finish() API は、データのアップロードを終了し、W&B を終了させます。

分散ジョブの信頼性を向上させるために、wandb service を使用することをお勧めします。上記のトレーニングの問題はどちらも、wandb service が利用できない W&B SDK のバージョンでよく見られます。

W&B Service を有効にする

W&B SDK のバージョンによっては、W&B Service がデフォルトで有効になっている場合があります。

W&B SDK 0.13.0 以降

W&B Service は、W&B SDK 0.13.0 以降のバージョンではデフォルトで有効になっています。

W&B SDK 0.12.5 以降

Python スクリプトを変更して、W&B SDK バージョン 0.12.5 以降で W&B Service を有効にします。wandb.require メソッドを使用し、メイン関数内で文字列 "service" を渡します。

if __name__ == "__main__":
    main()


def main():
    wandb.require("service")
    # rest-of-your-script-goes-here

最適なエクスペリエンスを得るには、最新バージョンにアップグレードすることをお勧めします。

W&B SDK 0.12.4 以前

W&B SDK バージョン 0.12.4 以前を使用している場合は、マルチスレッドを代わりに使用するために、WANDB_START_METHOD 環境変数を "thread" に設定します。

マルチプロセッシングのユースケース例

次のコードスニペットは、高度な分散ユースケースの一般的な方法を示しています。

プロセスのスポーン

スポーンされたプロセスで W&B Run を開始する場合は、メイン関数で wandb.setup() メソッドを使用します。

import multiprocessing as mp


def do_work(n):
    run = wandb.init(config=dict(n=n))
    run.log(dict(this=n * n))


def main():
    wandb.setup()
    pool = mp.Pool(processes=4)
    pool.map(do_work, range(4))


if __name__ == "__main__":
    main()

W&B Run を共有する

W&B Run オブジェクトを引数として渡して、プロセス間で W&B Runs を共有します。

def do_work(run):
    run.log(dict(this=1))


def main():
    run = wandb.init()
    p = mp.Process(target=do_work, kwargs=dict(run=run))
    p.start()
    p.join()


if __name__ == "__main__":
    main()

ログ記録の順序は保証されないことに注意してください。同期はスクリプトの作成者が行う必要があります。

[i18n] feedback_title

[i18n] feedback_question

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

最終更新 April 3, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷

Log distributed training experiments

方法 1: 単一 プロセス

方法 2: 多数の プロセス

W&B Service を使用して、一般的な分散トレーニング の問題を回避する