これは、このセクションの複数ページの印刷可能なビューです。 印刷するには、ここをクリックしてください.

このページの通常のビューに戻る.

Settings

Weights & Biases の 設定ページ を使用して、個々の ユーザー プロフィールまたは Team の 設定 をカスタマイズします。

個々の ユーザー アカウント内では、プロフィール画像、表示名、地理的な場所、自己紹介情報、アカウントに関連付けられたメールアドレスを編集したり、runs のアラートを管理したりできます。設定 ページを使用して、GitHub リポジトリをリンクしたり、アカウントを削除したりすることもできます。詳細については、ユーザー settings を参照してください。

Team settings ページを使用して、新しいメンバーを Team に招待または削除したり、Team runs のアラートを管理したり、プライバシー 設定を変更したり、ストレージの使用状況を表示および管理したりできます。Team settings の詳細については、Team settings を参照してください。

1 - Manage user settings

プロフィール情報、アカウントのデフォルト、アラート、ベータ版製品への参加、GitHub インテグレーション、ストレージ使用量、アカウントの有効化を管理し、 ユーザー 設定で Teams を作成します。

ユーザープロファイルページに移動し、右上隅にあるユーザーアイコンを選択します。ドロップダウンから、設定 を選択します。

プロフィール

プロフィール セクションでは、アカウント名と所属機関を管理および変更できます。オプションで、略歴、場所、個人または所属機関のウェブサイトへのリンクを追加したり、プロフィール画像をアップロードしたりできます。

イントロダクションを編集する

イントロダクションを編集するには、プロフィールの最上部にある 編集 をクリックします。開く WYSIWYG エディターは Markdown をサポートしています。

  1. 行を編集するには、それをクリックします。時間を節約するために、/ と入力し、リストから Markdown を選択できます。
  2. 項目のドラッグハンドルを使用して、移動します。
  3. ブロックを削除するには、ドラッグハンドルをクリックし、削除 をクリックします。
  4. 変更を保存するには、保存 をクリックします。

ソーシャルバッジを追加する

X で @weights_biases アカウントのフォローバッジを追加するには、バッジ画像を指す HTML <img> タグを含む Markdown スタイルのリンクを追加できます。

[<img src="https://img.shields.io/twitter/follow/weights_biases?style=social" alt="X: @weights_biases" >](https://x.com/intent/follow?screen_name=weights_biases)

<img> タグでは、widthheight、またはその両方を指定できます。いずれか一方のみを指定した場合、画像のプロポーションは維持されます。

Teams

Team セクションで新しい team を作成します。新しい team を作成するには、新しい team ボタンを選択し、以下を入力します。

  • Team 名 - team の名前。team 名は一意である必要があります。Team 名は変更できません。
  • Team タイプ - 仕事 または 学術 ボタンを選択します。
  • 会社/組織 - team の会社または組織の名前を入力します。ドロップダウンメニューを選択して、会社または組織を選択します。オプションで、新しい組織を入力できます。

ベータ機能

ベータ機能 セクションでは、オプションで楽しいアドオンや開発中の新製品の先行プレビューを有効にできます。有効にするベータ機能の横にあるトグルスイッチを選択します。

アラート

wandb.alert() で、run がクラッシュまたは終了した場合、またはカスタムアラートを設定した場合に通知を受け取ります。メールまたは Slack で通知を受信します。アラートを受信するイベントタイプの横にあるスイッチを切り替えます。

  • Runs finished: Weights and Biases の run が正常に終了したかどうか。
  • Run crashed: run が完了しなかった場合に通知します。

アラートの設定と管理方法の詳細については、wandb.alert でアラートを送信 を参照してください。

個人の GitHub integration

個人の Github アカウントを接続します。Github アカウントを接続するには:

  1. Github に接続 ボタンを選択します。これにより、オープン認証 (OAuth) ページにリダイレクトされます。
  2. 組織アクセス セクションで、アクセスを許可する組織を選択します。
  3. wandb認証 します。

アカウントを削除する

アカウントを削除 ボタンを選択して、アカウントを削除します。

ストレージ

ストレージ セクションでは、アカウントが Weights and Biases サーバーで使用した総メモリ使用量を説明します。デフォルトのストレージプランは 100GB です。ストレージと価格の詳細については、価格 ページを参照してください。

2 - Manage billing settings

組織の課金 設定 を管理

ユーザープロフィールページに移動し、右上隅にあるユーザーアイコンを選択します。ドロップダウンから、Billing を選択するか、Settings を選択し、Billing タブを選択します。

プラン詳細

Plan details セクションでは、組織の現在のプラン、料金、制限、使用状況の概要が示されます。

  • ユーザーの詳細とリストを表示するには、Manage users をクリックします。
  • 使用状況の詳細を表示するには、View usage をクリックします。
  • 組織が使用するストレージの量(無料と有料の両方)。ここから、追加のストレージを購入したり、現在使用中のストレージを管理したりできます。ストレージの設定 の詳細をご覧ください。

ここから、プランを比較したり、営業担当者と話をしたりできます。

プランの使用状況

このセクションでは、現在の使用状況を視覚的にまとめ、今後の使用料金を表示します。月ごとの使用状況の詳細な分析情報を得るには、個々のタイルで View usage をクリックします。カレンダー月、Team、または Project ごとに使用状況をエクスポートするには、Export CSV をクリックします。

使用状況アラート

有料プランをご利用の組織の場合、管理者は、特定のしきい値に達すると、1 回の請求期間につき 1 回、メールでアラートを受信します。また、請求管理者 の場合は、組織の制限を増やす方法、それ以外の場合は、請求管理者に連絡する方法の詳細も記載されています。Pro plan では、請求管理者のみが使用状況アラートを受信します。

これらのアラートは構成できず、次の場合に送信されます。

  • 組織が、プランに応じた使用量のカテゴリの月間制限に近づいている場合(使用時間の 85%)および制限の 100% に達した場合。
  • 組織の請求期間の累積平均料金が、200 ドル、450 ドル、700 ドル、および 1000 ドルのしきい値を超えた場合。これらの超過料金は、組織が追跡時間、ストレージ、または Weave data ingestion に対して、プランに含まれる量よりも多くの使用量を累積した場合に発生します。

使用状況または請求に関するご質問は、アカウントTeamまたはサポートにお問い合わせください。

支払い方法

このセクションには、組織に登録されている支払い方法が表示されます。支払い方法を追加していない場合は、プランをアップグレードするか、有料ストレージを追加するときに、追加するように求められます。

請求管理者

このセクションには、現在の請求管理者が表示されます。請求管理者は組織の管理者であり、請求関連のすべてのメールを受信し、支払い方法を表示および管理できます。

請求管理者を変更するか、ロールを追加のユーザーに割り当てるには、次の手順に従います。

  1. Manage roles をクリックします。
  2. ユーザーを検索します。
  3. そのユーザーの行にある Billing admin フィールドをクリックします。
  4. 概要を読んでから、Change billing user をクリックします。

請求書

クレジットカードで支払う場合、このセクションでは毎月の請求書を表示できます。

  • 銀行振込で支払う Enterprise アカウントの場合、このセクションは空白です。ご不明な点がございましたら、アカウントTeamにお問い合わせください。
  • 組織が料金を発生させない場合、請求書は生成されません。

3 - Manage team settings

Team Settings ページで、 Team のメンバー、アバター、アラート、およびプライバシー設定を管理します。

チーム設定

チームのメンバー、アバター、アラート、プライバシー、利用状況などの設定を変更します。Organization の管理者と チーム の管理者は、チーム の設定を表示および編集できます。

メンバー

「メンバー」セクションには、保留中の招待と、チームへの参加招待を承認したメンバーのリストが表示されます。リストに表示される各メンバーには、メンバーの名前、ユーザー名、メールアドレス、チームの役割、および Models と Weave へのアクセス権限が表示されます。これらは Organization から継承されます。標準のチームの役割 AdminMember 、および View-only から選択できます。Organization がカスタムロールを作成している場合は、代わりにカスタムロールを割り当てることができます。

チームの作成方法、チームの管理方法、チームのメンバーシップと役割の管理方法については、チームの追加と管理を参照してください。誰が新しいメンバーを招待できるかを設定し、チームのその他のプライバシー設定を構成するには、プライバシーを参照してください。

アバター

アバターセクションに移動し、画像をアップロードしてアバターを設定します。

  1. アバターを更新を選択して、ファイルダイアログを表示します。
  2. ファイルダイアログから、使用する画像を選択します。

アラート

run がクラッシュ、完了、またはカスタムアラートを設定したときに、チームに通知します。チームは、メールまたは Slack でアラートを受信できます。

アラートを受信するイベントタイプの横にあるスイッチを切り替えます。Weights and Biases は、デフォルトで次のイベントタイプのオプションを提供します。

  • Runs finished: Weights and Biases の run が正常に完了したかどうか。
  • Run crashed: run が完了しなかった場合。

アラートの設定と管理方法の詳細については、wandb.alert でアラートを送信を参照してください。

Slack 通知

チームの Automations が、新しい Artifact が作成されたときや、run メトリクスが定義されたしきい値を満たしたときなど、Registry または プロジェクト でイベントが発生したときに通知を送信できる Slack の送信先を設定します。Slack オートメーションの作成を参照してください。

This feature is available for all Enterprise licenses.

Webhook

チームの Automations が、新しい Artifact が作成されたときや、run メトリクスが定義されたしきい値を満たしたときなど、Registry または プロジェクト でイベントが発生したときに実行できる Webhook を設定します。Webhook オートメーションの作成を参照してください。

This feature is available for all Enterprise licenses.

プライバシー

プライバシーセクションに移動して、プライバシー設定を変更します。プライバシー設定を変更できるのは、Organization の管理者のみです。

  • 将来の プロジェクト を公開したり、 Reports を公開共有したりする機能をオフにします。
  • チーム管理者だけでなく、チームメンバーが他のメンバーを招待できるようにします。
  • コードの保存をデフォルトでオンにするかどうかを管理します。

利用状況

利用状況セクションでは、チームが Weights and Biases サーバーで使用した総メモリ使用量について説明します。デフォルトのストレージプランは 100GB です。ストレージと価格の詳細については、価格ページを参照してください。

ストレージ

ストレージセクションでは、チームの データ に使用されている クラウド ストレージ バケットの設定について説明します。詳細については、セキュアストレージコネクタを参照するか、セルフホスティングの場合は W&B Server のドキュメントを確認してください。

4 - Manage email settings

[ 設定 ] ページからメールを管理します。

W&B プロフィールの 設定 ページで、メールの種類やプライマリ メール アドレスの追加、削除、管理ができます。W&B ダッシュボード の右上にあるプロフィール アイコンを選択します。ドロップダウンから、設定 を選択します。設定 ページ内で、Emails ダッシュボード までスクロールします。

プライマリ メール の管理

プライマリ メール は 😎 の絵文字でマークされています。プライマリ メール は、W&B アカウント を作成した際に提供したメール アドレスで自動的に定義されます。

ケバブ ドロップダウンを選択して、Weights And Biases アカウント に関連付けられたプライマリ メール を変更します。

メール の追加

+ Add Email を選択して、メール を追加します。これにより、Auth0 ページに移動します。新しいメール の認証情報を入力するか、シングル サインオン (SSO) を使用して接続できます。

メール の削除

ケバブ ドロップダウンを選択し、Delete Emails を選択して、W&B アカウント に登録されているメール を削除します。

ログイン 方法

[ログイン 方法] 列には、アカウント に関連付けられているログイン 方法が表示されます。

W&B アカウント を作成すると、確認メール がメール アカウント に送信されます。メール アカウント は、メール アドレス を確認するまで検証されていないと見なされます。未検証のメール は赤で表示されます。

メール アドレス で再度ログインして、メール アカウント に送信された最初の確認メール が既になくても、2 通目の確認メール を取得してみてください。

アカウント ログイン の問題については、support@wandb.com までお問い合わせください。

5 - Manage teams

同僚と共同作業し、結果を共有して、チーム全体のすべての 実験 を追跡します。

W&B Teams を、より優れたモデルをより迅速に構築するための ML チーム用の一元的なワークスペースとして使用します。

  • チームが試したすべての実験を追跡し 、作業の重複をなくします。
  • 以前にトレーニングしたモデルを保存して再現します。
  • 上司や共同研究者と進捗状況や結果を共有します。
  • 回帰を検出し、パフォーマンスが低下した場合に直ちに警告を受けます。
  • モデルのパフォーマンスを評価し、モデルのバージョンを比較します。

コラボレーションチームを作成する

  1. 無料の W&B アカウントにサインアップまたはログインします。
  2. ナビゲーションバーの [Invite Team(チームを招待)] をクリックします。
  3. チームを作成し、共同研究者を招待します。
  4. チームの設定については、チームの設定を管理を参照してください。

チームプロファイルを作成する

チームのプロファイルページをカスタマイズして、イントロダクションを表示したり、一般公開またはチームメンバーに公開されている Reports と Projects を紹介したりできます。 Reports 、 Projects 、および外部リンクを提示します。

  • 最高の公開 Reports を紹介して、最高の research を訪問者にアピールします
  • 最もアクティブな Projects を紹介して、チームメイトが見つけやすくします
  • 会社や research ラボのウェブサイト、および公開した論文への外部リンクを追加して、共同研究者を見つけます

チームメンバーを削除する

チーム管理者は、チームの設定ページを開き、退職するメンバーの名前の横にある削除ボタンをクリックできます。 run は、ユーザーが退席した後もチームに記録されたままになります。

チームの役割と権限を管理する

同僚をチームに招待するときに、チームの役割を選択します。次のチームの役割オプションがあります。

  • 管理者:チーム管理者は、他の管理者またはチームメンバーを追加および削除できます。すべての Projects を変更する権限と、完全な削除権限を持っています。これには、 Runs 、 Projects 、 Artifacts 、および Sweeps の削除が含まれますが、これらに限定されません。
  • メンバー:チームの通常のメンバー。デフォルトでは、管理者のみがチームメンバーを招待できます。この振る舞いを変更するには、チームの設定を管理を参照してください。

チームメンバーは、自分が作成した run のみ削除できます。メンバー A と B がいるとします。メンバー B は、 run をチーム B の Project からメンバー A が所有する別の Project に移動します。メンバー A は、メンバー B がメンバー A の Project に移動した run を削除できません。管理者は、チームメンバーが作成した Runs と Sweep Runs を管理できます。

  • 表示のみ(エンタープライズ限定機能):表示のみのメンバーは、 Runs 、 Reports 、 Workspace など、チーム内のアセットを表示できます。 Reports をフォローしてコメントできますが、 Project の概要、 Reports 、 Runs を作成、編集、または削除することはできません。
  • カスタムロール(エンタープライズ限定機能):カスタムロールを使用すると、組織管理者は、表示のみまたはメンバーロールのいずれかに基づいて、追加の権限を付与して、きめ細かいアクセス制御を実現する新しいロールを作成できます。次に、チーム管理者は、これらのカスタムロールをそれぞれのチームのユーザーに割り当てることができます。詳細については、W&B Teams のカスタムロールの紹介を参照してください。
  • サービスアカウント(エンタープライズ限定機能)サービスアカウントを使用してワークフローを自動化するを参照してください。

チームの設定

チーム設定を使用すると、チームとそのメンバーの設定を管理できます。これらの権限を使用すると、W&B 内でチームを効果的に監督および整理できます。

権限 表示のみ チームメンバー チーム管理者
チームメンバーを追加する X
チームメンバーを削除する X
チーム設定を管理する X

レジストリ

次の表に、特定のチームのすべての Projects に適用される権限を示します。

権限 表示のみ チームメンバー レジストリ管理者 チーム管理者
エイリアスを追加する X X X
モデルをレジストリに追加する X X X
レジストリでモデルを表示する X X X X
モデルをダウンロードする X X X X
レジストリ管理者を追加または削除する X X
保護されたエイリアスを追加または削除する X

保護されたエイリアスの詳細については、レジストリアクセス制御を参照してください。

Reports

Report 権限は、 Reports を作成、表示、および編集するためのアクセスを許可します。次の表に、特定のチームのすべての Reports に適用される権限を示します。

権限 表示のみ チームメンバー チーム管理者
Reports を表示する X X X
Reports を作成する X X
Reports を編集する X (チームメンバーは自分の Reports のみ編集できます) X
Reports を削除する X (チームメンバーは自分の Reports のみ編集できます) X

実験管理

次の表に、特定のチームのすべての実験管理に適用される権限を示します。

権限 表示のみ チームメンバー チーム管理者
実験管理メタデータ(履歴メトリクス、システムメトリクス、ファイル、ログを含む)を表示する X X X
実験管理パネルとワークスペースを編集する X X
実験管理をログに記録する X X
実験管理を削除する X (チームメンバーは自分が作成した実験管理のみ削除できます) X
実験管理を停止する X (チームメンバーは自分が作成した実験管理のみ停止できます) X

Artifacts

次の表に、特定のチームのすべての Artifacts に適用される権限を示します。

権限 表示のみ チームメンバー チーム管理者
Artifacts を表示する X X X
Artifacts を作成する X X
Artifacts を削除する X X
メタデータを編集する X X
エイリアスを編集する X X
エイリアスを削除する X X
Artifacts をダウンロードする X X

システム設定(W&B Server のみ)

システム権限を使用して、チームとそのメンバーを作成および管理し、システム設定を調整します。これらの権限により、W&B インスタンスを効果的に管理および保守できます。

権限 表示のみ チームメンバー チーム管理者 システム管理者
システム設定を構成する X
チームを作成/削除する X

チームサービスアカウントの振る舞い

  • トレーニング環境でチームを構成する場合、そのチームのサービスアカウントを使用して、そのチーム内のプライベートまたはパブリック Projects で Runs を記録できます。さらに、環境に WANDB_USERNAME または WANDB_USER_EMAIL 変数が存在し、参照されているユーザーがそのチームに属している場合、それらの Runs をユーザーに帰属させることができます。
  • トレーニング環境でチームを構成しない場合にサービスアカウントを使用すると、 Runs はそのサービスアカウントの親チーム内の名前付き Project に記録されます。この場合も同様に、環境に WANDB_USERNAME または WANDB_USER_EMAIL 変数が存在し、参照されているユーザーがサービスアカウントの親チームに属している場合、 Runs をユーザーに帰属させることができます。
  • サービスアカウントは、親チームとは異なるチームのプライベート Project に Runs を記録できません。サービスアカウントは、 Project が Open Project の可視性に設定されている場合にのみ、 Runs を Project に記録できます。

チームトライアル

W&B のプランの詳細については、価格ページを参照してください。ダッシュボード UI またはエクスポート APIを使用して、いつでもすべてのデータをダウンロードできます。

プライバシー設定

チーム設定ページで、すべてのチーム Project のプライバシー設定を確認できます。 app.wandb.ai/teams/your-team-name

高度な設定

セキュアストレージコネクタ

チームレベルのセキュアストレージコネクタを使用すると、チームは W&B で独自のクラウドストレージバケットを使用できます。これにより、機密性の高いデータや厳格なコンプライアンス要件を持つチームに対して、より優れたデータアクセス制御とデータ分離が提供されます。詳細については、セキュアストレージコネクタを参照してください。

6 - Manage storage

W&B の データストレージを管理する方法。

ストレージ制限に近づいている、または超過している場合、データを管理するための複数の方法があります。最適な方法は、アカウントの種類と現在のプロジェクトの設定によって異なります。

ストレージ消費量の管理

W&B は、ストレージ消費量を最適化するためのさまざまなメソッドを提供しています。

データを削除する

ストレージ制限内に収まるように、データを削除することもできます。これを行うには、いくつかの方法があります。

  • アプリ UI を使用してインタラクティブにデータを削除します。
  • Artifacts に TTL ポリシーを設定 して、自動的に削除されるようにします。

7 - System metrics

W&B によって自動的に ログ される メトリクス。

このページでは、W&B SDK によって追跡されるシステム メトリクスの詳細な情報を提供します。

CPU

プロセスの CPU 使用率 (%) (CPU)

利用可能な CPU 数で正規化された、プロセスによる CPU 使用率の割合。

W&B は、このメトリクスに cpu タグを割り当てます。

プロセスの CPU スレッド数

プロセスで使用されるスレッドの数。

W&B は、このメトリクスに proc.cpu.threads タグを割り当てます。

Disk

デフォルトでは、使用状況メトリクスは / パスに対して収集されます。監視するパスを構成するには、次の設定を使用します。

run = wandb.init(
    settings=wandb.Settings(
        x_stats_disk_paths=("/System/Volumes/Data", "/home", "/mnt/data"),
    ),
)

ディスク使用率 (%)

指定されたパスの合計システムディスク使用量をパーセンテージで表します。

W&B は、このメトリクスに disk.{path}.usagePercent タグを割り当てます。

ディスク使用量

指定されたパスの合計システムディスク使用量をギガバイト (GB) で表します。 アクセス可能なパスがサンプリングされ、各パスのディスク使用量 (GB 単位) がサンプルに追加されます。

W&B は、このメトリクスに disk.{path}.usageGB タグを割り当てます。

Disk In

合計システムディスクの読み取り量をメガバイト (MB) で示します。 最初のサンプルが取得されると、最初のディスク読み取りバイト数が記録されます。後続のサンプルでは、現在の読み取りバイト数と初期値の差が計算されます。

W&B は、このメトリクスに disk.in タグを割り当てます。

Disk Out

合計システムディスクの書き込み量をメガバイト (MB) で表します。 Disk In と同様に、最初のサンプルが取得されると、最初のディスク書き込みバイト数が記録されます。後続のサンプルでは、現在の書き込みバイト数と初期値の差が計算されます。

W&B は、このメトリクスに disk.out タグを割り当てます。

Memory

プロセスのメモリ RSS

プロセスのメモリ常駐セットサイズ (RSS) をメガバイト (MB) で表します。RSS は、メインメモリ (RAM) に保持されているプロセスによって占有されているメモリの部分です。

W&B は、このメトリクスに proc.memory.rssMB タグを割り当てます。

プロセスのメモリ使用率 (%)

利用可能な合計メモリに対するプロセスのメモリ使用量をパーセンテージで示します。

W&B は、このメトリクスに proc.memory.percent タグを割り当てます。

メモリ使用率 (%)

利用可能な合計メモリに対する合計システムメモリ使用量をパーセンテージで表します。

W&B は、このメトリクスに memory_percent タグを割り当てます。

利用可能なメモリ

利用可能な合計システムメモリをメガバイト (MB) で示します。

W&B は、このメトリクスに proc.memory.availableMB タグを割り当てます。

Network

ネットワーク送信

ネットワーク経由で送信された合計バイト数を表します。 最初のバイト送信は、メトリクスが最初に初期化されたときに記録されます。後続のサンプルでは、現在のバイト送信数と初期値の差が計算されます。

W&B は、このメトリクスに network.sent タグを割り当てます。

ネットワーク受信

ネットワーク経由で受信した合計バイト数を示します。 ネットワーク送信 と同様に、最初のバイト受信は、メトリクスが最初に初期化されたときに記録されます。後続のサンプルでは、現在のバイト受信数と初期値の差が計算されます。

W&B は、このメトリクスに network.recv タグを割り当てます。

NVIDIA GPU

以下に説明するメトリクスに加えて、プロセスまたはその子孫が特定の GPU を使用する場合、W&B は対応するメトリクスを gpu.process.{gpu_index}.{metric_name} としてキャプチャします。

GPU メモリ使用率

各 GPU の GPU メモリ使用率をパーセントで表します。

W&B は、このメトリクスに gpu.{gpu_index}.memory タグを割り当てます。

GPU 割り当て済みメモリ

各 GPU の利用可能な合計メモリに対する GPU 割り当て済みメモリをパーセンテージで示します。

W&B は、このメトリクスに gpu.{gpu_index}.memoryAllocated タグを割り当てます。

GPU 割り当て済みメモリ (バイト単位)

各 GPU の GPU 割り当て済みメモリをバイト単位で指定します。

W&B は、このメトリクスに gpu.{gpu_index}.memoryAllocatedBytes タグを割り当てます。

GPU 使用率

各 GPU の GPU 使用率をパーセントで反映します。

W&B は、このメトリクスに gpu.{gpu_index}.gpu タグを割り当てます。

GPU 温度

各 GPU の GPU 温度を摂氏で示します。

W&B は、このメトリクスに gpu.{gpu_index}.temp タグを割り当てます。

GPU 消費電力 (ワット単位)

各 GPU の GPU 消費電力をワット単位で示します。

W&B は、このメトリクスに gpu.{gpu_index}.powerWatts タグを割り当てます。

GPU 消費電力 (%)

各 GPU の電力容量に対する GPU 消費電力をパーセンテージで反映します。

W&B は、このメトリクスに gpu.{gpu_index}.powerPercent タグを割り当てます。

GPU SM クロック速度

GPU 上のストリーミングマルチプロセッサ (SM) のクロック速度を MHz で表します。このメトリクスは、計算タスクを担当する GPU コア内の処理速度を示します。

W&B は、このメトリクスに gpu.{gpu_index}.smClock タグを割り当てます。

GPU メモリクロック速度

GPU メモリのクロック速度を MHz で表します。これは、GPU メモリとプロセッシングコア間のデータ転送速度に影響します。

W&B は、このメトリクスに gpu.{gpu_index}.memoryClock タグを割り当てます。

GPU グラフィックスクロック速度

GPU 上のグラフィックスレンダリング操作のベースクロック速度を MHz で表します。このメトリクスは、可視化またはレンダリングタスク中のパフォーマンスを反映することがよくあります。

W&B は、このメトリクスに gpu.{gpu_index}.graphicsClock タグを割り当てます。

GPU 修正済みメモリ エラー

W&B がエラーチェックプロトコルによって自動的に修正する GPU 上のメモリ エラーの数を追跡します。これは、回復可能なハードウェアの問題を示します。

W&B は、このメトリクスに gpu.{gpu_index}.correctedMemoryErrors タグを割り当てます。

GPU 未修正メモリ エラー

W&B が修正しなかった GPU 上のメモリ エラーの数を追跡します。これは、処理の信頼性に影響を与える可能性のある回復不能なエラーを示します。

W&B は、このメトリクスに gpu.{gpu_index}.unCorrectedMemoryErrors タグを割り当てます。

GPU エンコーダー使用率

GPU のビデオエンコーダーの使用率をパーセンテージで表します。これは、エンコードタスク (ビデオレンダリングなど) の実行時にエンコーダーの負荷を示します。

W&B は、このメトリクスに gpu.{gpu_index}.encoderUtilization タグを割り当てます。

AMD GPU

W&B は、AMD が提供する rocm-smi ツール (rocm-smi -a --json) の出力からメトリクスを抽出します。

ROCm 6.x (最新) および 5.x 形式がサポートされています。ROCm 形式の詳細については、AMD ROCm ドキュメント を参照してください。新しい形式には、より詳細な情報が含まれています。

AMD GPU 使用率

各 AMD GPU デバイスの GPU 使用率をパーセントで表します。

W&B は、このメトリクスに gpu.{gpu_index}.gpu タグを割り当てます。

AMD GPU 割り当て済みメモリ

各 AMD GPU デバイスの利用可能な合計メモリに対する GPU 割り当て済みメモリをパーセンテージで示します。

W&B は、このメトリクスに gpu.{gpu_index}.memoryAllocated タグを割り当てます。

AMD GPU 温度

各 AMD GPU デバイスの GPU 温度を摂氏で示します。

W&B は、このメトリクスに gpu.{gpu_index}.temp タグを割り当てます。

AMD GPU 消費電力 (ワット単位)

各 AMD GPU デバイスの GPU 消費電力をワット単位で示します。

W&B は、このメトリクスに gpu.{gpu_index}.powerWatts タグを割り当てます。

AMD GPU 消費電力 (%)

各 AMD GPU デバイスの電力容量に対する GPU 消費電力をパーセンテージで反映します。

W&B は、このメトリクスに gpu.{gpu_index}.powerPercent タグを割り当てます。

Apple ARM Mac GPU

Apple GPU 使用率

特に ARM Mac 上の Apple GPU デバイスの GPU 使用率をパーセントで示します。

W&B は、このメトリクスに gpu.0.gpu タグを割り当てます。

Apple GPU 割り当て済みメモリ

ARM Mac 上の Apple GPU デバイスの利用可能な合計メモリに対する GPU 割り当て済みメモリをパーセンテージで示します。

W&B は、このメトリクスに gpu.0.memoryAllocated タグを割り当てます。

Apple GPU 温度

ARM Mac 上の Apple GPU デバイスの GPU 温度を摂氏で示します。

W&B は、このメトリクスに gpu.0.temp タグを割り当てます。

Apple GPU 消費電力 (ワット単位)

ARM Mac 上の Apple GPU デバイスの GPU 消費電力をワット単位で示します。

W&B は、このメトリクスに gpu.0.powerWatts タグを割り当てます。

Apple GPU 消費電力 (%)

ARM Mac 上の Apple GPU デバイスの電力容量に対する GPU 消費電力をパーセンテージで示します。

W&B は、このメトリクスに gpu.0.powerPercent タグを割り当てます。

Graphcore IPU

Graphcore IPU (Intelligence Processing Units) は、機械学習タスク専用に設計された独自のハードウェアアクセラレータです。

IPU デバイスメトリクス

これらのメトリクスは、特定の IPU デバイスのさまざまな統計を表します。各メトリクスには、デバイス ID (device_id) と、それを識別するためのメトリックキー (metric_key) があります。W&B は、このメトリクスに ipu.{device_id}.{metric_key} タグを割り当てます。

メトリクスは、Graphcore の gcipuinfo バイナリと対話する独自の gcipuinfo ライブラリを使用して抽出されます。sample メソッドは、プロセス ID (pid) に関連付けられた各 IPU デバイスのこれらのメトリクスを取得します。時間の経過とともに変化するメトリクス、またはデバイスのメトリクスが初めて取得された場合にのみ、冗長なデータのログ記録を回避するためにログに記録されます。

各メトリクスについて、メソッド parse_metric が使用されて、メトリクスの値をその生の文字列表現から抽出します。次に、メトリクスは aggregate メソッドを使用して複数のサンプルに集約されます。

以下に、利用可能なメトリクスとその単位を示します。

  • ボードの平均温度 (average board temp (C)): IPU ボードの温度 (摂氏)。
  • ダイの平均温度 (average die temp (C)): IPU ダイの温度 (摂氏)。
  • クロック速度 (clock (MHz)): IPU のクロック速度 (MHz)。
  • IPU 電力 (ipu power (W)): IPU の消費電力 (ワット)。
  • IPU 使用率 (ipu utilisation (%)): IPU 使用率 (パーセント)。
  • IPU セッション使用率 (ipu utilisation (session) (%)): 現在のセッションに固有の IPU 使用率 (パーセント)。
  • データリンク速度 (speed (GT/s)): データ伝送速度 (ギガ転送/秒)。

Google Cloud TPU

Tensor Processing Units (TPU) は、機械学習ワークロードを高速化するために使用される Google 独自のカスタム開発 ASIC (特定用途向け集積回路) です。

TPU メモリ使用量

TPU コアあたりの現在の高帯域幅メモリ使用量 (バイト単位)。

W&B は、このメトリクスに tpu.{tpu_index}.memoryUsageBytes タグを割り当てます。

TPU メモリ使用量 (%)

TPU コアあたりの現在の高帯域幅メモリ使用量 (パーセント)。

W&B は、このメトリクスに tpu.{tpu_index}.memoryUsageBytes タグを割り当てます。

TPU デューティサイクル

TPU デバイスあたりの TensorCore デューティサイクル (%)。アクセラレータ TensorCore がアクティブに処理していたサンプル期間中の時間の割合を追跡します。値が大きいほど、TensorCore の使用率が高いことを意味します。

W&B は、このメトリクスに tpu.{tpu_index}.dutyCycle タグを割り当てます。

AWS Trainium

AWS Trainium は、AWS が提供する特殊なハードウェアプラットフォームで、機械学習ワークロードの高速化に重点を置いています。AWS の neuron-monitor ツールは、AWS Trainium メトリクスをキャプチャするために使用されます。

Trainium Neuron Core 使用率

NeuronCore ごとの使用率 (%) (コアごとに報告)。

W&B は、このメトリクスに trn.{core_index}.neuroncore_utilization タグを割り当てます。

Trainium ホストメモリ使用量、合計

ホスト上の合計メモリ消費量 (バイト単位)。

W&B は、このメトリクスに trn.host_total_memory_usage タグを割り当てます。

Trainium Neuron デバイスの合計メモリ使用量

Neuron デバイス上の合計メモリ使用量 (バイト単位)。

W&B は、このメトリクスに trn.neuron_device_total_memory_usage) タグを割り当てます。

Trainium ホストメモリ使用量の内訳:

以下は、ホスト上のメモリ使用量の内訳です。

  • アプリケーションメモリ (trn.host_total_memory_usage.application_memory): アプリケーションで使用されるメモリ。
  • 定数 (trn.host_total_memory_usage.constants): 定数に使用されるメモリ。
  • DMA バッファ (trn.host_total_memory_usage.dma_buffers): ダイレクトメモリアクセスバッファに使用されるメモリ。
  • テンソル (trn.host_total_memory_usage.tensors): テンソルに使用されるメモリ。

Trainium Neuron Core メモリ使用量の内訳

NeuronCore ごとの詳細なメモリ使用量情報:

  • 定数 (trn.{core_index}.neuroncore_memory_usage.constants)
  • モデルコード (trn.{core_index}.neuroncore_memory_usage.model_code)
  • モデル共有スクラッチパッド (trn.{core_index}.neuroncore_memory_usage.model_shared_scratchpad)
  • ランタイムメモリ (trn.{core_index}.neuroncore_memory_usage.runtime_memory)
  • テンソル (trn.{core_index}.neuroncore_memory_usage.tensors)

OpenMetrics

OpenMetrics / Prometheus 互換のデータを公開する外部エンドポイントからメトリクスをキャプチャしてログに記録します。消費されるエンドポイントに適用されるカスタム正規表現ベースのメトリクスフィルタをサポートします。

このレポート を参照して、NVIDIA DCGM-Exporter を使用して GPU クラスターのパフォーマンスを監視する特定のケースで、この機能を使用する方法の詳細な例を確認してください。

8 - Anonymous mode

W&B アカウントなしでデータを ログ および可視化する

誰でも簡単に実行できるようにしたいコードを公開していますか? 匿名モードを使用すると、W&B のアカウントを最初に作成しなくても、誰でもあなたのコードを実行し、W&B のダッシュボードを確認し、結果を可視化できます。

匿名モードで結果を記録できるようにするには、以下のようにします。

import wandb

wandb.init(anonymous="allow")

たとえば、次のコードスニペットは、W&B で Artifacts を作成およびログに記録する方法を示しています。

import wandb

run = wandb.init(anonymous="allow")

artifact = wandb.Artifact(name="art1", type="foo")
artifact.add_file(local_path="path/to/file")
run.log_artifact(artifact)

run.finish()

ノートブックの例を試して、匿名モードの動作を確認してください。