1 - Manage user settings
사용자 설정 에서 프로필 정보, 계정 기본값, 알림, 베타 제품 참여, GitHub 인테그레이션 , 저장소 사용량, 계정 활성화를 관리하고 팀 을 만드세요.
사용자 프로필 페이지로 이동하여 오른쪽 상단 모서리에 있는 사용자 아이콘을 선택하세요. 드롭다운 메뉴에서 설정을 선택합니다.
프로필
프로필 섹션에서는 계정 이름과 소속 기관을 관리하고 수정할 수 있습니다. 선택적으로 자기소개, 위치, 개인 또는 소속 기관 웹사이트 링크를 추가하고 프로필 이미지를 업로드할 수 있습니다.
자기 소개 편집
자기 소개를 편집하려면 프로필 상단의 편집을 클릭합니다. 열리는 WYSIWYG 편집기는 Markdown을 지원합니다.
- 줄을 편집하려면 해당 줄을 클릭합니다. 시간을 절약하기 위해
/
를 입력하고 목록에서 Markdown을 선택할 수 있습니다.
- 항목의 드래그 핸들을 사용하여 이동합니다.
- 블록을 삭제하려면 드래그 핸들을 클릭한 다음 삭제를 클릭합니다.
- 변경 사항을 저장하려면 저장을 클릭합니다.
소셜 배지 추가
X에서 @weights_biases
계정에 대한 팔로우 배지를 추가하려면 배지 이미지를 가리키는 HTML <img>
태그가 있는 Markdown 스타일 링크를 추가할 수 있습니다.
[<img src="https://img.shields.io/twitter/follow/weights_biases?style=social" alt="X: @weights_biases" >](https://x.com/intent/follow?screen_name=weights_biases)
<img>
태그에서 width
, height
또는 둘 다 지정할 수 있습니다. 둘 중 하나만 지정하면 이미지 비율이 유지됩니다.
팀
팀 섹션에서 새 팀을 만듭니다. 새 팀을 만들려면 새 팀 버튼을 선택하고 다음을 제공합니다.
- 팀 이름 - 팀의 이름입니다. 팀 이름은 고유해야 합니다. 팀 이름은 변경할 수 없습니다.
- 팀 유형 - 업무 또는 학술 버튼을 선택합니다.
- 회사/조직 - 팀의 회사 또는 조직 이름을 제공합니다. 드롭다운 메뉴를 선택하여 회사 또는 조직을 선택합니다. 선택적으로 새 조직을 제공할 수 있습니다.
관리 계정만 팀을 만들 수 있습니다.
베타 기능
베타 기능 섹션에서는 선택적으로 재미있는 추가 기능과 개발 중인 새 제품의 미리 보기를 활성화할 수 있습니다. 활성화하려는 베타 기능 옆에 있는 토글 스위치를 선택합니다.
알림
wandb.alert()을 사용하여 run이 충돌하거나 완료될 때 알림을 받고 사용자 정의 알림을 설정합니다. 이메일 또는 Slack을 통해 알림을 받습니다. 알림을 받을 이벤트 유형 옆에 있는 스위치를 토글합니다.
- Runs finished: Weights & Biases run이 성공적으로 완료되었는지 여부.
- Run crashed: run이 완료되지 못한 경우 알림.
알림을 설정하고 관리하는 방법에 대한 자세한 내용은 wandb.alert로 알림 보내기를 참조하세요.
개인 GitHub 인테그레이션
개인 Github 계정을 연결합니다. Github 계정을 연결하려면:
- Github 연결 버튼을 선택합니다. 그러면 OAuth (Open Authorization) 페이지로 리디렉션됩니다.
- 조직 엑세스 섹션에서 엑세스 권한을 부여할 조직을 선택합니다.
- wandb를 승인합니다.
계정 삭제
계정 삭제 버튼을 선택하여 계정을 삭제합니다.
계정 삭제는 되돌릴 수 없습니다.
저장 공간
저장 공간 섹션에서는 계정이 Weights & Biases 서버에서 사용한 총 메모리 사용량을 설명합니다. 기본 저장 공간 플랜은 100GB입니다. 저장 공간 및 가격 책정에 대한 자세한 내용은 가격 페이지를 참조하세요.
2 - Manage billing settings
조직의 결제 설정을 관리하세요
사용자 프로필 페이지로 이동하여 오른쪽 상단 모서리에 있는 사용자 아이콘을 선택하세요. 드롭다운에서 결제를 선택하거나 설정을 선택한 다음 결제 탭을 선택하세요.
요금제 정보
요금제 정보 섹션에서는 조직의 현재 요금제, 요금, 제한 및 사용량을 요약하여 보여줍니다.
- 사용자 상세 정보 및 목록을 보려면 사용자 관리를 클릭하세요.
- 사용량에 대한 자세한 내용을 보려면 사용량 보기를 클릭하세요.
- 조직에서 사용하는 저장 공간의 양(무료 및 유료). 여기에서 추가 저장 공간을 구매하고 현재 사용 중인 저장 공간을 관리할 수 있습니다. 자세한 내용은 저장 공간 설정을 참조하세요.
여기에서 요금제를 비교하거나 영업팀에 문의할 수 있습니다.
요금제 사용량
이 섹션에서는 현재 사용량을 시각적으로 요약하고 예정된 사용량 요금을 표시합니다. 월별 사용량에 대한 자세한 정보를 보려면 개별 타일에서 사용량 보기를 클릭하세요. 달력 월, Teams 또는 project별로 사용량을 내보내려면 CSV 내보내기를 클릭하세요.
사용량 알림
유료 요금제를 사용하는 조직의 경우, 관리자는 특정 임계값이 충족되면 결제 기간당 한 번 이메일을 통해 알림을 받습니다. 알림에는 결제 관리자인 경우 조직의 제한을 늘리는 방법과 그렇지 않은 경우 결제 관리자에게 문의하는 방법에 대한 세부 정보가 포함됩니다. Pro plan에서는 결제 관리자만 사용량 알림을 받습니다.
이러한 알림은 구성할 수 없으며 다음과 같은 경우에 전송됩니다.
- 조직이 월간 사용량 범주 제한(사용 시간의 85%)에 가까워지고 요금제에 따라 제한의 100%에 도달했을 때.
- 조직의 누적 평균 요금이 결제 기간 동안 $200, $450, $700 및 $1000 임계값을 초과했을 때. 이러한 초과 요금은 조직에서 추적 시간, 저장 공간 또는 Weave 데이터 수집에 대해 요금제에 포함된 것보다 더 많은 사용량을 누적할 때 발생합니다.
사용량 또는 결제에 대한 질문은 계정 팀 또는 지원팀에 문의하세요.
결제 방법
이 섹션에서는 조직에 등록된 결제 방법을 보여줍니다. 결제 방법을 추가하지 않은 경우 요금제를 업그레이드하거나 유료 저장 공간을 추가할 때 결제 방법을 추가하라는 메시지가 표시됩니다.
결제 관리자
이 섹션에서는 현재 결제 관리자를 보여줍니다. 결제 관리자는 조직 관리자이며 모든 결제 관련 이메일을 수신하고 결제 방법을 보고 관리할 수 있습니다.
W&B 전용 클라우드에서는 여러 Users가 결제 관리자가 될 수 있습니다. W&B 멀티 테넌트 클라우드에서는 한 번에 한 명의 User만 결제 관리자가 될 수 있습니다.
결제 관리자를 변경하거나 역할을 추가 Users에게 할당하려면:
- 역할 관리를 클릭하세요.
- User를 검색하세요.
- 해당 User의 행에서 결제 관리자 필드를 클릭하세요.
- 요약을 읽은 다음 결제 User 변경을 클릭하세요.
송장
신용 카드를 사용하여 결제하는 경우 이 섹션에서 월별 송장을 볼 수 있습니다.
- 전신 송금을 통해 결제하는 Enterprise 계정의 경우 이 섹션은 비어 있습니다. 질문이 있으면 계정 팀에 문의하세요.
- 조직에 요금이 발생하지 않으면 송장이 생성되지 않습니다.
3 - Manage team settings
Team 설정 페이지에서 팀의 멤버, 아바타, 알림 및 개인 정보 설정을 관리하세요.
팀 설정
팀 멤버, 아바타, 알림, 개인 정보 보호, 사용량 등 팀 설정을 변경합니다. 조직 관리자와 팀 관리자는 팀 설정을 보고 편집할 수 있습니다.
관리 계정 유형만 팀 설정을 변경하거나 팀에서 멤버를 제거할 수 있습니다.
멤버
멤버 섹션에는 보류 중인 초대 목록과 팀 가입 초대를 수락한 멤버가 모두 표시됩니다. 나열된 각 멤버는 멤버의 이름, 사용자 이름, 이메일, 팀 역할과 조직에서 상속된 Models 및 Weave에 대한 엑세스 권한을 표시합니다. 표준 팀 역할인 Admin, Member 및 View-only 중에서 선택할 수 있습니다. 조직에서 사용자 정의 역할을 생성한 경우 사용자 정의 역할을 대신 할당할 수 있습니다.
팀 생성, 팀 관리, 팀 멤버십 및 역할 관리에 대한 자세한 내용은 팀 추가 및 관리를 참조하세요. 팀에 대한 새로운 멤버 초대 권한을 구성하고 기타 개인 정보 보호 설정을 구성하려면 개인 정보 보호를 참조하세요.
아바타
아바타 섹션으로 이동하여 이미지를 업로드하여 아바타를 설정합니다.
- 아바타 업데이트를 선택하여 파일 대화 상자를 표시합니다.
- 파일 대화 상자에서 사용할 이미지를 선택합니다.
알림
Runs이 충돌하거나 완료될 때 또는 사용자 정의 알림을 설정할 때 팀에 알립니다. 팀은 이메일 또는 Slack을 통해 알림을 받을 수 있습니다.
알림을 받을 이벤트 유형 옆에 있는 스위치를 토글합니다. Weights & Biases는 기본적으로 다음과 같은 이벤트 유형 옵션을 제공합니다.
- Runs finished: Weights & Biases run이 성공적으로 완료되었는지 여부.
- Run crashed: run이 완료되지 못한 경우.
알림을 설정하고 관리하는 방법에 대한 자세한 내용은 wandb.alert로 알림 보내기를 참조하세요.
Slack 알림
새로운 아티팩트가 생성되거나 run 메트릭이 정의된 임계값을 충족하는 경우와 같이 팀의 자동화가 Registry 또는 프로젝트에서 이벤트가 발생할 때 알림을 보낼 수 있는 Slack 대상을 구성합니다. Slack 자동화 생성를 참조하세요.
This feature is available for all Enterprise licenses.
웹훅
새로운 아티팩트가 생성되거나 run 메트릭이 정의된 임계값을 충족하는 경우와 같이 팀의 자동화가 Registry 또는 프로젝트에서 이벤트가 발생할 때 실행할 수 있는 웹훅을 구성합니다. 웹훅 자동화 생성를 참조하세요.
This feature is available for all Enterprise licenses.
개인 정보 보호
개인 정보 보호 섹션으로 이동하여 개인 정보 보호 설정을 변경합니다. 조직 관리자만 개인 정보 보호 설정을 수정할 수 있습니다.
- 향후 프로젝트를 공개하거나 Reports를 공개적으로 공유하는 기능을 끕니다.
- 팀 관리자뿐만 아니라 모든 팀 멤버가 다른 멤버를 초대할 수 있도록 허용합니다.
- 코드 저장을 기본적으로 켤지 여부를 관리합니다.
사용량
사용량 섹션에서는 팀이 Weights and Biases 서버에서 소비한 총 메모리 사용량을 설명합니다. 기본 스토리지 플랜은 100GB입니다. 스토리지 및 가격 책정에 대한 자세한 내용은 가격 책정 페이지를 참조하세요.
스토리지
스토리지 섹션에서는 팀의 데이터에 사용되는 클라우드 스토리지 버킷 구성을 설명합니다. 자세한 내용은 보안 스토리지 커넥터를 참조하거나 자체 호스팅하는 경우 W&B 서버 문서를 확인하세요.
4 - Manage email settings
설정 페이지에서 이메일을 관리하세요.
W&B 프로필 설정 페이지에서 이메일 유형과 기본 이메일 주소를 추가, 삭제, 관리합니다. W&B 대시보드의 오른쪽 상단 모서리에 있는 프로필 아이콘을 선택하세요. 드롭다운 메뉴에서 설정을 선택합니다. 설정 페이지에서 아래로 스크롤하여 이메일 대시보드로 이동합니다.
기본 이메일 관리
기본 이메일은 😎 이모지로 표시됩니다. 기본 이메일은 W&B 계정을 만들 때 제공한 이메일로 자동 정의됩니다.
케밥 드롭다운을 선택하여 Weights And Biases 계정과 연결된 기본 이메일을 변경합니다.
인증된 이메일만 기본 이메일로 설정할 수 있습니다.
이메일 추가
+ 이메일 추가를 선택하여 이메일을 추가합니다. 그러면 Auth0 페이지로 이동합니다. 새 이메일의 자격 증명을 입력하거나 Single Sign-On (SSO)을 사용하여 연결할 수 있습니다.
이메일 삭제
케밥 드롭다운을 선택하고 이메일 삭제를 선택하여 W&B 계정에 등록된 이메일을 삭제합니다.
기본 이메일은 삭제할 수 없습니다. 삭제하기 전에 다른 이메일을 기본 이메일로 설정해야 합니다.
로그인 방법
로그인 방법 열에는 계정과 연결된 로그인 방법이 표시됩니다.
W&B 계정을 만들 때 이메일 계정으로 인증 이메일이 전송됩니다. 이메일 주소를 인증할 때까지 이메일 계정은 인증되지 않은 것으로 간주됩니다. 인증되지 않은 이메일은 빨간색으로 표시됩니다.
이메일 주소로 다시 로그인하여 이메일 계정으로 전송된 원본 인증 이메일이 더 이상 없는 경우 두 번째 인증 이메일을 검색하십시오.
계정 로그인 문제는 support@wandb.com으로 문의하십시오.
5 - Manage teams
동료와 협업하고, 결과를 공유하며, 팀 전체의 모든 실험을 추적하세요.
W&B Teams를 사용하여 ML 팀의 중앙 워크스페이스를 구축하여 더 나은 모델을 더 빠르게 만드세요.
- 팀에서 시도한 모든 실험을 추적하여 작업이 중복되지 않도록 하세요.
- 이전에 트레이닝된 모델을 저장하고 재현하세요.
- 상사 및 협력자와 진행 상황과 결과를 공유하세요.
- 회귀를 포착하고 성능이 저하되면 즉시 알림을 받으세요.
- 모델 성능을 벤치마킹하고 모델 버전을 비교하세요.
협업 팀 만들기
- 무료 W&B 계정에 가입하거나 로그인하세요.
- 네비게이션 바에서 팀 초대를 클릭하세요.
- 팀을 만들고 협력자를 초대하세요.
- 팀을 구성하려면 팀 설정 관리를 참조하세요.
참고: 조직의 관리자만 새 팀을 만들 수 있습니다.
팀 프로필 만들기
팀 프로필 페이지를 사용자 정의하여 소개를 표시하고 공개 또는 팀 멤버에게 보이는 리포트 및 프로젝트를 소개할 수 있습니다. 리포트, 프로젝트 및 외부 링크를 제시하세요.
- 최고의 공개 리포트를 소개하여 방문자에게 최고의 연구 결과를 강조하세요.
- 팀원이 더 쉽게 찾을 수 있도록 가장 활발한 프로젝트를 소개하세요.
- 회사 또는 연구실 웹사이트 및 게시한 논문에 외부 링크를 추가하여 협력자를 찾으세요.
팀 멤버 제거
팀 관리자는 팀 설정 페이지를 열고 떠나는 멤버의 이름 옆에 있는 삭제 버튼을 클릭할 수 있습니다. 사용자가 떠난 후에도 팀에 기록된 모든 run은 유지됩니다.
팀 역할 및 권한 관리
동료를 팀에 초대할 때 팀 역할을 선택하세요. 다음과 같은 팀 역할 옵션이 있습니다.
- 관리자: 팀 관리자는 다른 관리자나 팀 멤버를 추가하거나 제거할 수 있습니다. 모든 프로젝트를 수정할 수 있는 권한과 완전한 삭제 권한이 있습니다. 여기에는 run, 프로젝트, 아티팩트 및 스윕 삭제가 포함되지만 이에 국한되지는 않습니다.
- 멤버: 팀의 일반 멤버입니다. 기본적으로 관리자만 팀 멤버를 초대할 수 있습니다. 이 동작을 변경하려면 팀 설정 관리를 참조하세요.
팀 멤버는 자신이 만든 run만 삭제할 수 있습니다. 멤버 A와 B가 있다고 가정합니다. 멤버 B가 팀 B의 프로젝트에서 멤버 A가 소유한 다른 프로젝트로 run을 이동합니다. 멤버 A는 멤버 B가 멤버 A의 프로젝트로 이동한 run을 삭제할 수 없습니다. 관리자는 모든 팀 멤버가 만든 run과 스윕 run을 관리할 수 있습니다.
- 보기 전용 (엔터프라이즈 전용 기능): 보기 전용 멤버는 run, 리포트 및 워크스페이스와 같은 팀 내 자산을 볼 수 있습니다. 리포트를 팔로우하고 댓글을 달 수 있지만 프로젝트 개요, 리포트 또는 run을 생성, 편집 또는 삭제할 수는 없습니다.
- 사용자 정의 역할 (엔터프라이즈 전용 기능): 사용자 정의 역할을 사용하면 조직 관리자가 세분화된 엑세스 제어를 위해 추가 권한과 함께 보기 전용 또는 멤버 역할 중 하나를 기반으로 새 역할을 구성할 수 있습니다. 그런 다음 팀 관리자는 해당 사용자 정의 역할을 각 팀의 사용자에게 할당할 수 있습니다. 자세한 내용은 W&B 팀을 위한 사용자 정의 역할 소개를 참조하세요.
- 서비스 계정 (엔터프라이즈 전용 기능): 서비스 계정을 사용하여 워크플로우 자동화를 참조하세요.
W&B는 팀에 둘 이상의 관리자를 두는 것을 권장합니다. 기본 관리자를 사용할 수 없을 때 관리자 작업이 계속될 수 있도록 하는 것이 가장 좋습니다.
팀 설정
팀 설정을 사용하면 팀 및 팀 멤버에 대한 설정을 관리할 수 있습니다. 이러한 권한을 통해 W&B 내에서 팀을 효과적으로 감독하고 구성할 수 있습니다.
권한 |
보기 전용 |
팀 멤버 |
팀 관리자 |
팀 멤버 추가 |
|
|
X |
팀 멤버 제거 |
|
|
X |
팀 설정 관리 |
|
|
X |
레지스트리
다음 표에는 지정된 팀의 모든 프로젝트에 적용되는 권한이 나와 있습니다.
권한 |
보기 전용 |
팀 멤버 |
레지스트리 관리자 |
팀 관리자 |
에일리어스 추가 |
|
X |
X |
X |
레지스트리에 모델 추가 |
|
X |
X |
X |
레지스트리에서 모델 보기 |
X |
X |
X |
X |
모델 다운로드 |
X |
X |
X |
X |
레지스트리 관리자 추가 또는 제거 |
|
|
X |
X |
보호된 에일리어스 추가 또는 제거 |
|
|
X |
|
보호된 에일리어스에 대한 자세한 내용은 레지스트리 엑세스 제어를 참조하세요.
리포트
리포트 권한은 리포트를 생성, 보고 편집할 수 있는 엑세스 권한을 부여합니다. 다음 표에는 지정된 팀의 모든 리포트에 적용되는 권한이 나와 있습니다.
권한 |
보기 전용 |
팀 멤버 |
팀 관리자 |
리포트 보기 |
X |
X |
X |
리포트 만들기 |
|
X |
X |
리포트 편집 |
|
X (팀 멤버는 자신의 리포트만 편집할 수 있음) |
X |
리포트 삭제 |
|
X (팀 멤버는 자신의 리포트만 편집할 수 있음) |
X |
실험
다음 표에는 지정된 팀의 모든 실험에 적용되는 권한이 나와 있습니다.
권한 |
보기 전용 |
팀 멤버 |
팀 관리자 |
실험 메타데이터 보기 (기록 메트릭, 시스템 메트릭, 파일 및 로그 포함) |
X |
X |
X |
실험 패널 및 워크스페이스 편집 |
|
X |
X |
실험 기록 |
|
X |
X |
실험 삭제 |
|
X (팀 멤버는 자신이 만든 실험만 삭제할 수 있음) |
X |
실험 중지 |
|
X (팀 멤버는 자신이 만든 실험만 중지할 수 있음) |
X |
아티팩트
다음 표에는 지정된 팀의 모든 아티팩트에 적용되는 권한이 나와 있습니다.
권한 |
보기 전용 |
팀 멤버 |
팀 관리자 |
아티팩트 보기 |
X |
X |
X |
아티팩트 만들기 |
|
X |
X |
아티팩트 삭제 |
|
X |
X |
메타데이터 편집 |
|
X |
X |
에일리어스 편집 |
|
X |
X |
에일리어스 삭제 |
|
X |
X |
아티팩트 다운로드 |
|
X |
X |
시스템 설정 (W&B 서버만 해당)
시스템 권한을 사용하여 팀 및 팀 멤버를 만들고 관리하고 시스템 설정을 조정합니다. 이러한 권한을 통해 W&B 인스턴스를 효과적으로 관리하고 유지 관리할 수 있습니다.
권한 |
보기 전용 |
팀 멤버 |
팀 관리자 |
시스템 관리자 |
시스템 설정 구성 |
|
|
|
X |
팀 생성/삭제 |
|
|
|
X |
팀 서비스 계정 행동
- 트레이닝 환경에서 팀을 구성할 때 해당 팀의 서비스 계정을 사용하여 해당 팀 내의 비공개 또는 공개 프로젝트에 run을 기록할 수 있습니다. 또한 환경에 WANDB_USERNAME 또는 WANDB_USER_EMAIL 변수가 있고 참조된 사용자가 해당 팀의 구성원인 경우 해당 run을 사용자에게 귀속시킬 수 있습니다.
- 트레이닝 환경에서 팀을 구성 하지 않고 서비스 계정을 사용하는 경우 run은 해당 서비스 계정의 상위 팀 내에서 명명된 프로젝트에 기록됩니다. 이 경우에도 환경에 WANDB_USERNAME 또는 WANDB_USER_EMAIL 변수가 있고 참조된 사용자가 서비스 계정의 상위 팀의 구성원인 경우 run을 사용자에게 귀속시킬 수 있습니다.
- 서비스 계정은 상위 팀과 다른 팀의 비공개 프로젝트에 run을 기록할 수 없습니다. 프로젝트가
공개
프로젝트 가시성으로 설정된 경우에만 서비스 계정이 프로젝트에 run을 기록할 수 있습니다.
팀 트라이얼
W&B 요금제에 대한 자세한 내용은 요금 페이지를 참조하세요. 대시보드 UI 또는 내보내기 API를 사용하여 언제든지 모든 데이터를 다운로드할 수 있습니다.
개인 정보 설정
팀 설정 페이지에서 모든 팀 프로젝트의 개인 정보 설정을 확인할 수 있습니다.
app.wandb.ai/teams/your-team-name
고급 구성
보안 스토리지 커넥터
팀 수준 보안 스토리지 커넥터를 사용하면 팀에서 W&B와 함께 자체 클라우드 스토리지 버킷을 사용할 수 있습니다. 이는 매우 민감한 데이터 또는 엄격한 규정 준수 요구 사항이 있는 팀에 대해 더 나은 데이터 엑세스 제어 및 데이터 격리를 제공합니다. 자세한 내용은 보안 스토리지 커넥터를 참조하세요.
7 - System metrics
W&B에 의해 자동으로 로그되는 메트릭.
이 페이지에서는 W&B SDK에서 추적하는 시스템 메트릭에 대한 자세한 정보를 제공합니다.
wandb
는 시스템 메트릭을 15초마다 자동으로 기록합니다.
CPU
프로세스 CPU 백분율 (CPU)
사용 가능한 CPU 수로 정규화된 프로세스의 CPU 사용량 백분율입니다.
W&B는 이 메트릭에 cpu
태그를 할당합니다.
프로세스 CPU 스레드
프로세스에서 활용하는 스레드 수입니다.
W&B는 이 메트릭에 proc.cpu.threads
태그를 할당합니다.
디스크
기본적으로 사용량 메트릭은 /
경로에 대해 수집됩니다. 모니터링할 경로를 구성하려면 다음 설정을 사용하세요.
run = wandb.init(
settings=wandb.Settings(
x_stats_disk_paths=("/System/Volumes/Data", "/home", "/mnt/data"),
),
)
디스크 사용량 백분율
지정된 경로에 대한 총 시스템 디스크 사용량을 백분율로 나타냅니다.
W&B는 이 메트릭에 disk.{path}.usagePercent
태그를 할당합니다.
디스크 사용량
지정된 경로에 대한 총 시스템 디스크 사용량을 기가바이트(GB)로 나타냅니다.
엑세스 가능한 경로는 샘플링되고 각 경로에 대한 디스크 사용량(GB)이 샘플에 추가됩니다.
W&B는 이 메트릭에 disk.{path}.usageGB
태그를 할당합니다.
디스크 In
총 시스템 디스크 읽기(MB)를 나타냅니다.
초기 디스크 읽기 바이트는 첫 번째 샘플을 채취할 때 기록됩니다. 후속 샘플은 현재 읽기 바이트와 초기 값의 차이를 계산합니다.
W&B는 이 메트릭에 disk.in
태그를 할당합니다.
디스크 Out
총 시스템 디스크 쓰기(MB)를 나타냅니다.
디스크 In과 유사하게 초기 디스크 쓰기 바이트는 첫 번째 샘플을 채취할 때 기록됩니다. 후속 샘플은 현재 쓰기 바이트와 초기 값의 차이를 계산합니다.
W&B는 이 메트릭에 disk.out
태그를 할당합니다.
메모리
프로세스에 대한 메모리 Resident Set Size (RSS)를 메가바이트(MB) 단위로 나타냅니다. RSS는 메인 메모리(RAM)에 보관된 프로세스가 차지하는 메모리 부분입니다.
W&B는 이 메트릭에 proc.memory.rssMB
태그를 할당합니다.
프로세스 메모리 백분율
총 사용 가능한 메모리의 백분율로 프로세스의 메모리 사용량을 나타냅니다.
W&B는 이 메트릭에 proc.memory.percent
태그를 할당합니다.
메모리 백분율
총 사용 가능한 메모리의 백분율로 총 시스템 메모리 사용량을 나타냅니다.
W&B는 이 메트릭에 memory_percent
태그를 할당합니다.
사용 가능한 메모리
총 사용 가능한 시스템 메모리를 메가바이트(MB) 단위로 나타냅니다.
W&B는 이 메트릭에 proc.memory.availableMB
태그를 할당합니다.
네트워크
네트워크 Sent
네트워크를 통해 전송된 총 바이트를 나타냅니다.
초기 전송된 바이트는 메트릭이 처음 초기화될 때 기록됩니다. 후속 샘플은 현재 전송된 바이트와 초기 값의 차이를 계산합니다.
W&B는 이 메트릭에 network.sent
태그를 할당합니다.
네트워크 Received
네트워크를 통해 수신된 총 바이트를 나타냅니다.
네트워크 Sent와 유사하게 초기 수신된 바이트는 메트릭이 처음 초기화될 때 기록됩니다. 후속 샘플은 현재 수신된 바이트와 초기 값의 차이를 계산합니다.
W&B는 이 메트릭에 network.recv
태그를 할당합니다.
NVIDIA GPU
아래에 설명된 메트릭 외에도 프로세스 및/또는 해당 하위 항목이 특정 GPU를 사용하는 경우 W&B는 해당 메트릭을 gpu.process.{gpu_index}.{metric_name}
으로 캡처합니다.
GPU 메모리 활용률
각 GPU에 대한 GPU 메모리 활용률을 백분율로 나타냅니다.
W&B는 이 메트릭에 gpu.{gpu_index}.memory
태그를 할당합니다.
GPU 메모리 할당됨
각 GPU에 대해 총 사용 가능한 메모리의 백분율로 GPU 메모리가 할당되었음을 나타냅니다.
W&B는 이 메트릭에 gpu.{gpu_index}.memoryAllocated
태그를 할당합니다.
GPU 메모리 할당된 바이트
각 GPU에 대해 바이트 단위로 GPU 메모리가 할당되었음을 지정합니다.
W&B는 이 메트릭에 gpu.{gpu_index}.memoryAllocatedBytes
태그를 할당합니다.
GPU 활용률
각 GPU에 대한 GPU 활용률을 백분율로 반영합니다.
W&B는 이 메트릭에 gpu.{gpu_index}.gpu
태그를 할당합니다.
GPU 온도
각 GPU에 대한 GPU 온도를 섭씨로 나타냅니다.
W&B는 이 메트릭에 gpu.{gpu_index}.temp
태그를 할당합니다.
GPU 전력 사용량 (와트)
각 GPU에 대한 GPU 전력 사용량을 와트 단위로 나타냅니다.
W&B는 이 메트릭에 gpu.{gpu_index}.powerWatts
태그를 할당합니다.
GPU 전력 사용량 백분율
각 GPU에 대한 전력 용량의 백분율로 GPU 전력 사용량을 반영합니다.
W&B는 이 메트릭에 gpu.{gpu_index}.powerPercent
태그를 할당합니다.
GPU SM 클럭 속도
GPU의 SM(Streaming Multiprocessor) 클럭 속도를 MHz로 나타냅니다. 이 메트릭은 계산 작업을 담당하는 GPU 코어 내 처리 속도를 나타냅니다.
W&B는 gpu.{gpu_index}.smClock
태그를 이 메트릭에 할당합니다.
GPU 메모리 클럭 속도
GPU 메모리의 클럭 속도를 MHz로 나타냅니다. 이 속도는 GPU 메모리와 처리 코어 간의 데이터 전송 속도에 영향을 미칩니다.
W&B는 gpu.{gpu_index}.memoryClock
태그를 이 메트릭에 할당합니다.
GPU 그래픽 클럭 속도
GPU에서 그래픽 렌더링 작업의 기본 클럭 속도를 MHz로 나타냅니다. 이 메트릭은 시각화 또는 렌더링 작업 중 성능을 반영합니다.
W&B는 gpu.{gpu_index}.graphicsClock
태그를 이 메트릭에 할당합니다.
GPU 수정된 메모리 오류
W&B가 오류 검사 프로토콜을 통해 자동으로 수정하는 GPU의 메모리 오류 수를 추적하여 복구 가능한 하드웨어 문제를 나타냅니다.
W&B는 gpu.{gpu_index}.correctedMemoryErrors
태그를 이 메트릭에 할당합니다.
GPU 수정되지 않은 메모리 오류
W&B가 수정하지 않은 GPU의 메모리 오류 수를 추적하여 처리 안정성에 영향을 줄 수 있는 복구 불가능한 오류를 나타냅니다.
W&B는 gpu.{gpu_index}.unCorrectedMemoryErrors
태그를 이 메트릭에 할당합니다.
GPU 인코더 활용률
GPU의 비디오 인코더 활용률을 백분율로 나타냅니다. 이 값은 인코딩 작업(예: 비디오 렌더링)이 실행 중일 때의 로드를 나타냅니다.
W&B는 gpu.{gpu_index}.encoderUtilization
태그를 이 메트릭에 할당합니다.
AMD GPU
W&B는 AMD에서 제공하는 rocm-smi
툴의 출력에서 메트릭을 추출합니다 (rocm-smi -a --json
).
ROCm 6.x (최신) 및 5.x 형식이 지원됩니다. ROCm 형식에 대한 자세한 내용은 AMD ROCm documentation에서 확인하세요. 최신 형식에는 더 많은 세부 정보가 포함되어 있습니다.
AMD GPU 활용률
각 AMD GPU 장치에 대한 GPU 활용률을 백분율로 나타냅니다.
W&B는 이 메트릭에 gpu.{gpu_index}.gpu
태그를 할당합니다.
AMD GPU 메모리 할당됨
각 AMD GPU 장치에 대해 총 사용 가능한 메모리의 백분율로 GPU 메모리가 할당되었음을 나타냅니다.
W&B는 이 메트릭에 gpu.{gpu_index}.memoryAllocated
태그를 할당합니다.
AMD GPU 온도
각 AMD GPU 장치에 대한 GPU 온도를 섭씨로 나타냅니다.
W&B는 이 메트릭에 gpu.{gpu_index}.temp
태그를 할당합니다.
AMD GPU 전력 사용량 (와트)
각 AMD GPU 장치에 대한 GPU 전력 사용량을 와트 단위로 나타냅니다.
W&B는 이 메트릭에 gpu.{gpu_index}.powerWatts
태그를 할당합니다.
AMD GPU 전력 사용량 백분율
각 AMD GPU 장치에 대한 전력 용량의 백분율로 GPU 전력 사용량을 반영합니다.
W&B는 이 메트릭에 gpu.{gpu_index}.powerPercent
태그를 할당합니다.
Apple ARM Mac GPU
Apple GPU 활용률
Apple GPU 장치, 특히 ARM Mac에서 GPU 활용률을 백분율로 나타냅니다.
W&B는 이 메트릭에 gpu.0.gpu
태그를 할당합니다.
Apple GPU 메모리 할당됨
ARM Mac의 Apple GPU 장치에 대해 총 사용 가능한 메모리의 백분율로 GPU 메모리가 할당되었습니다.
W&B는 이 메트릭에 gpu.0.memoryAllocated
태그를 할당합니다.
Apple GPU 온도
ARM Mac의 Apple GPU 장치에 대한 GPU 온도를 섭씨로 나타냅니다.
W&B는 이 메트릭에 gpu.0.temp
태그를 할당합니다.
Apple GPU 전력 사용량 (와트)
ARM Mac의 Apple GPU 장치에 대한 GPU 전력 사용량을 와트 단위로 나타냅니다.
W&B는 이 메트릭에 gpu.0.powerWatts
태그를 할당합니다.
Apple GPU 전력 사용량 백분율
ARM Mac의 Apple GPU 장치에 대한 전력 용량의 백분율로 GPU 전력 사용량을 나타냅니다.
W&B는 이 메트릭에 gpu.0.powerPercent
태그를 할당합니다.
Graphcore IPU
Graphcore IPU(Intelligence Processing Units)는 기계 학습 작업을 위해 특별히 설계된 고유한 하드웨어 가속기입니다.
IPU 장치 메트릭
이러한 메트릭은 특정 IPU 장치에 대한 다양한 통계를 나타냅니다. 각 메트릭에는 장치를 식별하기 위한 장치 ID(device_id
)와 메트릭 키(metric_key
)가 있습니다. W&B는 이 메트릭에 ipu.{device_id}.{metric_key}
태그를 할당합니다.
메트릭은 Graphcore의 gcipuinfo
바이너리와 상호 작용하는 독점 gcipuinfo
라이브러리를 사용하여 추출됩니다. sample
메소드는 프로세스 ID(pid
)와 연결된 각 IPU 장치에 대해 이러한 메트릭을 가져옵니다. 시간이 지남에 따라 변경되는 메트릭 또는 장치의 메트릭을 처음 가져오는 경우에만 중복된 데이터 로깅을 방지하기 위해 기록됩니다.
각 메트릭에 대해 parse_metric
메소드를 사용하여 원시 문자열 표현에서 메트릭의 값을 추출합니다. 그런 다음 aggregate
메소드를 사용하여 여러 샘플에서 메트릭을 집계합니다.
다음은 사용 가능한 메트릭 및 해당 단위를 나열한 것입니다.
- 평균 보드 온도 (
average board temp (C)
): IPU 보드의 온도를 섭씨로 나타냅니다.
- 평균 다이 온도 (
average die temp (C)
): IPU 다이의 온도를 섭씨로 나타냅니다.
- 클럭 속도 (
clock (MHz)
): IPU의 클럭 속도를 MHz로 나타냅니다.
- IPU 전력 (
ipu power (W)
): IPU의 전력 소비량을 와트 단위로 나타냅니다.
- IPU 활용률 (
ipu utilisation (%)
): IPU 활용률을 백분율로 나타냅니다.
- IPU 세션 활용률 (
ipu utilisation (session) (%)
): 현재 세션에 특정한 IPU 활용률을 백분율로 나타냅니다.
- 데이터 링크 속도 (
speed (GT/s)
): 데이터 전송 속도를 초당 기가 전송 단위로 나타냅니다.
Google Cloud TPU
TPU(Tensor Processing Units)는 기계 학습 워크로드를 가속화하는 데 사용되는 Google의 맞춤형 ASIC(Application Specific Integrated Circuits)입니다.
TPU 메모리 사용량
TPU 코어당 현재 High Bandwidth Memory 사용량을 바이트 단위로 나타냅니다.
W&B는 이 메트릭에 tpu.{tpu_index}.memoryUsageBytes
태그를 할당합니다.
TPU 메모리 사용량 백분율
TPU 코어당 현재 High Bandwidth Memory 사용량을 백분율로 나타냅니다.
W&B는 이 메트릭에 tpu.{tpu_index}.memoryUsageBytes
태그를 할당합니다.
TPU 듀티 사이클
TPU 장치당 TensorCore 듀티 사이클 백분율입니다. 가속기 TensorCore가 활발하게 처리 중인 샘플 기간 동안의 시간 백분율을 추적합니다. 값이 클수록 TensorCore 활용률이 높다는 것을 의미합니다.
W&B는 이 메트릭에 tpu.{tpu_index}.dutyCycle
태그를 할당합니다.
AWS Trainium
AWS Trainium은 AWS에서 제공하는 특수 하드웨어 플랫폼으로, 기계 학습 워크로드 가속화에 중점을 둡니다. AWS의 neuron-monitor
툴은 AWS Trainium 메트릭을 캡처하는 데 사용됩니다.
Trainium Neuron Core 활용률
각 NeuronCore의 활용률을 코어별로 보고합니다.
W&B는 이 메트릭에 trn.{core_index}.neuroncore_utilization
태그를 할당합니다.
Trainium 호스트 메모리 사용량, 총계
호스트의 총 메모리 소비량을 바이트 단위로 나타냅니다.
W&B는 이 메트릭에 trn.host_total_memory_usage
태그를 할당합니다.
Trainium Neuron 장치 총 메모리 사용량
Neuron 장치의 총 메모리 사용량을 바이트 단위로 나타냅니다.
W&B는 trn.neuron_device_total_memory_usage)
태그를 이 메트릭에 할당합니다.
Trainium 호스트 메모리 사용량 분석:
다음은 호스트의 메모리 사용량 분석입니다.
- 애플리케이션 메모리 (
trn.host_total_memory_usage.application_memory
): 애플리케이션에서 사용하는 메모리입니다.
- 상수 (
trn.host_total_memory_usage.constants
): 상수에 사용되는 메모리입니다.
- DMA 버퍼 (
trn.host_total_memory_usage.dma_buffers
): DMA(Direct Memory Access) 버퍼에 사용되는 메모리입니다.
- 텐서 (
trn.host_total_memory_usage.tensors
): 텐서에 사용되는 메모리입니다.
Trainium Neuron Core 메모리 사용량 분석
각 NeuronCore에 대한 자세한 메모리 사용량 정보:
- 상수 (
trn.{core_index}.neuroncore_memory_usage.constants
)
- 모델 코드 (
trn.{core_index}.neuroncore_memory_usage.model_code
)
- 모델 공유 스크래치패드 (
trn.{core_index}.neuroncore_memory_usage.model_shared_scratchpad
)
- 런타임 메모리 (
trn.{core_index}.neuroncore_memory_usage.runtime_memory
)
- 텐서 (
trn.{core_index}.neuroncore_memory_usage.tensors
)
OpenMetrics
커스텀 정규식 기반 메트릭 필터 지원을 통해 OpenMetrics / Prometheus 호환 데이터를 노출하는 외부 엔드포인트에서 메트릭을 캡처하고 기록하여 사용된 엔드포인트에 적용합니다.
이 리포트에서 NVIDIA DCGM-Exporter로 GPU 클러스터 성능을 모니터링하는 특정 경우에 이 기능을 사용하는 방법에 대한 자세한 예제를 참조하세요.