ローカルでのトレーニング、Vertex AI の外部でのトレーニング、同僚によって作成されたサンプルログ、または別の Vertex AI TensorBoard インスタンスを使用して作成された既存のログを Vertex AI TensorBoard インスタンスにアップロードできます。ログは、複数の Vertex AI TensorBoard インスタンス間で共有できます。
Vertex AI TensorBoard には、TensorBoard ログをアップロードするための Google Cloud CLI と Vertex AI SDK for Python が用意されています。 Google Cloudに接続できる任意の環境からログをアップロードできます。
Vertex AI SDK for Python
継続的なモニタリング
継続的なモニタリングの場合は、トレーニングの開始時に aiplatform.start_upload_tb_log を呼び出します。アップロード用の新しいスレッドが開きます。このスレッドは、ディレクトリ内の新しいデータをモニタリングし、Vertex AI TensorBoard テストにアップロードします。トレーニングが完了したら、end_upload_tb_log を呼び出してアップローダー スレッドを終了します。
なお、start_upload_tb_log() を呼び出した後は、例外がスローされても、スレッドは存続します。スレッドを確実にシャットダウンさせるには、try ステートメントの start_upload_tb_log() の後と end_upload_tb_log() の前にコードを置き、finally で end_upload_tb_log() を呼び出します。
Python
tensorboard_experiment_name: アップロード先の TensorBoard テストの名前。logdir: TensorBoard ログを確認するディレクトリの場所。tensorboard_id: TensorBoard インスタンス ID。設定しない場合、aiplatform.initのtensorboard_idが使用されます。project:プロジェクト ID は、 Google Cloud コンソールの [ようこそ] ページで確認できます。location: TensorBoard インスタンスが配置されているロケーション。experiment_display_name: テストの表示名。run_name_prefix: 存在する場合、この呼び出しによって作成されたすべての実行には、この値の先頭にそれらの名前が付けられます。description: テストに割り当てる文字列の説明。
1 回限りのロギング
TensorBoard ログをアップロードする
TensorBoard ログの 1 回限りのアップロードを実行するには、aiplatform.upload_tb_log を呼び出します。logdir に既存のデータがアップロードされ、直ちに結果が返されます。
Python
tensorboard_experiment_name: TensorBoard テストの名前。logdir: TensorBoard ログを確認するディレクトリの場所。tensorboard_id: TensorBoard インスタンス ID。設定しない場合、aiplatform.initのtensorboard_idが使用されます。project:これらのプロジェクト ID は、 Google Cloud コンソールの [ようこそ] ページで確認できます。location: TensorBoard インスタンスが配置されているロケーション。experiment_display_name: テストの表示名。run_name_prefix: 存在する場合、この呼び出しによって作成されたすべての実行には、この値の先頭にそれらの名前が付けられます。description: テストに割り当てる文字列の説明。verbosity: 統計情報の詳細度のレベル(整数)。サポートされる値: 0 - アップロードの統計情報は出力されません。1 - データのアップロード中にアップロードの統計情報を出力します(デフォルト)。
プロファイルのログをアップロードする
aiplatform.upload_tb_log を呼び出して、TensorBoard プロファイル ログをテストにアップロードします。
Python
experiment_name: TensorBoard テストの名前。logdir: TensorBoard ログを確認するディレクトリの場所。project:これらのプロジェクト ID は、 Google Cloud コンソールの [ようこそ] ページで確認できます。location: TensorBoard インスタンスが配置されているロケーション。run_name_prefix: プロファイル データの場合、これは実行接頭辞です。LOG_DIR 内のディレクトリ形式は、以下の対象と一致している必要があります。/RUN_NAME_PREFIX/plugins/profile/YYYY_MM_DD_HH_SS/
allowed_plugins: 許可する追加のプラグインのリスト。プロファイル データをアップロードする場合は、"profile"を含める必要があります。
CLI
- (省略可)専用の仮想環境を作成して、Vertex AI TensorBoard アップローダーの Python CLI をインストールします。
python3 -m venv PATH/TO/VIRTUAL/ENVIRONMENT source PATH/TO/VIRTUAL/ENVIRONMENT/bin/activate
PATH/TO/VIRTUAL/ENVIRONMENT: 専用の仮想環境。
- Vertex AI SDK を使用して Vertex AI TensorBoard パッケージをインストールします。
pip install -U pip pip install google-cloud-aiplatform[tensorboard]
- TensorBoard ログをアップロードする
- 時系列データと Blob データ
tb-gcp-uploader --tensorboard_resource_name \
TENSORBOARD_RESOURCE_NAME\ --logdir=LOG_DIR\ --experiment_name=TB_EXPERIMENT_NAME--one_shot=True - プロファイル データ
tb-gcp-uploader \ --tensorboard_resource_name
TENSORBOARD_RESOURCE_NAME\ --logdir=LOG_DIR--experiment_name=TB_EXPERIMENT_NAME\ --allowed_plugins="profile" --run_name_prefix=RUN_NAME_PREFIX\ --one_shot=True
- 時系列データと Blob データ
-
TENSORBOARD_RESOURCE_NAME: Vertex AI TensorBoard インスタンスを完全に識別するために使用される TensorBoard リソース名。 LOG_DIR: イベントログの場所。ローカル ファイル システムまたは Cloud Storage のいずれかになります。TB_EXPERIMENT_NAME: TensorBoard テストの名前(例:test-experiment)。RUN_NAME_PREFIX: プロファイル データの場合、これは実行接頭辞です。LOG_DIR内のディレクトリ形式は、次の対象と一致する必要があります。/RUN_NAME_PREFIX/plugins/profile/YYYY_MM_DD_HH_SS/
デフォルトでは、アップローダ CLI は無期限に実行され、LOG_DIR の変更をモニタリングし、新しく追加されたログをアップロードします。--one_shot=True は、この動作を無効にします。詳細を確認するには、tb-gcp-uploader --help を実行してください。