ML 診断で ML の実行を表示する

ML 実行は、ML スクリプトまたはパイプラインの 1 回の完全な実行です。ML Diagnostics を使用すると、CLI または SDK を使用して、 Google Cloud コンソールで ML 実行を表示できます。

Cluster Director で ML の実行をすべて表示するには:

  1. Google Cloud コンソールで、[Cluster Director] ページに移動します。
  2. [診断] タブをクリックします。

Cluster Director の診断に移動

Google Kubernetes Engine で実行されたすべての ML 実行を表示するには:

  1. Google Cloud コンソールで [Kubernetes] ページに移動します。
  2. ナビゲーション メニューで [AI/ML] をクリックします。
  3. [診断] タブをクリックします。

GKE AI/ML の診断に移動する

Cluster Director と GKE の両方で、次の情報が表示されます。

  • 実行の概要: すべての ML 実行の概要情報を含むリストビュー テーブル。
  • 実行の詳細: 各実行の実行の詳細(構成や実行情報など)。
  • 指標の時系列グラフ: モデル指標、パフォーマンス指標、システム指標など、すべての指標。これらの指標は、ログ エクスプローラで確認することもできます。metrics.record() メソッドで記録された指標はログエントリとして書き込まれ、フィルタリングしたり、ログベースの指標の作成に使用したりできます。
  • プロファイリング情報: 特定の実行のすべてのプロファイル セッションを含む [Profiles] タブ。XProf ビューアへのリンクが含まれています。これには、プログラムによるプロファイル キャプチャとオンデマンド プロファイル キャプチャの両方が含まれます。ユーザー インターフェースからオンデマンド プロファイル セッションを直接キャプチャすることもできます。
  • Google Cloud コンソールからのオンデマンド プロファイリング: [プロファイル] タブで、 Google Cloud コンソールからオンデマンド プロファイル セッションを直接キャプチャできます。[新しいプロファイル セッションをキャプチャ] ボタンをクリックし、プロファイル セッションのキャプチャ期間を指定して、プロファイルをキャプチャする必要なホストを選択します。ワークロードを実行しているホストは、手動で入力しなくてもテーブルに自動的に入力されます。指定したオンデマンド キャプチャ時間が経過すると、プロファイル セッションが [セッション] テーブルに自動的に表示されます。