設定 Cloud TPU 環境

如要使用 Cloud TPU 資源訓練模型或對模型執行推論,請先完成下列步驟:

設定 Google Cloud 專案

您必須擁有 Google Cloud 帳戶和專案,才能使用 Cloud TPU。

  1. Google Cloud 控制台登入 Google 帳戶,或註冊新帳戶

  2. 建立 Google Cloud 專案。詳情請參閱「建立專案」一文。

  3. 為 Google Cloud 專案啟用計費功能

    所有 Google Cloud 用量都必須設定帳單。只有在開始使用 Google Cloud 資源後才需要付費。詳情請參閱 Cloud Billing 說明文件

    所有 Cloud TPU 版本的使用費用,皆依據 Cloud TPU 定價頁面顯示的標準區域價格計費。

  4. 安裝 Google Cloud CLI。Google Cloud CLI 是一套程式庫和工具,可存取及管理 Google Cloud 資源和服務。

  5. 設定您安裝的 gcloud 指令 (屬於 Google Cloud CLI)。

    執行下列指令,將 gcloud 設為使用您的 Google Cloud專案。

    $ gcloud config set project PROJECT_ID
  6. 確認您已為 Google Cloud 專案啟用計費功能

    所有 Google Cloud 用量都必須設定帳單。只有在開始使用 Google Cloud 資源後才需要付費。詳情請參閱 Cloud Billing 說明文件

    所有 Cloud TPU 版本的使用費用,皆依 Cloud TPU 定價頁面顯示的標準區域價格計費。

設定環境以使用 Cloud TPU

要求 Cloud TPU 之前,請務必啟用 Cloud TPU API,並確認您有權管理專案中的存取權,以及建立 Cloud TPU。建議您建立使用者管理的服務帳戶,並附加至 TPU。

  1. 從 Google Cloud 控制台啟用 Cloud TPU API,或在 Cloud Shell 中使用 gcloud CLI:

    gcloud

    $ gcloud services enable tpu.googleapis.com

    控制台

    1. 前往 Google Cloud 控制台的 Cloud TPU API 頁面。

    前往 Cloud TPU API 頁面

    1. 按一下「啟用」
  2. 請確認您在專案中具備下列角色:

    按照「查看目前的存取權」一節的指示操作,即可查看哪些主體有權存取專案、資料夾或機構。如要查看自己的存取權,請在「主體」欄中找出包含您電子郵件地址的資料列。如果該欄中沒有您的電子郵件地址,表示您沒有任何角色。在電子郵件地址所在列的「角色」欄中,確認角色清單是否包含必要角色。

    如果沒有必要角色,請授予角色,或請管理員授予角色。

  3. 建立 Cloud TPU 服務代理:

    服務代理人是一種服務身分,由 Google 維護,Cloud TPU 服務會使用這類身分在您的 Google Cloud 專案中執行作業。舉例來說,服務代理程式可用於建立及管理 Cloud TPU 資源。

      $ gcloud beta services identity create --service tpu.googleapis.com --project PROJECT_ID
  4. 建立 TPU 服務帳戶:

    服務帳戶可做為 TPU VM 的憑證。附加至服務帳戶的角色會授予資源的存取權。 Google Cloud 建議您使用使用者管理的服務帳戶,並只授予 TPU VM 所需的權限。使用使用者管理的服務帳戶時,您必須在透過 --service-account 標記建立 TPU VM 時指定該帳戶。

    1. 按照「建立服務帳戶」一文中的操作說明,建立使用者管理的服務帳戶。

    2. 請按照「管理專案、資料夾和機構的存取權」一文中的操作說明,授予服務帳戶存取 TPU 將存取的 Google Cloud 服務。建議您使用下列角色,讓 TPU 存取常用的Google Cloud 服務。

準備建立 Cloud TPU

建立 Cloud TPU 前,請先申請配額。您也應考慮使用已加入佇列的資源,以及要用來設定 TPU 的參數。

  1. 選擇使用方式。

    使用方式是指要求 Cloud TPU 容量的方法。根據下列因素選擇消費方式:

    • 您需要運算容量的速度
    • 容量需求時間
    • 您是否需要固定或彈性時間的容量
    • 容量是否可搶占
    • 定價

    詳情請參閱 Cloud TPU 消耗選項

  2. 要求配額:

    TPU 配額是指您可透過Google Cloud 專案使用的 Cloud TPU 核心數量上限。每個 TPU 版本都有專屬配額。如要建立 Cloud TPU,您的 Google Cloud 專案必須具備配額,才能建立所需版本的 TPU、指定 TPU 大小,以及選擇建立 TPU 的區域。如要進一步瞭解配額分配、配額類型和如何要求配額,請參閱「配額」。

    如果您使用 Google Kubernetes Engine 或 Vertex AI 建立 TPU,則需要這些服務的配額。如要進一步瞭解 GKE 配額,請參閱「使用 GKE 規劃 TPU 設定」。如要進一步瞭解 Vertex AI 配額,請參閱「Vertex AI 配額與限制」。

  3. 決定是否要使用排入佇列的資源

    建議您將 Cloud TPU 建立為佇列資源。排隊資源可讓您在容量可用時取得容量。您可以指定要求應填寫的開始和結束時間 (選填)。

    您可以使用不同的 gcloud CLI 指令處理佇列資源。詳情請參閱已加入佇列的資源使用者指南

  4. 決定 Cloud TPU 建立參數:

    • 區域:將 --zone 標記設為要建立 TPU 的區域。您必須在這個區域中分配配額。詳情請參閱「TPU 地區和區域」。

    • TPU 設定:如不需要指定自訂拓撲,或使用 TPU v2 或 v3,請將 --accelerator-type 標記設為 vVERSION-TENSORCORES。將 VERSION 替換為要使用的 TPU 版本號碼。將 TENSORCORES 替換為要使用的 TensorCore 數量。

      如要自訂 TPU 的實體拓撲,請使用 --version--topology 旗標。將 --version 旗標設為要使用的 TPU 版本。將 --topology 標記設為您要使用的拓撲。

      如要進一步瞭解 TPU 設定,包括支援的設定和拓撲變體,請參閱「TPU 版本」。

    • 軟體版本:如要要求佇列資源,請將 --runtime-version 旗標設為要使用的軟體版本名稱。否則,請使用 --version 旗標。TPU 軟體版本適用於 TensorFlow、PyTorch 和 JAX 架構。如要進一步瞭解支援的軟體版本,請參閱「TPU VM 軟體版本」。

    • 服務帳戶:如果已建立服務帳戶,請將 --service-account 設為服務帳戶的電子郵件地址,將服務帳戶附加至 TPU。如果留空,系統會使用預設的 Compute Engine 服務帳戶

    • 配額類型:新增與要使用的配額類型對應的旗標:

      配額類型 標記
      預留 --reserved
      Spot VM --spot
      可先占 (不適用於佇列資源,請改用 --spot) --preemptible
      隨選 不需要額外標記
    • 進階設定:您可以在要求中新增其他標記,藉此設定 TPU。詳情請參閱 gcloud compute tpus tpu-vm create 說明文件和下列各節:

如需建立 Cloud TPU 的範例,請參閱「開始使用」。

後續步驟

  1. 瞭解如何建立及管理 VM 和 TPU 資源
  2. 執行 Cloud TPU 快速入門導覽課程