在本教學課程中,您會使用 Model Garden 將開放式模型 Gemma 2B 部署至採用 TPU 的 Vertex AI 端點。您必須先將模型部署至端點,才能使用模型進行線上預測。部署過程中,系統會將實體資源與模型建立關聯,讓模型以低延遲的方式提供線上預測結果。
部署 Gemma 2B 模型後,您可以使用 PredictionServiceClient
推論訓練好的模型,以取得線上預測。線上預測是對部署至端點的模型發出的同步要求。
使用 Model Garden 部署 Gemma
您將 Gemma 2B 模型部署至專為中小規模訓練最佳化的 ct5lp-hightpu-1t
Compute Engine 機器類型。這部機器有一個 TPU v5e 加速器。如要進一步瞭解如何使用 TPU 訓練模型,請參閱 Cloud TPU v5e 訓練。
在本教學課程中,您會使用 Model Garden 中的模型資訊卡,部署經過指令微調的 Gemma 2B 開放式模型。具體模型版本為 gemma2-2b-it
,其中 -it
代表指令調整。
Gemma 2B 模型參數較少,因此資源需求較低,部署彈性也較高。
前往 Google Cloud 控制台的「Model Garden」頁面。
點按「Gemma 2」Gemma 2模型資訊卡。
按一下「Deploy」(部署),開啟「Deploy model」(部署模型)窗格。
在「部署模型」窗格中,指定下列詳細資料。
在「部署環境」中,按一下「Vertex AI」。
在「Deploy model」(部署模型) 部分:
在「Resource ID」(資源 ID) 中選擇
gemma-2b-it
。接受「模型名稱」和「端點名稱」的預設值。例如:
- 模型名稱:
gemma2-2b-it-1234567891234
- 端點名稱:
gemma2-2b-it-mg-one-click-deploy
請記下端點名稱,您需要這個 ID,才能找出程式碼範例中使用的端點 ID。
- 模型名稱:
在「部署作業設定」部分:
接受「基本」設定的預設選項。
針對「Region」(區域),請接受預設值,或是從清單中選擇區域。請記下這個區域。程式碼範例會用到這項資訊。
在「Machine spec」(機器規格) 中,選擇以 TPU 為後端的執行個體:
ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t)
。
按一下「Deploy」(部署)。部署完成後,您會收到一封電子郵件,內含新端點的詳細資料。您也可以依序點選「線上預測」>「端點」,然後選取所在區域,查看端點詳細資料。
使用 PredictionServiceClient 推論 Gemma 2B
部署 Gemma 2B 後,您可以使用 PredictionServiceClient
,針對「為什麼天空是藍的?」提示取得線上預測。
程式碼參數
您必須更新 PredictionServiceClient
程式碼範例中的下列項目。
PROJECT_ID
:如要找出專案 ID,請按照下列步驟操作。前往 Google Cloud 控制台的「Welcome」(歡迎使用) 頁面。
在頁面頂端的專案挑選器中選取專案。
專案名稱、專案編號和專案 ID 會顯示在「歡迎」標題下方。
ENDPOINT_REGION
:這是部署端點的區域。ENDPOINT_ID
:如要找出端點 ID,請在控制台中查看,或執行gcloud ai endpoints list
指令。您需要「Deploy model」(部署模型) 窗格中的端點名稱和區域。控制台
如要查看端點詳細資料,請依序點選「線上預測」>「端點」,然後選取您的區域。請記下「
ID
」欄中顯示的號碼。gcloud
您可以執行
gcloud ai endpoints list
指令,查看端點詳細資料。gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
輸出內容如下所示。
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
程式碼範例
在您所用語言的範例程式碼中,更新 PROJECT_ID
、ENDPOINT_REGION
和 ENDPOINT_ID
。然後執行程式碼。
Python
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Python API 參考說明文件。
Node.js
在試用這個範例之前,請先按照Node.js使用用戶端程式庫的 Vertex AI 快速入門中的操作說明進行設定。 詳情請參閱 Vertex AI Node.js API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Java
在試用這個範例之前,請先按照Java使用用戶端程式庫的 Vertex AI 快速入門中的操作說明進行設定。 詳情請參閱 Vertex AI Java API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Go
在試用這個範例之前,請先按照Go使用用戶端程式庫的 Vertex AI 快速入門中的操作說明進行設定。 詳情請參閱 Vertex AI Go API 參考說明文件。
如要向 Vertex AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。