建立具有一或多個 GPU 的 Compute Engine 執行個體之後,系統需有 NVIDIA 裝置驅動程式,應用程式才能存取該裝置。確認 GPU 執行個體有足夠的可用磁碟空間。建立新的 GPU 執行個體時,開機磁碟至少應選擇 40 GB。
如要安裝驅動程式,可以選擇下列其中一個選項:
如需 GPU 來加速處理 3D 繪圖,例如遠端桌面或遊戲,請參閱「安裝 NVIDIA RTX 虛擬工作站 (vWS) 的驅動程式」。
如要執行其他工作負載,請按照本文中的操作說明安裝 NVIDIA 驅動程式。
事前準備
-
如果尚未設定驗證,請先完成設定。
驗證可確認您的身分,以便存取 Google Cloud 服務和 API。如要從本機開發環境執行程式碼或範例,請選取下列其中一個選項,向 Compute Engine 進行驗證:
選取這個頁面上的分頁,瞭解如何使用範例:
控制台
使用 Google Cloud 控制台存取 Google Cloud 服務和 API 時,無須設定驗證。
gcloud
-
安裝 Google Cloud CLI。 完成後,執行下列指令來初始化 Google Cloud CLI:
gcloud init若您採用的是外部識別資訊提供者 (IdP),請先使用聯合身分登入 gcloud CLI。
-
- 設定預設地區和區域。
REST
如要在本機開發環境中使用本頁的 REST API 範例,請使用您提供給 gcloud CLI 的憑證。
安裝 Google Cloud CLI。
若您採用的是外部識別資訊提供者 (IdP),請先使用聯合身分登入 gcloud CLI。
詳情請參閱 Google Cloud 驗證說明文件中的「使用 REST 進行驗證」。
NVIDIA 驅動程式、CUDA 工具包和 CUDA 執行階段版本
環境中可能需要不同版本的驅動程式和執行階段元件。包括下列元件:
- NVIDIA 驅動程式
- CUDA 工具包
- CUDA 執行階段
安裝這些元件時,您可以視需求設定環境。舉例來說,如果您使用舊版 TensorFlow,而該版本最適合搭配舊版 CUDA 工具包,但您想使用的 GPU 需要新版 NVIDIA 驅動程式,則可以安裝舊版 CUDA 工具包和新版 NVIDIA 驅動程式。
不過,您必須確保 NVIDIA 驅動程式和 CUDA 工具包版本相容。如要瞭解 CUDA Toolkit 和 NVIDIA 驅動程式的相容性,請參閱 NVIDIA CUDA 相容性文件。
瞭解 NVIDIA 驅動程式分支版本
NVIDIA 提供下列三種驅動程式分支版本:
- 長期支援分支 (LTSB):這個分支著重於穩定性,並盡量減少維護作業,支援生命週期長達三年。Google 測試及驗證的最新 LTSB 是 R580,支援期限至 2028 年 8 月。
- 正式版分支 (PB):這個分支提供效能提升功能,並支援最新硬體。這個版本完全支援生產工作負載,但支援生命週期較短,最長為一年。Google 測試及驗證的最新 PB 是 R570,支援期限將於 2026 年 2 月結束。
- 新功能分支 (NFB):這個分支適用於早期採用者測試新功能,不建議用於正式環境。
如為正式環境工作負載,請使用正式環境分支或長期支援分支。如要進一步瞭解 NVIDIA 分支版本,請參閱 NVIDIA 說明文件。
建議使用的 NVIDIA 驅動程式分支版本
請參閱本節中的表格,判斷最適合 GPU 機型的 NVIDIA 驅動程式分支版本。
下表中的 N/A 表示指定的作業系統無法在該機型上執行。
| 機器類型 | GPU 型號 | 支援的分支版本 (依 NVIDIA 而定) | 建議分支版本 (EOS 日期) |
建議分支的最低驅動程式 |
|---|---|---|---|---|
| A4X Max | NVIDIA Blackwell GB300 Superchip | R580 以上版本 | R580 (2028 年 8 月) |
|
| A4X | NVIDIA Blackwell GB200 Superchip | R570 以上版本 | R580 (2028 年 8 月) |
|
| A4 | NVIDIA Blackwell B200 | R570 以上版本 | R580 (2028 年 8 月) |
|
| A3 Ultra | NVIDIA H200 | R570 以上版本 | R580 (2028 年 8 月) |
|
| A3 Mega、High、Edge | NVIDIA H100 | R535 以上版本 | R535 (2026 年 6 月) |
|
| G4 | NVIDIA RTX PRO 6000 | R580 以上版本 | R580 (2028 年 8 月) |
|
| G4 (分數 GPU) (預先發布版) | NVIDIA RTX PRO 6000 | R580 以上版本 | R580 (2028 年 8 月) |
|
| G2 | NVIDIA L4 | R535 以上版本 | R535 (2026 年 6 月) |
|
| A2 Standard、A2 Ultra | NVIDIA A100 | R535 以上版本 | R535 (2026 年 6 月) |
|
| N1 | NVIDIA T4 | R535 以上版本 | R535 (2026 年 6 月) |
|
| N1 | NVIDIA V100、P100、P4 | R35 到 R5801 | R535 (2026 年 6 月) |
|
1NVIDIA 宣布 R580 是最後一個支援 Pascal (P4 和 P100) 和 Volta 架構 (V100) 的驅動程式分支版本。
使用 CUDA Toolkit 指南在運算執行個體上安裝 GPU 驅動程式
如要在大多數運算執行個體上安裝 NVIDIA 驅動程式,其中一種方法是安裝 CUDA Toolkit。
如要安裝 CUDA Toolkit,請完成下列步驟:
選取支援所需驅動程式版本的 CUDA Toolkit 版本。
機器類型 GPU 型號 建議使用的 CUDA Toolkit A4X Max NVIDIA Blackwell GB300 Superchip CUDA 13.0 以上版本 A4X NVIDIA Blackwell GB200 Superchip CUDA 12.8.1 以上版本 A4 NVIDIA Blackwell B200 CUDA 12.8.1 以上版本 A3 Ultra NVIDIA H200 CUDA 12.4 以上版本 G4 NVIDIA RTX PRO 6000 CUDA 13.1 以上版本 G2 NVIDIA L4 CUDA 12.2.2 以上版本 A3 Mega、High、Edge NVIDIA H100 CUDA 12.2.2 以上版本 A2 Standard、A2 Ultra NVIDIA A100 CUDA 12.2.2 以上版本 N1 NVIDIA T4 CUDA 12.2.2 以上版本 N1 NVIDIA V100、P100、P4 CUDA 12.2.2 至 CUDA 12 (最終版本)1 1CUDA Toolkit 12 是最後一個支援 Pascal (P4 和 P100) 和 Volta 架構 (V100) 的版本。NVIDIA 宣布,從 CUDA Toolkit 13.0 主要版本發布開始,將移除這些架構的離線編譯和程式庫支援。詳情請參閱 NVIDIA 13.0 驅動程式版本資訊。
在 GPU 執行個體上,下載並安裝 CUDA 工具包。如要尋找 CUDA Toolkit 套件和安裝說明,請參閱 NVIDIA 說明文件中的 CUDA Toolkit Archive。
使用安裝指令碼在運算執行個體上安裝 GPU 驅動程式
您可以使用下列指令碼自動執行安裝程序。 如要查看這些指令碼,請參閱 GitHub 存放區。
Linux
請按照這些操作說明,在執行中的運算執行個體上安裝 GPU 驅動程式。
支援的作業系統
Linux 安裝指令碼已在下列作業系統上測試:
- Debian 12 和 13
- Red Hat Enterprise Linux (RHEL) 8 和 9
- Rocky Linux 8 和 9
- Ubuntu 22 和 24
如果您在其他作業系統上使用這個指令碼,安裝作業可能會失敗。這個指令碼可以安裝 NVIDIA 驅動程式和 CUDA Toolkit。
如要安裝 GPU 驅動程式和 CUDA Toolkit,請完成下列步驟:
如果您的運算執行個體已安裝 2.38.0 以上版本的 Ops Agent,並收集 GPU 指標,您必須先停止代理程式,才能使用這個安裝指令碼安裝或升級 GPU 驅動程式。
如要停止 Ops Agent,請執行下列指令:
sudo systemctl stop google-cloud-ops-agent
確認作業系統已安裝 Python 3。
下載安裝指令碼。
curl -L https://storage.googleapis.com/compute-gpu-installation-us/installer/latest/cuda_installer.pyz --output cuda_installer.pyz
執行安裝指令碼。
sudo python3 cuda_installer.pyz install_driver --installation-mode=INSTALLATION_MODE --installation-branch=BRANCH
- INSTALLATION_MODE:安裝方法。請使用下列其中一個值:
repo:(預設) 從官方 NVIDIA 套件存放區安裝驅動程式。binary:使用二進位安裝套件安裝驅動程式。
- BRANCH:要安裝的驅動程式分支版本。請使用下列其中一個值:
prod:(預設) 正式版分支。這個分支版本適用於企業和資料中心 GPU 的正式環境。nfb:新的功能分支版本。這個分支版本包含早期採用者的最新更新。不建議將這個分支版本用於正式環境。lts:長期支援分支版本。這個分支的維護時間比一般正式版分支更長。
指令碼需要一些時間才能執行完畢。這項操作會重新啟動運算執行個體。 運算執行個體重新啟動後,請再次執行指令碼,繼續安裝作業。
- INSTALLATION_MODE:安裝方法。請使用下列其中一個值:
驗證安裝。請參閱「確認 GPU 驅動程式已順利安裝」。
您也可以使用這項工具安裝 CUDA Toolkit。如要安裝 CUDA Toolkit,請執行下列指令:
sudo python3 cuda_installer.pyz install_cuda --installation-mode=INSTALLATION_MODE --installation-branch=BRANCH
請務必使用與安裝驅動程式時相同的 INSTALLATION_MODE 和 BRANCH 值。
指令碼需要一段時間才能執行完畢。這項操作會重新啟動運算執行個體。 運算執行個體重新啟動後,請再次執行指令碼,繼續安裝作業。
確認 CUDA 工具包安裝成功。
python3 cuda_installer.pyz verify_cuda
安裝完成後,您必須重新啟動運算執行個體。
Linux (開機指令碼)
按照這些操作說明,在運算執行個體啟動時安裝 GPU 驅動程式。
支援的作業系統
Linux 安裝指令碼已在下列作業系統上測試:
- Debian 12 和 13
- Red Hat Enterprise Linux (RHEL) 8 和 9
- Rocky Linux 8 和 9
- Ubuntu 22 和 24
如果您在其他作業系統上使用這個指令碼,安裝作業可能會失敗。這個指令碼可以安裝 NVIDIA 驅動程式和 CUDA Toolkit。
使用下列開機指令碼,自動安裝驅動程式和 CUDA Toolkit:
您可以在安裝指令中附加 --installation-mode INSTALLATION_MODE 和 --installation-branch BRANCH 標記,指明要安裝的模式和驅動程式分支版本。
- INSTALLATION_MODE:安裝方法。請使用下列其中一個值:
repo:(預設) 從官方 NVIDIA 套件存放區安裝驅動程式。binary:使用二進位安裝套件安裝驅動程式。
- BRANCH:要安裝的驅動程式分支版本。請使用下列其中一個值:
prod:(預設) 正式版分支。這個分支版本適用於企業和資料中心 GPU 的正式環境。nfb:新的功能分支版本。這個分支版本包含早期採用者的最新更新。不建議將這個分支版本用於正式環境。lts:長期支援分支版本。這個分支的維護時間比一般正式版分支更長。
Windows
這個安裝指令碼可用於啟用安全啟動的 GPU 執行個體。支援 Windows Server 2019 以上版本。
這項指令碼會安裝與 NVIDIA RTX 虛擬工作站 (vWS) 相容的驅動程式。如果沒有 vWS 授權,執行個體就無法使用 vWS 功能。
以系統管理員身分開啟 PowerShell 終端機,然後完成下列步驟:
下載指令碼。
Invoke-WebRequest https://github.com/GoogleCloudPlatform/compute-gpu-installation/raw/main/windows/install_gpu_driver.ps1 -OutFile C:\install_gpu_driver.ps1
執行指令碼。
C:\install_gpu_driver.ps1
指令碼需要一些時間才能執行完畢。安裝程序期間不會顯示任何命令提示。指令碼結束後,驅動程式就會安裝完成。
這段指令碼會在 VM 的下列預設位置安裝驅動程式:
C:\Program Files\NVIDIA Corporation\。驗證安裝。請參閱「確認 GPU 驅動程式已順利安裝」。
安裝 GPU 驅動程式 (安全啟動 VM)
以下說明適用於在採用安全啟動的 Linux VM 上安裝 GPU 驅動程式。
如果安全啟動執行個體已連結 NVIDIA RTX 虛擬工作站 (vWS) 版本的 GPU,您就無法使用這些程序安裝驅動程式。
如果您使用的是 Windows VM 或未採用安全啟動的 Linux VM,請改為參閱下列其中一項操作說明:
在 Linux VM 上安裝驅動程式與在安全啟動 VM 上安裝不同,因為這些 VM 需要所有核心模組都具有可信任的憑證簽章。
支援 GPU 的機型
本節中的程序支援 Compute Engine 提供的所有 GPU 機器類型。
安裝
如要安裝具有信任憑證的驅動程式,請使用下列任一選項:
- 為駕駛人建立信任的憑證。如要使用這個選項,請選擇下列其中一個做法:
- 自動化方法:使用映像檔建構工具建立開機映像檔,並安裝驅動程式的信任憑證
- 手動方法:自行產生憑證,並用來簽署 GPU 驅動程式的核心模組
使用預先簽署的驅動程式,搭配現有的信任憑證。這個方法僅支援 Ubuntu。
自行簽署 (自動)
支援的作業系統:
我們已在下列作業系統測試過這項自動化自行簽署方法:
- Debian 12 和 13
- Red Hat Enterprise Linux (RHEL) 8 和 9
- Rocky Linux 8 和 9
- Ubuntu 22 和 24
程序
如要建立含有自簽憑證的 OS 映像檔,請完成下列步驟:
在 Google Cloud 控制台中啟用 Cloud Shell。
Google Cloud 主控台底部會開啟一個 Cloud Shell 工作階段,並顯示指令列提示。Cloud Shell 是已安裝 Google Cloud CLI 的殼層環境,並已針對您目前的專案設定好相關值。工作階段可能要幾秒鐘的時間才能初始化。
下載 cuda_installer 工具。如要下載最新版本的指令碼,請執行下列指令:
curl -L https://storage.googleapis.com/compute-gpu-installation-us/installer/latest/cuda_installer.pyz --output cuda_installer.pyz
執行下列指令,建構啟用安全啟動的映像檔。圖片建立程序最多可能需要 20 分鐘。
PROJECT=PROJECT_ID ZONE=ZONE BASE_IMAGE=BASE_IMAGE_NAME SECURE_BOOT_IMAGE=IMAGE_NAME python3 cuda_installer.pyz build_image \ --project $PROJECT \ --vm-zone $ZONE \ --base-image $BASE_IMAGE $SECURE_BOOT_IMAGE
更改下列內容:
PROJECT_ID:要在其中建立映像檔的專案 IDZONE:用於建立臨時 VM 的區域。例如us-west4-a。IMAGE_NAME:要建立的映文件名稱。BASE_IMAGE_NAME:從下列選項中選取:debian-12或debian-13rhel-8或rhel-9rocky-8或rocky-9ubuntu-22或ubuntu-24
您也可以新增
--family NAME標記,將新映像檔加入映像檔系列。如要查看圖片的所有自訂選項,請執行
python3 cuda_installer.pyz build_image --help。您也可以在 GitHub 上查看cuda_installer的說明文件。驗證圖片。請按照下列步驟確認映像檔已啟用安全啟動功能,並可建立已安裝 NVIDIA 驅動程式的 GPU 執行個體。
建立測試 VM 執行個體,確認映像檔已正確設定,且 GPU 驅動程式已順利載入。以下範例會建立 N1 機型,並連接單一 NVIDIA T4 加速器。不過,您可以選擇任何支援的 GPU 機型。
TEST_INSTANCE_NAME=TEST_INSTANCE_NAME ZONE=ZONE gcloud compute instances create $TEST_INSTANCE_NAME \ --project=$PROJECT \ --zone=$ZONE \ --machine-type=n1-standard-4 \ --accelerator=count=1,type=nvidia-tesla-t4 \ --create-disk=auto-delete=yes,boot=yes,device-name=$TEST_INSTANCE_NAME,image=projects/$PROJECT/global/images/$SECURE_BOOT_IMAGE,mode=rw,size=100,type=pd-balanced \ --shielded-secure-boot \ --shielded-vtpm \ --shielded-integrity-monitoring \ --maintenance-policy=TERMINATE
更改下列內容:
TEST_INSTANCE_NAME:測試 VM 執行個體的名稱ZONE:具有 T4 GPU 或所選 GPU 的區域。詳情請參閱 GPU 地區和區域。
在測試 VM 上使用
gcloud compute ssh執行mokutil --sb-state指令,確認是否已啟用安全啟動。gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_INSTANCE_NAME --command "mokutil --sb-state"
使用
gcloud compute ssh在測試 VM 上執行nvidia-smi指令,確認驅動程式已安裝。gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_INSTANCE_NAME --command "nvidia-smi"
如果您已安裝 CUDA Toolkit,可以按照下列步驟使用
cuda_installer工具驗證安裝:gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_INSTANCE_NAME --command "python3 cuda_installer.pyz verify_cuda"
清理。確認自訂映像檔可正常運作後,就不需要保留驗證 VM。如要刪除 VM,請執行下列指令:
gcloud compute instances delete --zone=$ZONE --project=$PROJECT $TEST_INSTANCE_NAME
選用:如要刪除您建立的磁碟映像檔,請執行下列指令:
gcloud compute images delete --project=$PROJECT $SECURE_BOOT_IMAGE
自行簽署 (手動)
支援的作業系統
我們已在下列作業系統測試過這個手動自行簽署方法:
- Debian 12 和 13
- Red Hat Enterprise Linux (RHEL) 8 和 9
- Rocky Linux 8 和 9
- Ubuntu 22 和 24
總覽
安裝、簽署及建立映像檔的程序如下:
- 產生自己的憑證,用於簽署驅動程式。
- 建立 VM,安裝並簽署 GPU 驅動程式。如要建立 VM,可以使用您選擇的 OS。建立 VM 時,您必須停用安全啟動功能。您不需要將任何 GPU 連接至 VM。
- 安裝並簽署 GPU 驅動程式,以及選用的 CUDA Toolkit。
- 根據具有自行簽署驅動程式的電腦建立磁碟映像檔,將憑證新增至信任的憑證清單。
- 使用該映像檔建立已啟用安全啟動的 GPU VM。
圖片製作
在 Google Cloud 控制台中啟用 Cloud Shell。
Google Cloud 主控台底部會開啟一個 Cloud Shell 工作階段,並顯示指令列提示。Cloud Shell 是已安裝 Google Cloud CLI 的殼層環境,並已針對您目前的專案設定好相關值。工作階段可能要幾秒鐘的時間才能初始化。
使用 OpenSSL 產生自己的憑證。使用 OpenSSL 時,安全啟動的簽署和驗證作業是透過一般唯一編碼規則 (DER) 編碼的 X.509 憑證完成。執行下列指令,產生新的自行簽署 X.509 憑證和 RSA 私密金鑰檔案。
openssl req -new -x509 -newkey rsa:2048 -keyout private.key -outform DER -out public.der -noenc -days 36500 -subj "/CN=Graphics Drivers Secure Boot Signing"
建立 VM,安裝自行簽署的驅動程式。建立 VM 時,您不需要附加任何 GPU 或啟用安全啟動功能。您可以使用至少有 40 GB 可用空間的標準 E2 機型,確保安裝程序順利完成。
INSTANCE_NAME=BUILD_INSTANCE_NAME DISK_NAME=IMAGE_NAME ZONE=ZONE PROJECT=PROJECT_ID OS_IMAGE=IMAGE_DETAILS # Create the build VM gcloud compute instances create $INSTANCE_NAME \ --zone=$ZONE \ --project=$PROJECT \ --machine-type=e2-standard-4 \ --create-disk=auto-delete=yes,boot=yes,name=$DISK_NAME,$OS_IMAGE,mode=rw,size=100,type=pd-balanced \ --no-shielded-secure-boot
更改下列內容:
BUILD_INSTANCE_NAME:用於建構映像檔的 VM 執行個體名稱。IMAGE_NAME:磁碟映像檔名稱。ZONE:要在其中建立 VM 的可用區。PROJECT_ID:您要用來建構新磁碟映像檔的專案 ID。IMAGE_DETAILS:所選基本 OS 映像檔的映像檔系列和專案:- Debian 12:
"image-family=debian-12,image-project=debian-cloud" - Debian 13:
"image-family=debian-13,image-project=debian-cloud" - RHEL 8:
"image-family=rhel-8,image-project=rhel-cloud" - RHEL 9:
"image-family=rhel-9,image-project=rhel-cloud" - Rocky Linux 8:
"image-family=rocky-linux-8,image-project=rocky-linux-cloud" - Rocky Linux 9:
"image-family=rocky-linux-9,image-project=rocky-linux-cloud" - Ubuntu 22:
"image-family=ubuntu-2204-lts-amd64,image-project=ubuntu-os-cloud" - Ubuntu 24:
"image-family=ubuntu-2404-lts-amd64,image-project=ubuntu-os-cloud"
- Debian 12:
將產生的私密金鑰檔案複製到 VM。如要簽署驅動程式檔案,您必須在 VM 上提供新產生的金鑰組。
gcloud compute scp --zone $ZONE --project $PROJECT private.key $INSTANCE_NAME:~/private.key gcloud compute scp --zone $ZONE --project $PROJECT public.der $INSTANCE_NAME:~/public.der
安裝並簽署驅動程式。安裝指令碼會處理驅動程式和 CUDA Toolkit 的安裝和簽署作業,這個指令碼也適用於不使用安全啟動功能的安裝作業。如要安裝及簽署驅動程式,請完成下列步驟:
使用 SSH 連線至 VM:
gcloud compute ssh --zone $ZONE --project $PROJECT $INSTANCE_NAME
確認私密金鑰和公開金鑰已正確複製:
ls private.key public.der
下載驅動程式安裝指令碼:
curl -L https://storage.googleapis.com/compute-gpu-installation-us/installer/latest/cuda_installer.pyz --output cuda_installer.pyz
確認驅動程式安裝作業已設定簽署。 設定期間,建構機器會重新啟動。建構機器重新啟動後,請使用 SSH 連線至 VM,然後重新執行指令碼,繼續安裝作業。
sudo python3 cuda_installer.pyz install_driver --secure-boot-pub-key=public.der --secure-boot-priv-key=private.key --ignore-no-gpu
如要同時安裝 CUDA Toolkit,請執行下列指令。
sudo python3 cuda_installer.pyz install_cuda --ignore-no-gpu
您可能會看到一些錯誤或警告訊息。這是因為系統未偵測到 GPU,屬於預期結果。系統會在完成 CUDA Toolkit 安裝後重新啟動。重新連線後,即可繼續進行後續步驟。
移除憑證檔案,因為臨時電腦已不再需要這些檔案。為提升安全性,請使用
shred,而非rm指令。最終磁碟映像檔不應包含金鑰。shred -uz private.key public.der
關閉 VM,以便使用其磁碟建立新映像檔。
sudo shutdown now
準備基本磁碟映像檔。如要建立新的磁碟映像檔,以便建立啟用安全啟動的執行個體,您必須設定映像檔,信任新產生的金鑰。新磁碟映像檔仍會接受作業系統使用的預設憑證。如要準備基礎映像檔,請完成下列步驟。
下載預設憑證。使用下列指令下載 MicWinProPCA2011_2011-10-19.crt 和 MicCorUEFCA2011_2011-06-27.crt 憑證:
curl -L https://storage.googleapis.com/compute-gpu-installation-us/certificates/MicCorUEFCA2011_2011-06-27.crt --output MicCorUEFCA2011_2011-06-27.crt curl -L https://storage.googleapis.com/compute-gpu-installation-us/certificates/MicWinProPCA2011_2011-10-19.crt --output MicWinProPCA2011_2011-10-19.crt
驗證憑證:
cat <<EOF >>check.sha1 46def63b5ce61cf8ba0de2e6639c1019d0ed14f3 MicCorUEFCA2011_2011-06-27.crt 580a6f4cc4e4b669b9ebdc1b2b3e087b80d0678d MicWinProPCA2011_2011-10-19.crt EOF sha1sum -c check.sha1
根據暫時 VM 的磁碟建立映像檔。您可以新增
--family=IMAGE_FAMILY_NAME做為選項,將映像檔設為特定映像檔系列的最新映像檔。建立新圖片可能需要幾分鐘的時間。在
public.der檔案和下載的憑證所在的目錄中執行下列指令。SECURE_BOOT_IMAGE=IMAGE_NAME gcloud compute images create $SECURE_BOOT_IMAGE \ --source-disk=$DISK_NAME \ --source-disk-zone=$ZONE \ --project=$PROJECT \ --signature-database-file=MicWinProPCA2011_2011-10-19.crt,MicCorUEFCA2011_2011-06-27.crt,public.der \ --guest-os-features="UEFI_COMPATIBLE"
執行下列指令,即可確認憑證的公開金鑰是否已附加至這個新映像檔:
gcloud compute images describe --project=$PROJECT $SECURE_BOOT_IMAGE
確認新圖片。您可以使用新的磁碟映像檔建立 GPU VM。在這個步驟中,我們建議使用啟用安全啟動的 N1 機型,並搭配單一 T4 加速器。不過,映像檔也支援其他類型的 GPU 和機器類型。
建立測試 GPU VM:
TEST_GPU_INSTANCE=TEST_GPU_INSTANCE_NAME ZONE=ZONE gcloud compute instances create $TEST_GPU_INSTANCE \ --project=$PROJECT \ --zone=$ZONE \ --machine-type=n1-standard-4 \ --accelerator=count=1,type=nvidia-tesla-t4 \ --create-disk=auto-delete=yes,boot=yes,device-name=$TEST_GPU_INSTANCE,image=projects/$PROJECT/global/images/$SECURE_BOOT_IMAGE,mode=rw,size=100,type=pd-balanced \ --shielded-secure-boot \ --shielded-vtpm \ --shielded-integrity-monitoring \ --maintenance-policy=TERMINATE
更改下列內容:
TEST_GPU_INSTANCE_NAME:您要建立的 GPU VM 執行個體名稱,用於測試新映像檔。ZONE:具有 T4 GPU 或您選擇的其他 GPU 的區域。 詳情請參閱「GPU 地區和區域」。
在測試 VM 上使用
gcloud compute ssh執行mokutil --sb-state指令,確認是否已啟用安全啟動。gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_GPU_INSTANCE --command "mokutil --sb-state"
使用
gcloud compute ssh在測試 VM 上執行nvidia-smi指令,確認驅動程式已安裝。gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_GPU_INSTANCE --command "nvidia-smi"
如果您已安裝 CUDA Toolkit,可以按照下列步驟使用
cuda_installer工具驗證安裝:gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_GPU_INSTANCE --command "python3 cuda_installer.pyz verify_cuda"
清理。確認新映像檔可正常運作後,就不需要保留臨時 VM 或驗證 VM。您建立的磁碟映像檔不會以任何方式依附於這些磁碟。您可以使用下列指令刪除這些檔案:
gcloud compute instances delete --zone=$ZONE --project=$PROJECT $INSTANCE_NAME gcloud compute instances delete --zone=$ZONE --project=$PROJECT $TEST_GPU_INSTANCE
我們不建議您將安全啟動簽署憑證以未加密狀態儲存在磁碟上。如要安全地儲存金鑰,並與他人共用,可以使用 Secret Manager 保護資料安全。
如果不再需要磁碟上的檔案,建議使用「退出」
shred工具安全移除檔案。執行下列指令:# Safely delete the key pair from your system shred -uz private.key public.der
預先簽署 (僅限 Ubuntu)
這些操作說明僅適用於在 Ubuntu 18.04、20.04 和 22.04 作業系統上執行的安全啟動 Linux VM。我們正在開發更多 Linux 作業系統的支援功能。
如要在使用安全啟動的 Ubuntu VM 上安裝 GPU 驅動程式,請完成下列步驟:
更新存放區。
sudo apt-get update
搜尋最新的 NVIDIA 核心模組套件或所需版本。這個套件包含以 Ubuntu 金鑰簽署的 NVIDIA 核心模組。如要尋找較早的版本,請變更尾部參數的數字,即可取得較早的版本。例如,指定
tail -n 2。Ubuntu PRO 和 LTS
如為 Ubuntu PRO 和 LTS,請執行下列指令:
NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')Ubuntu PRO FIPS
如為 Ubuntu PRO FIPS,請執行下列指令:
啟用 Ubuntu FIPS 更新。
sudo ua enable fips-updates
關機並重新啟動
sudo shutdown -r now
取得最新套件。
NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp-fips$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')
您可以執行
echo $NVIDIA_DRIVER_VERSION,查看所選的驅動程式版本。輸出內容為版本字串,例如455。安裝核心模組套件和對應的 NVIDIA 驅動程式。
sudo apt install linux-modules-nvidia-${NVIDIA_DRIVER_VERSION}-gcp nvidia-driver-${NVIDIA_DRIVER_VERSION}如果指令失敗並顯示
package not found error,可能是存放區缺少最新的 NVIDIA 驅動程式。重試上一步,並變更尾號,選取較舊的驅動程式版本。確認已安裝 NVIDIA 驅動程式。您可能需要重新啟動 VM。
如果您重新啟動系統來驗證 NVIDIA 版本,重新啟動後,您需要重新執行步驟 3 中使用的指令,重設
NVIDIA_DRIVER_VERSION變數。設定 APT 以使用 NVIDIA 套件存放區。
如要協助 APT 選擇正確的依附元件,請按照下列方式固定存放區:
sudo tee /etc/apt/preferences.d/cuda-repository-pin-600 > /dev/null <<EOL Package: nsight-compute Pin: origin *ubuntu.com* Pin-Priority: -1
Package: nsight-systems Pin: origin *ubuntu.com* Pin-Priority: -1
Package: nvidia-modprobe Pin: release l=NVIDIA CUDA Pin-Priority: 600
Package: nvidia-settings Pin: release l=NVIDIA CUDA Pin-Priority: 600
Package: * Pin: release l=NVIDIA CUDA Pin-Priority: 100 EOL安裝「
software-properties-common」。如果您使用 Ubuntu 最低版本映像檔,則必須執行這項操作。sudo apt install software-properties-common
設定 Ubuntu 版本。
Ubuntu 18.04
如為 Ubuntu 18.04,請執行下列指令:
export UBUNTU_VERSION=ubuntu1804/x86_64
Ubuntu 20.04
如為 Ubuntu 20.04,請執行下列指令:
export UBUNTU_VERSION=ubuntu2004/x86_64
Ubuntu 22.04
如果是 Ubuntu 22.04,請執行下列指令:
export UBUNTU_VERSION=ubuntu2204/x86_64
下載
cuda-keyring套件。wget https://developer.download.nvidia.com/compute/cuda/repos/$UBUNTU_VERSION/cuda-keyring_1.0-1_all.deb
安裝
cuda-keyring套件。sudo dpkg -i cuda-keyring_1.0-1_all.deb
新增 NVIDIA 存放區。
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/$UBUNTU_VERSION/ /"
如果系統提示您選取預設動作,請選取保留目前版本。
找出相容的 CUDA 驅動程式版本。
下列指令碼會判斷與我們剛安裝的 NVIDIA 驅動程式相容的最新 CUDA 驅動程式版本:
CUDA_DRIVER_VERSION=$(apt-cache madison cuda-drivers | awk '{print $3}' | sort -r | while read line; do if dpkg --compare-versions $(dpkg-query -f='${Version}\n' -W nvidia-driver-${NVIDIA_DRIVER_VERSION}) ge $line ; then echo "$line" break fi done)如要查看 CUDA 驅動程式版本,請執行
echo $CUDA_DRIVER_VERSION。 輸出內容為版本字串,例如455.32.00-1。安裝上一步中識別出的 CUDA 驅動程式版本。
sudo apt install cuda-drivers-${NVIDIA_DRIVER_VERSION}=${CUDA_DRIVER_VERSION} cuda-drivers=${CUDA_DRIVER_VERSION}選用:保留
dkms套件。啟用安全啟動後,所有核心模組都必須經過簽署才能載入。
dkms建構的 Kernel 模組無法在 VM 上運作,因為這些模組預設未正確簽署。這是選用步驟,但有助於避免日後不小心安裝其他dkms套件。如要保留
dkms套件,請執行下列指令:sudo apt-get remove dkms && sudo apt-mark hold dkms
安裝 CUDA 工具包和執行階段。
選擇合適的 CUDA 版本。下列指令碼會判斷與我們剛安裝的 CUDA 驅動程式相容的最新 CUDA 版本:
CUDA_VERSION=$(apt-cache showpkg cuda-drivers | grep -o 'cuda-runtime-[0-9][0-9]-[0-9],cuda-drivers [0-9\\.]*' | while read line; do if dpkg --compare-versions ${CUDA_DRIVER_VERSION} ge $(echo $line | grep -Eo '[[:digit:]]+\.[[:digit:]]+') ; then echo $(echo $line | grep -Eo '[[:digit:]]+-[[:digit:]]') break fi done)您可以執行
echo $CUDA_VERSION來檢查 CUDA 版本。輸出內容為版本字串,例如11-1。安裝 CUDA 套件。
sudo apt install cuda-${CUDA_VERSION}驗證 CUDA 安裝項目。
sudo nvidia-smi/usr/local/cuda/bin/nvcc --version第一個指令會輸出 GPU 資訊。第二個指令會列印已安裝的 CUDA 編譯器版本。
安裝 vGPU 驅動程式 (部分 GPU)
這些操作說明適用於在 G4 VM 上安裝 vGPU 驅動程式,這類 VM 連接的 GPU 不到一個 (部分 GPU),提供 1/2、1/4 或 1/8 的標準 G4 GPU。
如果 G4 執行個體附加了部分 GPU (vGPU),您必須在執行個體上安裝特定 vGPU 驅動程式,該程式會連線至實體機器的主機驅動程式。您必須使用下列最低版本的驅動程式:
- Linux:580.126.09
- Windows:582.16
支援 GPU 的機型
本節中的程序支援下列 G4 機器類型:
g4-standard-6g4-standard-12g4-standard-24
安裝
如要在附加少於一個 GPU 的 G4 VM 上安裝 vGPU 驅動程式,請完成下列步驟:
Linux
使用 SSH 連線至執行個體。
gcloud compute ssh INSTANCE_NAME \ --zone=us-central1-b
將
INSTANCE_NAME換成您的執行個體名稱。更新系統套件清單。
sudo apt-get -y update
安裝核心標頭和基本建構工具。
(sudo apt-get install -y linux-headers-$(uname -r) build-essential gcc g++ make dkms pciutils bison flex libxml2 libncurses5-dev) || \ (sudo apt-get install -y linux-headers-cloud-amd64 build-essential gcc g++ make dkms pciutils bison flex libxml2 libncurses5-dev)
如要確保
cc編譯器可用,請執行下列指令:if ! command -v cc &> /dev/null then sudo ln -sf /usr/bin/gcc /usr/bin/cc echo "'cc' is now linked to 'gcc'." else echo "'cc' is already available." fi export PATH=$PATH:/usr/sbin
從 Cloud Storage 下載特定必要驅動程式。
gsutil cp gs://gce-nvidia-vgpu-drivers/G4_VGPU/NVIDIA-Linux-x86_64-580.126.09-grid-gcp.run .
執行下列指令,讓驅動程式可執行:
chmod +x NVIDIA-Linux-x86_64-580.126.09-grid-gcp.run
在執行個體上安裝 vGPU 驅動程式。
sudo ./NVIDIA-Linux-x86_64-580.126.09-grid-gcp.run -s
確認驅動程式已安裝。
nvidia-smi
Windows
使用 SSH 連線至執行個體。
gcloud compute ssh INSTANCE_NAME \ --zone=us-central1-b
將
INSTANCE_NAME換成您的執行個體名稱。下載驅動程式。
Invoke-WebRequest https://github.com/GoogleCloudPlatform/compute-gpu-installation/raw/main/windows/install_gpu_driver.ps1 -OutFile C:\install_gpu_driver.ps1
修改指令碼,改用包含必要驅動程式的替代區域。
(Get-Content "C:\install_gpu_driver.ps1") -replace '^\$DriverUrl\s*=\s*\".*\"', '$DriverUrl = "https://storage.googleapis.com/nvidia-drivers-us-public/GRID/vGPU19.4/582.16_grid_win10_win11_server2022_server2025_dch_64bit_international.exe"' | Set-Content "C:\install_gpu_driver.ps1" -Encoding UTF8
修改檢查碼值以進行驗證。
(Get-Content "C:\install_gpu_driver.ps1") -replace '^\$ExpectedSha256\s*=\s*\".*\"', '$ExpectedSha256 = "23758d7365f3e421d481b5c40290f0cc6a1ff44dcf0f50add1d06761cf2a7ae8' | Set-Content "C:\install_gpu_driver.ps1" -Encoding UTF8
在執行個體上安裝 vGPU 驅動程式。
C:\install_gpu_driver.ps1
確認 GPU 驅動程式已順利安裝
完成驅動程式安裝步驟後,請確認驅動程式已正確安裝並初始化。
Linux
連線至 Linux 執行個體,然後使用 nvidia-smi 指令確認驅動程式正常執行。
sudo nvidia-smi
輸出結果會與下列內容相似:
+-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 580.82.07 Driver Version: 580.82.07 CUDA Version: 13.0 | +-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=======================================+====================+====================| | 0 Tesla T4 On | 00000000:00:04.0 Off | 0 | | N/A 53C P8 17W / 70W | 0MiB / 15360MiB | 0% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------++-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+
如果這個指令失敗,請檢查 GPU 是否已連結至運算執行個體。如要檢查是否有任何 NVIDIA PCI 裝置,請執行下列指令:
sudo lspci | grep -i "nvidia"
Windows Server
連線至 Windows Server 執行個體,然後開啟 PowerShell 終端機並執行下列指令,確認驅動程式正常執行。
nvidia-smi
輸出結果會與下列內容相似:
+---------------------------------------------------------------------------------------+ | NVIDIA-SMI 538.67 Driver Version: 538.67 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA L4 WDDM | 00000000:00:03.0 Off | 0 | | N/A 66C P8 17W / 72W | 128MiB / 23034MiB | 0% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 4888 C+G ...CBS_cw5n1h2txyewy\TextInputHost.exe N/A | | 0 N/A N/A 5180 C+G ....Search_cw5n1h2txyewy\SearchApp.exe N/A | +---------------------------------------------------------------------------------------+
後續步驟
- 如要監控 GPU 效能,請參閱「監控 GPU 效能」。
- 如要處理 GPU 主機維護作業,請參閱「處理 GPU 主機維護事件」。
- 如要提升網路效能,請參閱「使用較高的網路頻寬」。
- 如要排解 GPU VM 的問題,請參閱「排解 GPU VM 的問題」。