Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

安裝 GPU 驅動程式

Linux Windows

建立具有一或多個 GPU 的 Compute Engine 執行個體之後，系統需有 NVIDIA 裝置驅動程式，應用程式才能存取該裝置。確認 GPU 執行個體有足夠的可用磁碟空間。建立新的 GPU 執行個體時，開機磁碟至少應選擇 40 GB。

如要安裝驅動程式，可以選擇下列任一方法：

如需 GPU 來加速處理 3D 繪圖 (例如遠端桌面或遊戲)，請參閱「安裝 NVIDIA RTX 虛擬工作站 (vWS) 的驅動程式」。
如要執行其他工作負載，請按照本文中的操作說明安裝 NVIDIA 驅動程式。

專業提示：您也可以建立使用已安裝驅動程式映像檔的運算執行個體，略過這項設定。詳情請參閱「選擇作業系統」。

事前準備

如果尚未設定驗證，請先完成設定。驗證可確認您的身分，以便存取 Google Cloud 服務和 API。如要從本機開發環境執行程式碼或範例，請選取下列其中一個選項，向 Compute Engine 進行驗證：
選取這個頁面上的分頁，瞭解您打算如何使用範例：
控制台

使用 Google Cloud 控制台存取 Google Cloud 服務和 API 時，無須設定驗證。
gcloud
1. 安裝 Google Cloud CLI。完成後，執行下列指令來初始化 Google Cloud CLI：
  gcloud init
  若您採用的是外部識別資訊提供者 (IdP)，請先使用聯合身分登入 gcloud CLI。
  
  注意：如果您已經安裝 gcloud CLI，請務必執行 gcloud components update，確認您安裝的是最新版本。
設定預設地區和區域。

REST

如要在本機開發環境中使用本頁的 REST API 範例，請使用您提供給 gcloud CLI 的憑證。

安裝 Google Cloud CLI。

若您採用的是外部識別資訊提供者 (IdP)，請先使用聯合身分登入 gcloud CLI。

詳情請參閱 Google Cloud 驗證說明文件中的「使用 REST 進行驗證」。

NVIDIA 驅動程式、CUDA 工具包和 CUDA 執行階段版本

環境中可能需要不同版本的驅動程式和執行階段元件。包括下列元件：

NVIDIA 驅動程式
CUDA 工具包
CUDA 執行階段

安裝這些元件時，您可以視需求設定環境。舉例來說，如果您使用舊版 TensorFlow，而該版本最適合搭配舊版 CUDA 工具包，但您想使用的 GPU 需要新版 NVIDIA 驅動程式，則可以安裝舊版 CUDA 工具包和新版 NVIDIA 驅動程式。

不過，您必須確保 NVIDIA 驅動程式和 CUDA 工具包版本相容。如要瞭解 CUDA Toolkit 和 NVIDIA 驅動程式的相容性，請參閱 NVIDIA CUDA 相容性文件。

瞭解 NVIDIA 驅動程式分支版本

NVIDIA 提供下列三種驅動程式分支版本：

長期支援分支 (LTSB)：這個分支著重穩定性，並盡量減少維護作業，支援生命週期延長為三年。Google 測試及驗證的最新 LTSB 為 R580，支援期限至 2028 年 6 月。
正式版分支 (PB)：這個分支提供效能提升功能，並支援最新硬體。這個版本完全支援生產工作負載，但支援生命週期較短，最長為一年。Google 測試及驗證的最新 PB 是 R595，支援期限至 2027 年 3 月。
新功能分支 (NFB)：這個分支適用於搶先體驗者測試新功能，不建議用於正式版環境。

如為正式環境工作負載，請使用正式環境分支或長期支援分支。如要進一步瞭解 NVIDIA 分支版本，請參閱 NVIDIA 說明文件。

建議使用的 NVIDIA 驅動程式分支版本

請參閱本節中的表格，判斷最適合 GPU 機型的 NVIDIA 驅動程式分支版本。

下表中的 N/A 表示指定的作業系統無法在該機型上執行。

機器類型	GPU 型號	支援的分支版本 (依 NVIDIA 而定)	建議分支版本 (EOS 日期)	建議分支的最低驅動程式
A4X Max	NVIDIA Blackwell GB300 Superchip	R580 以上版本	R580 (2028 年 6 月)	Linux：`580.95.05` 以上版本 Windows：不適用
A4X	NVIDIA Blackwell GB200 Superchip	R580 以上版本	R580 (2028 年 6 月)	Linux：`580.82.07` 以上版本 Windows：不適用
A4	NVIDIA Blackwell B200	R580 以上版本	R580 (2028 年 6 月)	Linux：`580.82.07` 以上版本 Windows：不適用
A3 Ultra	NVIDIA H200	R580 以上版本	R580 (2028 年 6 月)	Linux：`580.82.07` 以上版本 Windows：不適用
A3 Mega、High、Edge	NVIDIA H100	R535 以上版本	R535 (2026 年 6 月)	Linux：`535.230.02` 以上版本 Windows：不適用
G4	NVIDIA RTX PRO 6000	R580 以上版本	R580 (2028 年 6 月)	Linux：`580.95.05` 以上版本 Windows：`581.42` 以上版本
G4 (部分 GPU)	NVIDIA RTX PRO 6000	R580 以上版本	R580 (2028 年 6 月)	Linux：`580.126.09` 以上版本 Windows：`582.16` 以上版本
G2	NVIDIA L4	R535 以上版本	R535 (2026 年 6 月)	Linux：`535.230.02` 以上版本 Windows：`538.67` 以上版本
A2 Standard、A2 Ultra	NVIDIA A100	R535 以上版本	R535 (2026 年 6 月)	Linux：`535.230.02` 以上版本 Windows：`538.67` 以上版本
N1	NVIDIA T4	R535 以上版本	R535 (2026 年 6 月)	Linux：`535.230.02` 以上版本 Windows：`538.67` 以上版本
N1	NVIDIA V100、P100、P4	R35 至 R580¹	R535 (2026 年 6 月)	Linux：`535.230.02` 以上版本 Windows：`538.67` 以上版本

¹NVIDIA 宣布 R580 是最後一個支援 Pascal (P4 和 P100) 和 Volta 架構 (V100) 的驅動程式分支版本。

使用 CUDA Toolkit 指南在運算執行個體上安裝 GPU 驅動程式

如要在大多數運算執行個體上安裝 NVIDIA 驅動程式，其中一種方法是安裝 CUDA Toolkit。

如要安裝 CUDA Toolkit，請完成下列步驟：

選取支援所需驅動程式版本的 CUDA Toolkit 版本。

機器類型	GPU 型號	建議使用的 CUDA Toolkit
A4X Max	NVIDIA Blackwell GB300 Superchip	CUDA 13.0 以上版本
A4X	NVIDIA Blackwell GB200 Superchip	CUDA 12.8.1 以上版本
A4	NVIDIA Blackwell B200	CUDA 12.8.1 以上版本
A3 Ultra	NVIDIA H200	CUDA 12.4 以上版本
G4	NVIDIA RTX PRO 6000	CUDA 13.1 以上版本
G2	NVIDIA L4	CUDA 12.2.2 以上版本
A3 Mega、High、Edge	NVIDIA H100	CUDA 12.2.2 以上版本
A2 Standard、A2 Ultra	NVIDIA A100	CUDA 12.2.2 以上版本
N1	NVIDIA T4	CUDA 12.2.2 以上版本
N1	NVIDIA V100、P100、P4	CUDA 12.2.2 至 CUDA 12 (最終版本)¹

¹CUDA Toolkit 12 是最後一個支援 Pascal (P4 和 P100) 和 Volta 架構 (V100) 的版本。NVIDIA 宣布，自 CUDA Toolkit 13.0 主要版本發布後，將移除這些架構的離線編譯和程式庫支援。詳情請參閱 NVIDIA 13.0 驅動程式版本資訊。

連線至您要安裝驅動程式的 GPU 執行個體。
在 GPU 執行個體上，下載並安裝 CUDA 工具包。如要尋找 CUDA Toolkit 套件和安裝說明，請參閱 NVIDIA 說明文件中的 CUDA Toolkit Archive。

使用安裝指令碼在運算執行個體上安裝 GPU 驅動程式

您可以使用下列指令碼自動執行安裝程序。如要查看這些指令碼，請參閱 GitHub 存放區。

Linux

請按照這些操作說明，在執行中的運算執行個體上安裝 GPU 驅動程式。

支援的作業系統

Linux 安裝指令碼已在下列作業系統上測試：

Debian 12 和 13
Red Hat Enterprise Linux (RHEL) 8、9 和 10
Rocky Linux 8、9 和 10
Ubuntu 22 和 24

如果您在其他作業系統上使用這個指令碼，安裝作業可能會失敗。這個指令碼可以安裝 NVIDIA 驅動程式和 CUDA Toolkit。

如要安裝 GPU 驅動程式和 CUDA Toolkit，請完成下列步驟：

如果您的運算執行個體已安裝 2.38.0 以上版本的 Ops Agent，並收集 GPU 指標，您必須先停止代理程式，才能使用這個安裝指令碼安裝或升級 GPU 驅動程式。

如要停止 Ops Agent，請執行下列指令：
```
sudo systemctl stop google-cloud-ops-agent
```
確認作業系統已安裝 Python 3。

下載安裝指令碼。

curl -L https://storage.googleapis.com/compute-gpu-installation-us/installer/latest/cuda_installer.pyz --output cuda_installer.pyz

執行安裝指令碼。
```
sudo python3 cuda_installer.pyz install_driver --installation-mode=INSTALLATION_MODE --installation-branch=BRANCH
```
- INSTALLATION_MODE：安裝方法。請使用下列其中一個值：
  - repo：(預設) 從官方 NVIDIA 套件存放區安裝驅動程式。
  - binary：使用二進位安裝套件安裝驅動程式。
- BRANCH：要安裝的驅動程式分支版本。請使用下列其中一個值：
  - prod：(預設) 正式版分支。這個分支版本適用於企業和資料中心 GPU 的正式環境。
  - nfb：新的功能分支版本。這個分支版本包含最新更新，適合搶先體驗者。這個分支版本不建議用於正式環境。
  - lts：長期支援分支版本。這個分支的維護時間比一般正式版分支更長。
如要查看可安裝的特定驅動程式版本，請執行下列指令：
```
python3 cuda_installer.pyz list_driver_versions
```
如要安裝特定版本的驅動程式，請使用 --force-version 選項。
```
python3 cuda_installer.pyz install_driver --force-version DRIVER_VERSION
```
指令碼需要幾分鐘才會執行完畢。這可能會重新啟動運算執行個體。運算執行個體重新啟動時，請使用相同參數再次執行指令碼，繼續安裝作業。
驗證安裝。請參閱「確認 GPU 驅動程式已順利安裝」。
您也可以使用這項工具安裝 CUDA Toolkit。如要安裝 CUDA Toolkit，請執行下列指令：
```
sudo python3 cuda_installer.pyz install_cuda --installation-mode=INSTALLATION_MODE --installation-branch=BRANCH
```
請務必使用與安裝驅動程式時相同的 INSTALLATION_MODE 和 BRANCH 值。

指令碼需要幾分鐘才會執行完畢。這可能會重新啟動運算執行個體。如果運算執行個體重新啟動，請再次執行指令碼，繼續安裝作業。
確認 CUDA 工具包安裝完成。
```
python3 cuda_installer.pyz verify_cuda
```
安裝完成後，您必須重新啟動運算執行個體。

Linux (開機指令碼)

按照這些操作說明，在運算執行個體啟動期間安裝 GPU 驅動程式。

支援的作業系統

Linux 安裝指令碼已在下列作業系統上測試：

Debian 12 和 13
Red Hat Enterprise Linux (RHEL) 8、9 和 10
Rocky Linux 8、9 和 10
Ubuntu 22 和 24

如果您在其他作業系統上使用這個指令碼，安裝作業可能會失敗。這個指令碼可以安裝 NVIDIA 驅動程式和 CUDA Toolkit。

如要自動安裝驅動程式和 CUDA Toolkit，請使用下列開機指令碼：

#!/bin/bash
if test -f /opt/google/cuda-installer
then
  exit
fi

mkdir -p /opt/google/cuda-installer
cd /opt/google/cuda-installer/ || exit

if test -f cuda_installation
then
  exit
fi

curl -fSsL -O https://storage.googleapis.com/compute-gpu-installation-us/installer/latest/cuda_installer.pyz
python3 cuda_installer.pyz install_cuda

如要只安裝驅動程式，而不安裝 CUDA Toolkit，請將指令碼最後一行中的 install_cuda 替換為 install_driver。

您可以在安裝指令中附加 --installation-mode INSTALLATION_MODE 和 --installation-branch BRANCH 標記，指出要安裝的模式和驅動程式分支版本。

INSTALLATION_MODE：安裝方法。請使用下列其中一個值：
- repo：(預設) 從官方 NVIDIA 套件存放區安裝驅動程式。
- binary：使用二進位安裝套件安裝驅動程式。
BRANCH：要安裝的驅動程式分支版本。請使用下列其中一個值：
- prod：(預設) 正式版分支。這個分支版本適用於企業和資料中心 GPU 的正式環境。
- nfb：新的功能分支版本。這個分支版本包含最新更新，適合搶先體驗者。這個分支版本不建議用於正式環境。
- lts：長期支援分支版本。這個分支的維護時間比一般正式版分支更長。

如要查看可安裝的特定驅動程式版本，請執行下列指令：

python3 cuda_installer.pyz list_driver_versions

如要安裝特定版本的驅動程式，請使用 --force-version 選項。

python3 cuda_installer.pyz install_driver --force-version DRIVER_VERSION

Windows

這個安裝指令碼可用於啟用安全啟動的 GPU 執行個體。支援 Windows Server 2019 以上版本。

這段指令碼會安裝與 NVIDIA RTX 虛擬工作站 (vWS) 相容的驅動程式。如果沒有 vWS 授權，執行個體就無法使用 vWS 功能。

以系統管理員身分開啟 PowerShell 終端機，然後完成下列步驟：

下載指令碼。

Invoke-WebRequest https://github.com/GoogleCloudPlatform/compute-gpu-installation/raw/main/windows/install_gpu_driver.ps1 -OutFile C:\install_gpu_driver.ps1

執行指令碼。
```
C:\install_gpu_driver.ps1
```
指令碼需要幾分鐘才會執行完畢。安裝程序期間不會顯示任何命令提示。指令碼結束後，系統就會安裝驅動程式。

這段指令碼會在 VM 的下列預設位置安裝驅動程式：C:\Program Files\NVIDIA Corporation\。
驗證安裝。請參閱「確認 GPU 驅動程式已順利安裝」。

Windows (自動)

如要在 Windows 電腦首次啟動時自動安裝 GPU 驅動程式，請將新執行個體的 sysprep-specialize-script-url 中繼資料鍵設為 https://github.com/GoogleCloudPlatform/compute-gpu-installation/raw/main/windows/install_gpu_driver.ps1。

如要進一步瞭解如何在 Windows 電腦上使用開機指令碼，請參閱「在 Windows VM 上使用開機指令碼」一文。

這段指令碼會在 VM 的下列預設位置安裝驅動程式：C:\Program Files\NVIDIA Corporation\。

安裝 GPU 驅動程式 (安全啟動 VM)

以下說明適用於在採用安全啟動的 Linux VM 上安裝 GPU 驅動程式。

如果安全啟動執行個體已連結 NVIDIA RTX 虛擬工作站 (vWS) 版本的 GPU，您就無法使用這些程序安裝驅動程式。

如果您使用的是 Windows VM 或未採用安全啟動的 Linux VM，請改為參閱下列其中一項操作說明：

在 Linux VM 上安裝驅動程式與在安全啟動 VM 上安裝不同，因為這些 VM 需要所有核心模組都具有可信任的憑證簽章。

支援 GPU 的機型

本節中的程序支援 Compute Engine 上的所有 GPU 機器類型。

安裝

如要安裝具有信任憑證的驅動程式，可以使用下列任一選項：

為駕駛人建立可信任的憑證。如要使用這個選項，請選擇下列其中一個做法：
- 自動化方法：使用映像檔建構工具建立開機映像檔，並安裝驅動程式的信任憑證
- 手動方法：自行產生憑證，並用來簽署 GPU 驅動程式的核心模組
使用預先簽署的驅動程式和現有的信任憑證。這個方法僅支援 Ubuntu。

自行簽署 (自動)

支援的作業系統：

我們已在下列作業系統測試過這項自動化自行簽署方法：

支援的作業系統

Linux 安裝指令碼已在下列作業系統上測試：

Debian 12 和 13
Red Hat Enterprise Linux (RHEL) 8、9 和 10
Rocky Linux 8、9 和 10
Ubuntu 22 和 24

如果您在其他作業系統上使用這個指令碼，安裝作業可能會失敗。這個指令碼可以安裝 NVIDIA 驅動程式和 CUDA Toolkit。

程序

如要建立含有自簽憑證的 OS 映像檔，請完成下列步驟：

下載 cuda_installer 工具。如要下載最新版本的指令碼，請執行下列指令：

curl -L https://storage.googleapis.com/compute-gpu-installation-us/installer/latest/cuda_installer.pyz --output cuda_installer.pyz

執行下列指令，建構啟用安全啟動的映像檔。圖片建立程序最多可能需要 20 分鐘。
```
PROJECT=PROJECT_ID
ZONE=ZONE
BASE_IMAGE=BASE_IMAGE_NAME
SECURE_BOOT_IMAGE=IMAGE_NAME

python3 cuda_installer.pyz build_image \
  --project $PROJECT \
  --vm-zone $ZONE \
  --base-image $BASE_IMAGE $SECURE_BOOT_IMAGE
```
更改下列內容：
- PROJECT_ID：要在其中建立映像檔的專案 ID
- ZONE：用於建立臨時 VM 的區域。例如 us-west4-a。
- IMAGE_NAME：要建立的映文件名稱。
- BASE_IMAGE_NAME：從下列選項中選取：
  - debian-12或debian-13
  - rhel-8、rhel-9 或 rhel-10
  - rocky-8、rocky-9 或 rocky-10
  - ubuntu-22或ubuntu-24
您也可以新增 --family NAME 標記，將新映像檔加入映像檔系列。

如要查看圖片的所有自訂選項，請執行 python3 cuda_installer.pyz build_image --help。您也可以在 GitHub 上查看 cuda_installer 的說明文件。
驗證圖片。請按照下列步驟確認映像檔已啟用安全啟動功能，且可建立已安裝 NVIDIA 驅動程式的 GPU 執行個體。
1. 建立測試 VM 執行個體，確認映像檔已正確設定，且 GPU 驅動程式已順利載入。以下範例會建立 N1 機型，並連接單一 NVIDIA T4 加速器。不過，您可以選擇任何支援的 GPU 機型。
```
TEST_INSTANCE_NAME=TEST_INSTANCE_NAME
ZONE=ZONE

gcloud compute instances create $TEST_INSTANCE_NAME \
 --project=$PROJECT \
 --zone=$ZONE \
 --machine-type=n1-standard-4 \
 --accelerator=count=1,type=nvidia-tesla-t4 \
 --create-disk=auto-delete=yes,boot=yes,device-name=$TEST_INSTANCE_NAME,image=projects/$PROJECT/global/images/$SECURE_BOOT_IMAGE,mode=rw,size=100,type=pd-balanced \
 --shielded-secure-boot \
 --shielded-vtpm \
 --shielded-integrity-monitoring \
 --maintenance-policy=TERMINATE
```
  更改下列內容：
  - TEST_INSTANCE_NAME：測試 VM 執行個體的名稱
  - ZONE：具有 T4 GPU 或所選 GPU 的區域。詳情請參閱 GPU 地區和區域。
2. 使用 gcloud compute ssh 在測試 VM 上執行 mokutil --sb-state 指令，確認是否已啟用安全啟動。
```
gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_INSTANCE_NAME --command "mokutil --sb-state"
```
3. 在測試 VM 上使用 gcloud compute ssh 執行 nvidia-smi 指令，確認驅動程式是否已安裝。
```
gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_INSTANCE_NAME --command "nvidia-smi"
```
  如果您已安裝 CUDA Toolkit，可以按照下列步驟使用 cuda_installer 工具驗證安裝：
```
gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_INSTANCE_NAME --command "python3 cuda_installer.pyz verify_cuda"
```
清理。確認自訂映像檔可正常運作後，就不必保留驗證 VM。如要刪除 VM，請執行下列指令：
```
gcloud compute instances delete --zone=$ZONE --project=$PROJECT $TEST_INSTANCE_NAME
```
選用：如要刪除您建立的磁碟映像檔，請執行下列指令：
```
gcloud compute images delete --project=$PROJECT $SECURE_BOOT_IMAGE
```

自行簽署 (手動)

支援的作業系統

我們已在下列作業系統測試過這個手動自行簽署方法：

支援的作業系統

Linux 安裝指令碼已在下列作業系統上測試：

Debian 12 和 13
Red Hat Enterprise Linux (RHEL) 8、9 和 10
Rocky Linux 8、9 和 10
Ubuntu 22 和 24

如果您在其他作業系統上使用這個指令碼，安裝作業可能會失敗。這個指令碼可以安裝 NVIDIA 驅動程式和 CUDA Toolkit。

總覽

安裝、簽署及建立映像檔的程序如下：

產生自己的憑證，用於簽署驅動程式。
建立 VM，安裝並簽署 GPU 驅動程式。如要建立 VM，可以使用您選擇的 OS。建立 VM 時，您必須停用安全啟動功能。您不需要將任何 GPU 連接至 VM。
安裝並簽署 GPU 驅動程式和選用的 CUDA Toolkit。
根據具有自行簽署驅動程式的電腦建立磁碟映像檔，將憑證新增至信任的憑證清單。
使用該映像檔建立已啟用安全啟動的 GPU VM。

圖片製作

使用 OpenSSL 產生自己的憑證。使用 OpenSSL 時，安全啟動的簽署和驗證作業是透過一般唯一編碼規則 (DER) 編碼的 X.509 憑證完成。執行下列指令，產生新的自行簽署 X.509 憑證和 RSA 私密金鑰檔案。
```
openssl req -new -x509 -newkey rsa:2048 -keyout private.key -outform DER -out public.der -noenc -days 36500 -subj "/CN=Graphics Drivers Secure Boot Signing"
```
建立 VM，安裝自行簽署的驅動程式。建立 VM 時，您不需要附加任何 GPU 或啟用安全啟動功能。您可以使用至少有 40 GB 可用空間的標準 E2 機型，確保安裝程序順利完成。
```
INSTANCE_NAME=BUILD_INSTANCE_NAME
DISK_NAME=IMAGE_NAME
ZONE=ZONE
PROJECT=PROJECT_ID
OS_IMAGE=IMAGE_DETAILS

# Create the build VM
gcloud compute instances create $INSTANCE_NAME \
 --zone=$ZONE \
 --project=$PROJECT \
 --machine-type=e2-standard-4 \
 --create-disk=auto-delete=yes,boot=yes,name=$DISK_NAME,$OS_IMAGE,mode=rw,size=100,type=pd-balanced \
 --no-shielded-secure-boot
```
更改下列內容：
- BUILD_INSTANCE_NAME：用於建構映像檔的 VM 執行個體名稱。
- IMAGE_NAME：磁碟映像檔名稱。
- ZONE：要在其中建立 VM 的可用區。
- PROJECT_ID：您要用來建構新磁碟映像檔的專案 ID。
- IMAGE_DETAILS：所選基本 OS 映像檔的映像檔系列和專案：
  - Debian 12："image-family=debian-12,image-project=debian-cloud"
  - Debian 13："image-family=debian-13,image-project=debian-cloud"
  - RHEL 8："image-family=rhel-8,image-project=rhel-cloud"
  - RHEL 9："image-family=rhel-9,image-project=rhel-cloud"
  - RHEL 10："image-family=rhel-10,image-project=rhel-cloud"
  - Rocky Linux 8："image-family=rocky-linux-8,image-project=rocky-linux-cloud"
  - Rocky Linux 9："image-family=rocky-linux-9,image-project=rocky-linux-cloud"
  - Rocky Linux 10："image-family=rocky-linux-10,image-project=rocky-linux-cloud"
  - Ubuntu 22："image-family=ubuntu-2204-lts-amd64,image-project=ubuntu-os-cloud"
  - Ubuntu 24："image-family=ubuntu-2404-lts-amd64,image-project=ubuntu-os-cloud"

將產生的私密金鑰檔案複製到 VM。如要簽署驅動程式檔案，您必須在 VM 上使用新產生的金鑰組。

gcloud compute scp --zone $ZONE --project $PROJECT private.key $INSTANCE_NAME:~/private.key
gcloud compute scp --zone $ZONE --project $PROJECT public.der $INSTANCE_NAME:~/public.der

安裝並簽署驅動程式。安裝指令碼會處理驅動程式和 CUDA Toolkit 的安裝和簽署作業，這個指令碼也適用於不使用安全啟動功能的安裝作業。如要安裝及簽署驅動程式，請完成下列步驟：
1. 使用 SSH 連線至 VM：
```
gcloud compute ssh --zone $ZONE --project $PROJECT $INSTANCE_NAME
```
2. 確認私密金鑰和公開金鑰已正確複製：
```
ls private.key public.der
```
3. 下載驅動程式安裝指令碼：
```
curl -L https://storage.googleapis.com/compute-gpu-installation-us/installer/latest/cuda_installer.pyz --output cuda_installer.pyz
```
4. 確認驅動程式安裝作業已設定簽署。設定期間，建構機器會重新啟動。建構機器重新啟動後，請使用 SSH 連線至 VM，然後重新執行指令碼，繼續安裝作業。
```
sudo python3 cuda_installer.pyz install_driver --secure-boot-pub-key=public.der --secure-boot-priv-key=private.key --ignore-no-gpu
```
  如要同時安裝 CUDA Toolkit，請執行下列指令。
```
sudo python3 cuda_installer.pyz install_cuda --ignore-no-gpu
```
  您可能會看到一些錯誤或警告訊息。這是因為系統未偵測到 GPU，屬於預期結果。系統會在完成 CUDA Toolkit 安裝後重新啟動。重新連線後，即可繼續進行後續步驟。
5. 移除憑證檔案，因為臨時電腦已不再需要這些檔案。為提升安全性，請使用 shred，而非 rm 指令。最終磁碟映像檔不應包含金鑰。
```
shred -uz private.key public.der
```
6. 關閉 VM，以便使用其磁碟建立新映像檔。
```
sudo shutdown now
```

準備基本磁碟映像檔。如要建立新的磁碟映像檔，以便建立啟用安全啟動的執行個體，您必須設定映像檔，信任新產生的金鑰。新的磁碟映像檔仍會接受作業系統使用的預設憑證。如要準備基礎映像檔，請完成下列步驟。

下載預設憑證。使用下列指令下載 MicWinProPCA2011_2011-10-19.crt 和 MicCorUEFCA2011_2011-06-27.crt 憑證：

curl -L https://storage.googleapis.com/compute-gpu-installation-us/certificates/MicCorUEFCA2011_2011-06-27.crt --output MicCorUEFCA2011_2011-06-27.crt
curl -L https://storage.googleapis.com/compute-gpu-installation-us/certificates/MicWinProPCA2011_2011-10-19.crt --output MicWinProPCA2011_2011-10-19.crt

curl -L https://storage.googleapis.com/compute-gpu-installation-us/certificates/windows_uefi_ca_2023.crt --output windows_uefi_ca_2023.crt
curl -L https://storage.googleapis.com/compute-gpu-installation-us/certificates/microsoft_uefi_ca_2023.crt --output microsoft_uefi_ca_2023.crt

驗證憑證：

cat <<EOF >>check.sha1
46def63b5ce61cf8ba0de2e6639c1019d0ed14f3  MicCorUEFCA2011_2011-06-27.crt
b5eeb4a6706048073f0ed296e7f580a790b59eaa  microsoft_uefi_ca_2023.crt
580a6f4cc4e4b669b9ebdc1b2b3e087b80d0678d  MicWinProPCA2011_2011-10-19.crt
45a0fa32604773c82433c3b7d59e7466b3ac0c67  windows_uefi_ca_2023.crt
EOF

sha1sum -c check.sha1

根據暫時 VM 的磁碟建立映像檔。您可以新增 --family=IMAGE_FAMILY_NAME 做為選項，將映像檔設為特定映像檔系列的最新映像檔。建立新圖片可能需要幾分鐘。

在 public.der 檔案和下載的憑證所在的目錄中執行下列指令。

SECURE_BOOT_IMAGE=IMAGE_NAME

gcloud compute images create $SECURE_BOOT_IMAGE \
--source-disk=$DISK_NAME \
--source-disk-zone=$ZONE \
--project=$PROJECT  \
--signature-database-file=MicWinProPCA2011_2011-10-19.crt,MicCorUEFCA2011_2011-06-27.crt,windows_uefi_ca_2023.crt,microsoft_uefi_ca_2023.crt,public.der \
--guest-os-features="UEFI_COMPATIBLE"

執行下列指令，即可驗證憑證的公開金鑰是否已附加至這個新映像檔：

gcloud compute images describe --project=$PROJECT $SECURE_BOOT_IMAGE

確認新圖片。您可以使用新的磁碟映像檔建立 GPU VM。在這個步驟中，我們建議使用啟用安全啟動的 N1 機型，並搭配單一 T4 加速器。不過，映像檔也支援其他類型的 GPU 和機器類型。

建立測試 GPU VM：

TEST_GPU_INSTANCE=TEST_GPU_INSTANCE_NAME
ZONE=ZONE

gcloud compute instances create $TEST_GPU_INSTANCE \
--project=$PROJECT \
--zone=$ZONE \
--machine-type=n1-standard-4 \
--accelerator=count=1,type=nvidia-tesla-t4 \
--create-disk=auto-delete=yes,boot=yes,device-name=$TEST_GPU_INSTANCE,image=projects/$PROJECT/global/images/$SECURE_BOOT_IMAGE,mode=rw,size=100,type=pd-balanced \
--shielded-secure-boot \
--shielded-vtpm \
--shielded-integrity-monitoring \
--maintenance-policy=TERMINATE

更改下列內容：

TEST_GPU_INSTANCE_NAME：您要建立的 GPU VM 執行個體名稱，用於測試新映像檔。
ZONE：具有 T4 GPU 或您選擇的其他 GPU 的區域。詳情請參閱 GPU 地區和區域。

在測試 VM 上使用 gcloud compute ssh 執行 mokutil --sb-state 指令，確認是否已啟用安全啟動。
```
gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_GPU_INSTANCE --command "mokutil --sb-state"
```

使用 gcloud compute ssh 在測試 VM 上執行 nvidia-smi 指令，確認驅動程式已安裝完成。

gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_GPU_INSTANCE --command "nvidia-smi"

如果您已安裝 CUDA Toolkit，可以按照下列步驟使用 cuda_installer 工具驗證安裝：

gcloud compute ssh --project=$PROJECT --zone=$ZONE $TEST_GPU_INSTANCE --command "python3 cuda_installer.pyz verify_cuda"

清理。確認新映像檔可正常運作後，就不需要保留臨時 VM 或驗證 VM。您建立的磁碟映像檔不會以任何方式依附於這些磁碟。您可以使用下列指令刪除這些檔案：
```
gcloud compute instances delete --zone=$ZONE --project=$PROJECT $INSTANCE_NAME
gcloud compute instances delete --zone=$ZONE --project=$PROJECT $TEST_GPU_INSTANCE
```
我們不建議您將安全啟動簽署憑證以未加密狀態儲存在磁碟上。如要安全地儲存金鑰，並與他人共用，可以使用 Secret Manager 保護資料安全。

如果不再需要磁碟上的檔案，建議使用「退出」shred工具安全移除檔案。執行下列指令：
```
# Safely delete the key pair from your system
shred -uz private.key public.der
```

預先簽署 (僅限 Ubuntu)

這些操作說明僅適用於在 Ubuntu 18.04、20.04 和 22.04 作業系統上執行的安全啟動 Linux VM。我們正在開發更多 Linux 作業系統的支援功能。

如要在使用安全啟動的 Ubuntu VM 上安裝 GPU 驅動程式，請完成下列步驟：

連線至要安裝驅動程式的 VM。
更新存放區。
```
 sudo apt-get update
```
搜尋最新的 NVIDIA 核心模組套件或所需版本。這個套件包含以 Ubuntu 金鑰簽署的 NVIDIA 核心模組。如要尋找較早的版本，請變更尾部參數的數字，即可取得較早的版本。例如，指定 tail -n 2。
Ubuntu PRO 和 LTS
如為 Ubuntu PRO 和 LTS，請執行下列指令：
NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')
Ubuntu PRO FIPS
如為 Ubuntu PRO FIPS，請執行下列指令：
1. 啟用 Ubuntu FIPS 更新。
  
  sudo ua enable fips-updates
2. 關機並重新啟動
  
  sudo shutdown -r now
3. 取得最新套件。
  
  NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp-fips$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')
如要查看所選的驅動程式版本，請執行 echo $NVIDIA_DRIVER_VERSION。輸出內容為版本字串，例如 455。
安裝核心模組套件和對應的 NVIDIA 驅動程式。

注意： 安裝套件可能會升級核心。
```
 sudo apt install linux-modules-nvidia-${NVIDIA_DRIVER_VERSION}-gcp nvidia-driver-${NVIDIA_DRIVER_VERSION}
```
如果指令失敗並顯示 package not found error，可能是存放區缺少最新的 NVIDIA 驅動程式。重試上一步，並變更尾號，選取較舊的驅動程式版本。
確認已安裝 NVIDIA 驅動程式。您可能需要重新啟動 VM。
如果您重新啟動系統來驗證 NVIDIA 版本，重新啟動後，您需要重新執行步驟 3 中使用的指令，重設 NVIDIA_DRIVER_VERSION 變數。

設定 APT 以使用 NVIDIA 套件存放區。

如要協助 APT 挑選正確的依附元件，請按照下列方式固定存放區：

sudo tee /etc/apt/preferences.d/cuda-repository-pin-600 > /dev/null <<EOL
Package: nsight-compute
Pin: origin *ubuntu.com*
Pin-Priority: -1

Package: nsight-systems
Pin: origin *ubuntu.com*
Pin-Priority: -1

Package: nvidia-modprobe
Pin: release l=NVIDIA CUDA
Pin-Priority: 600

Package: nvidia-settings
Pin: release l=NVIDIA CUDA
Pin-Priority: 600

Package: *
Pin: release l=NVIDIA CUDA
Pin-Priority: 100
EOL

安裝「software-properties-common」。如果您使用 Ubuntu 最低版本映像檔，則必須執行這項操作。
```
sudo apt install software-properties-common
```
設定 Ubuntu 版本。
Ubuntu 18.04
如為 Ubuntu 18.04，請執行下列指令：
export UBUNTU_VERSION=ubuntu1804/x86_64
Ubuntu 20.04
如為 Ubuntu 20.04，請執行下列指令：
export UBUNTU_VERSION=ubuntu2004/x86_64
Ubuntu 22.04
如果是 Ubuntu 22.04，請執行下列指令：
export UBUNTU_VERSION=ubuntu2204/x86_64

下載 cuda-keyring 套件。

wget https://developer.download.nvidia.com/compute/cuda/repos/$UBUNTU_VERSION/cuda-keyring_1.0-1_all.deb

安裝 cuda-keyring 套件。
```
sudo dpkg -i cuda-keyring_1.0-1_all.deb
```

新增 NVIDIA 存放區。

sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/$UBUNTU_VERSION/ /"

如果系統提示您選取預設動作，請選取保留目前版本。

找出相容的 CUDA 驅動程式版本。

下列指令碼會判斷與我們剛安裝的 NVIDIA 驅動程式相容的最新 CUDA 驅動程式版本：
```
 CUDA_DRIVER_VERSION=$(apt-cache madison cuda-drivers | awk '{print $3}' | sort -r | while read line; do
    if dpkg --compare-versions $(dpkg-query -f='${Version}\n' -W nvidia-driver-${NVIDIA_DRIVER_VERSION}) ge $line ; then
       echo "$line"
       break
    fi
 done)
```
如要查看 CUDA 驅動程式版本，請執行 echo $CUDA_DRIVER_VERSION。輸出內容為版本字串，例如 455.32.00-1。

安裝上一步中識別出的 CUDA 驅動程式版本。

 sudo apt install cuda-drivers-${NVIDIA_DRIVER_VERSION}=${CUDA_DRIVER_VERSION} cuda-drivers=${CUDA_DRIVER_VERSION}

選用：保留 dkms 套件。

啟用安全啟動後，所有核心模組都必須經過簽署才能載入。dkms 建構的 Kernel 模組無法在 VM 上運作，因為這些模組預設未正確簽署。這是選用步驟，但可協助您避免日後不小心安裝其他 dkms 套件。

如要保留 dkms 套件，請執行下列指令：
```
 sudo apt-get remove dkms && sudo apt-mark hold dkms
```

安裝 CUDA 工具包和執行階段。

選擇合適的 CUDA 版本。下列指令碼會判斷與我們剛安裝的 CUDA 驅動程式相容的最新 CUDA 版本：

 CUDA_VERSION=$(apt-cache showpkg cuda-drivers | grep -o 'cuda-runtime-[0-9][0-9]-[0-9],cuda-drivers [0-9\\.]*' | while read line; do
    if dpkg --compare-versions ${CUDA_DRIVER_VERSION} ge $(echo $line | grep -Eo '[[:digit:]]+\.[[:digit:]]+') ; then
       echo $(echo $line | grep -Eo '[[:digit:]]+-[[:digit:]]')
       break
    fi
 done)

您可以執行 echo $CUDA_VERSION 來檢查 CUDA 版本。輸出內容為版本字串，例如 11-1。

安裝 CUDA 套件。
```
 sudo apt install cuda-${CUDA_VERSION}
```
驗證 CUDA 安裝作業。
```
 sudo nvidia-smi
 /usr/local/cuda/bin/nvcc --version
```
第一個指令會輸出 GPU 資訊。第二個指令會列印已安裝的 CUDA 編譯器版本。

安裝 vGPU 驅動程式 (分數 GPU)

這些操作說明適用於在 G4 VM 上安裝 vGPU 驅動程式，這類 VM 連接的 GPU 不到一個 (部分 GPU)，提供 1/2、1/4 或 1/8 的標準 G4 GPU。

如果 G4 執行個體附加了部分 GPU (vGPU)，您必須在執行個體上安裝特定 vGPU 驅動程式，該程式會連線至實體機器的主機驅動程式。您必須使用下列最低版本的驅動程式：

Linux：580.126.09
Windows：582.16

支援 GPU 的機型

本節中的程序支援下列 G4 機器類型：

g4-standard-6
g4-standard-12
g4-standard-24

安裝

驅動程式安裝指令碼支援部分 GPU，建議您使用這個指令碼在機器上安裝驅動程式。

如要在 GPU 數量少於 1 個的 Linux G4 VM 上手動安裝 vGPU 驅動程式，請完成下列步驟：

使用 SSH 連線至執行個體。
```
gcloud compute ssh INSTANCE_NAME \
     --zone=us-central1-b
```
將 INSTANCE_NAME 換成您的執行個體名稱。
更新系統套件清單。
```
sudo apt-get -y update
```

安裝核心標頭和必要建構工具。

(sudo apt-get install -y linux-headers-$(uname -r) build-essential gcc g++ make dkms pciutils bison flex libxml2 libncurses5-dev) || \
(sudo apt-get install -y linux-headers-cloud-amd64 build-essential gcc g++ make dkms pciutils bison flex libxml2 libncurses5-dev)

如要確保 cc 編譯器可用，請執行下列指令：

if ! command -v cc &> /dev/null
then
     sudo ln -sf /usr/bin/gcc /usr/bin/cc
     echo "'cc' is now linked to 'gcc'."
else
     echo "'cc' is already available."
fi

export PATH=$PATH:/usr/sbin

從 Cloud Storage 下載特定必要驅動程式。

gcloud storage cp gs://gce-nvidia-vgpu-drivers/G4_VGPU/NVIDIA-Linux-x86_64-580.126.09-grid-gcp.run .

執行下列指令，讓驅動程式可執行：

chmod +x NVIDIA-Linux-x86_64-580.126.09-grid-gcp.run

在執行個體上安裝 vGPU 驅動程式。

sudo ./NVIDIA-Linux-x86_64-580.126.09-grid-gcp.run -s

確認驅動程式安裝作業。
```
nvidia-smi
```

確認 GPU 驅動程式已順利安裝

完成驅動程式安裝步驟後，請確認驅動程式已正確安裝並初始化。

Linux

連線至 Linux 執行個體，然後使用 nvidia-smi 指令確認驅動程式正常執行。

sudo nvidia-smi

輸出結果會與下列內容相似：

  +-----------------------------------------------------------------------------------------+
  | NVIDIA-SMI 580.82.07              Driver Version: 580.82.07      CUDA Version: 13.0     |
  +-----------------------------------------+------------------------+----------------------+
  | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
  | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
  |                                         |                        |               MIG M. |
  |=======================================+====================+====================|
  |   0  Tesla T4                       On  |   00000000:00:04.0 Off |                    0 |
  | N/A   53C    P8             17W /   70W |       0MiB /  15360MiB |      0%      Default |
  |                                         |                        |                  N/A |
  +-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
  | Processes:                                                                              |
  |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
  |        ID   ID                                                               Usage      |
  |=========================================================================================|
  |  No running processes found                                                             |
  +-----------------------------------------------------------------------------------------+

如果這個指令失敗，請檢查 GPU 是否已連結至運算執行個體。如要檢查是否有任何 NVIDIA PCI 裝置，請執行下列指令：

sudo lspci | grep -i "nvidia"

Windows Server

連線至 Windows Server 執行個體，然後開啟 PowerShell 終端機並執行下列指令，確認驅動程式正常執行。

nvidia-smi

輸出結果會與下列內容相似：

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 538.67                 Driver Version: 538.67       CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                     TCC/WDDM  | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA L4                    WDDM  | 00000000:00:03.0 Off |                    0 |
| N/A   66C    P8              17W /  72W |    128MiB / 23034MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      4888    C+G   ...CBS_cw5n1h2txyewy\TextInputHost.exe    N/A      |
|    0   N/A  N/A      5180    C+G   ....Search_cw5n1h2txyewy\SearchApp.exe    N/A      |
+---------------------------------------------------------------------------------------+

後續步驟

如要監控 GPU 效能，請參閱「監控 GPU 效能」。

如要處理 GPU 主機維護作業，請參閱「處理 GPU 主機維護事件」。
如要提升網路效能，請參閱「使用較高的網路頻寬」。
如要排解 GPU VM 的問題，請參閱「排解 GPU VM 問題」。

安裝 GPU 驅動程式 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

事前準備

控制台

gcloud

REST

NVIDIA 驅動程式、CUDA 工具包和 CUDA 執行階段版本

瞭解 NVIDIA 驅動程式分支版本

建議使用的 NVIDIA 驅動程式分支版本

使用 CUDA Toolkit 指南在運算執行個體上安裝 GPU 驅動程式

使用安裝指令碼在運算執行個體上安裝 GPU 驅動程式

Linux

Linux (開機指令碼)

Windows

Windows (自動)

安裝 GPU 驅動程式 (安全啟動 VM)

支援 GPU 的機型

安裝

自行簽署 (自動)

自行簽署 (手動)

預先簽署 (僅限 Ubuntu)

Ubuntu PRO 和 LTS

Ubuntu PRO FIPS

Ubuntu 18.04

Ubuntu 20.04

Ubuntu 22.04

安裝 vGPU 驅動程式 (分數 GPU)

支援 GPU 的機型

安裝

確認 GPU 驅動程式已順利安裝

Linux

Windows Server

後續步驟

安裝 GPU 驅動程式