Vertex AI 說明文件不再更新

Vertex AI 的服務現已併入 Gemini Enterprise Agent Platform。如要查看最新資訊，請參閱 Agent Platform 說明文件。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用修復功能在圖片中插入物件

注意：下表說明已淘汰的圖片生成端點及其替代方案。建議您在 2026 年 6 月 30 日前更新模型端點，以免服務中斷。

已停用的端點	建議的端點遷移方式
`imagegeneration@002`	`gemini-2.5-flash-image`
`imagegeneration@003`	`gemini-2.5-flash-image`
`imagegeneration@004`	`gemini-2.5-flash-image`
`imagegeneration@005`	`gemini-2.5-flash-image`
`imagegeneration@006`	`gemini-2.5-flash-image`
`imagetext@001`	`gemini-2.5-flash-image`
`imagen-3.0-capability-001`	`gemini-2.5-flash-image`
`imagen-3.0-capability-002`	`gemini-2.5-flash-image`
`imagen-3.0-fast-generate-001`	`gemini-2.5-flash-image`
`imagen-3.0-generate-001`	`gemini-2.5-flash-image`
`imagen-3.0-generate-002`	`gemini-2.5-flash-image`
`imagen-4.0-fast-generate-001`	`gemini-2.5-flash-image`
`imagen-4.0-generate-001`	`gemini-2.5-flash-image`
`imagen-4.0-ultra-generate-001`	`gemini-2.5-flash-image`

本頁說明如何將物件插入圖片，這個程序也稱為修復。透過 Vertex AI 的 Imagen，您可以指定遮罩區域，在圖片中插入物件。您可以自行提供遮罩，也可以讓 Imagen 為您生成遮罩。

下列模型支援在圖片中插入物件：

imagen-3.0-capability-001

內容插入範例

使用修復功能時，您可以提供基礎圖片、圖片遮罩和文字提示，在現有圖片中加入內容。

輸入內容

要編輯的基礎圖片^*	使用 Google Cloud 控制台中的工具指定遮罩區域	文字提示
		草莓

^{* 圖片來源：Alex Lvrs
(Unsplash)。}

在 Google Cloud 控制台中指定遮罩區域後的輸出內容

螢幕截圖：生成編輯內容，顯示裝有紅色液體的玻璃罐。從這張螢幕截圖中可看出，原本位於圖片前景的檸檬片，已換成罐子正前方的兩顆草莓。

螢幕截圖：生成編輯內容，顯示裝有紅色液體的玻璃罐。在這個螢幕截圖中，圖片前景中原本的檸檬片已換成罐子左側的三顆草莓。

螢幕截圖：生成編輯內容，顯示裝有紅色液體的玻璃罐。在這個螢幕截圖中，原本位於圖片前景的檸檬片已換成兩顆草莓，位置稍微在罐子前方和左側。

查看「Imagen for Editing and Customization」模型資訊卡

事前準備

登入 Google Cloud 帳戶。如果您是 Google Cloud新手，歡迎建立帳戶，親自評估產品在實際工作環境中的成效。新客戶還能獲得價值 $300 美元的免費抵免額，可用於執行、測試及部署工作負載。

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

為環境設定驗證機制。

選取這個頁面上的分頁，瞭解如何使用範例：
控制台

使用 Google Cloud 控制台存取 Google Cloud 服務和 API 時，無須設定驗證。
Python

如要在本機開發環境中使用本頁的 Python 範例，請安裝並初始化 gcloud CLI，然後使用您的使用者憑證設定應用程式預設憑證。
1. 安裝 Google Cloud CLI。
2. 若您採用的是外部識別資訊提供者 (IdP)，請先使用聯合身分登入 gcloud CLI。
3. 如果您使用本機殼層，請為使用者帳戶建立本機驗證憑證：
  gcloud auth application-default login
  如果您使用 Cloud Shell，則不需要執行這項操作。
  
  如果系統傳回驗證錯誤，且您使用外部識別資訊提供者 (IdP)，請確認您已使用聯合身分登入 gcloud CLI。
詳情請參閱 Google Cloud 驗證說明文件中的「為本機開發環境設定 ADC」。
REST

如要在本機開發環境中使用本頁的 REST API 範例，請使用您提供給 gcloud CLI 的憑證。
詳情請參閱 Google Cloud 驗證說明文件中的「使用 REST 進行驗證」。

插入已定義遮罩區域的內容

使用下列範例，透過 Imagen 3 模型傳送局部修復要求。

控制台

在 Google Cloud 控制台中，依序前往「Vertex AI」>「Vertex AI Studio」頁面。

前往 Vertex AI Studio
按一下「生成媒體」。
按一下「圖片」。
從「工作」清單中選取「修復 - 新增」。
從「模型」清單中選取要使用的 Imagen 模型。
在「輸入圖片」中，按一下「新增」，然後選取要上傳的編輯圖片。
在「提示」方塊中輸入提示，說明如何編輯圖片。
執行下列任一操作來指定遮罩：
- 上傳自己的遮罩：
  1. 在電腦上建立遮罩。
  2. 按一下「上傳」 匯入遮罩，然後選取要上傳的遮罩。
- 定義遮罩：在編輯工具列中，使用遮罩工具 (方塊、筆刷、masked_transitions、反轉工具) 指定要新增內容的區域。
按一下「執行」。

Python

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_ENTERPRISE=True

from google import genai
from google.genai.types import (
    RawReferenceImage,
    MaskReferenceImage,
    MaskReferenceConfig,
    EditImageConfig,
)

client = genai.Client()

# TODO(developer): Update and un-comment below line
# output_file = "output-image.png"

raw_ref = RawReferenceImage(
    reference_image=Image.from_file(location="test_resources/fruit.png"),
    reference_id=0,
)
mask_ref = MaskReferenceImage(
    reference_id=1,
    reference_image=Image.from_file(location="test_resources/fruit_mask.png"),
    config=MaskReferenceConfig(
        mask_mode="MASK_MODE_USER_PROVIDED",
        mask_dilation=0.01,
    ),
)

image = client.models.edit_image(
    model="imagen-3.0-capability-001",
    prompt="A plate of cookies",
    reference_images=[raw_ref, mask_ref],
    config=EditImageConfig(
        edit_mode="EDIT_MODE_INPAINT_INSERTION",
    ),
)

image.generated_images[0].image.save(output_file)

print(f"Created output image using {len(image.generated_images[0].image.image_bytes)} bytes")
# Example response:
# Created output image using 1234567 bytes

REST

如要進一步瞭解 Imagen API，請參閱下列內容：

使用任何要求資料之前，請先修改下列項目的值：

REGION：專案所在的區域。如要進一步瞭解支援的區域，請參閱「Vertex AI 的生成式 AI 服務地區」。
PROJECT_ID：您的 Google Cloud 專案 ID。
TEXT_PROMPT：選用。文字提示，引導模型生成圖像。為獲得最佳效果，請使用遮蓋區域的說明，並避免使用單字提示。舉例來說，請使用「一隻可愛的柯基犬」，而不是「柯基犬」。
B64_BASE_IMAGE：經過編輯的圖片 (大小上限為 10 MB，並採用 Base64 編碼)。如要進一步瞭解 base64 編碼，請參閱「Base64 編碼及解碼檔案」。
B64_MASK_IMAGE：大小為 10 MB 以下的黑白遮罩圖片，採用 Base64 編碼。
MASK_DILATION：選用。介於 0 到 1 之間的浮點值 (含 0 和 1)，代表遮罩要擴大的圖片寬度百分比。使用 dilation 有助於補償不精確的遮罩。建議將這個值設為 0.01。
EDIT_STEPS：選用。代表取樣步數的整數。值越高，影像品質越好；值越低，延遲時間越短。

建議您先嘗試35步驟。如果品質不符合需求，建議您將值調高至上限 75。
SAMPLE_COUNT：選用。整數，用來描述要生成的圖片數量。可接受的值範圍為 1 到 4，預設值為 4。

HTTP 方法和網址：

POST https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/imagen-3.0-capability-001:predict

JSON 要求內文：

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT",
      "referenceImages": [
        {
          "referenceType": "REFERENCE_TYPE_RAW",
          "referenceId": 1,
          "referenceImage": {
            "bytesBase64Encoded": "B64_BASE_IMAGE"
          }
        },
        {
          "referenceType": "REFERENCE_TYPE_MASK",
          "referenceImage": {
            "bytesBase64Encoded": "B64_MASK_IMAGE"
          },
          "maskImageConfig": {
            "maskMode": "MASK_MODE_USER_PROVIDED",
            "dilation": MASK_DILATION
          }
        }
      ]
    }
  ],
  "parameters": {
    "editConfig": {
      "baseSteps": EDIT_STEPS
    },
    "editMode": "EDIT_MODE_INPAINT_INSERTION",
    "sampleCount": SAMPLE_COUNT
  }
}

如要傳送要求，請選擇以下其中一個選項：

curl

注意：下列指令假設您已執行 gcloud init 或 gcloud auth login 透過使用者帳戶登入 gcloud CLI，或是使用 Cloud Shell 自動登入 gcloud CLI。您可以執行 gcloud auth list，查看目前使用的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/imagen-3.0-capability-001:predict"

PowerShell

注意：下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI。您可以執行 gcloud auth list，查看目前使用的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/imagen-3.0-capability-001:predict" | Select-Object -Expand Content

以下是要求的回應範例，其中包含 "sampleCount": 2。回應會傳回兩個預測物件，其中包含以 base64 編碼產生的圖片位元組。

{
  "predictions": [
    {
      "bytesBase64Encoded": "BASE64_IMG_BYTES",
      "mimeType": "image/png"
    },
    {
      "mimeType": "image/png",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    }
  ]
}

插入時自動偵測遮罩

使用下列範例指定修復功能，插入內容。在這些範例中，您會指定基本圖片和文字提示。Imagen 會自動偵測並建立遮罩區域，以修改基本圖像。

控制台

在 Google Cloud 控制台中，依序前往「Vertex AI」>「Vertex AI Studio」頁面。

前往 Vertex AI Studio
按一下「生成媒體」。
按一下「圖片」。
從「工作」清單中選取「修復 - 新增」。
從「模型」清單中選取要使用的 Imagen 模型。
在「輸入圖片」中，按一下「新增」，然後選取要上傳的編輯圖片。
在「提示」方塊中輸入提示，說明如何編輯圖片。
在編輯工具列中，按一下 background_replace「擷取遮罩」。
選取其中一個遮罩擷取選項：
- 背景元素：偵測背景元素，並在周圍建立遮罩。
- 前景元素：偵測前景物件，並在周圍建立遮罩。
- background_replace People：偵測人物並建立周圍的遮罩。
按一下「執行」。

Python

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_ENTERPRISE=True

from google import genai
from google.genai.types import (
    RawReferenceImage,
    MaskReferenceImage,
    MaskReferenceConfig,
    EditImageConfig,
)

client = genai.Client()

# TODO(developer): Update and un-comment below line
# output_file = "output-image.png"

raw_ref = RawReferenceImage(
    reference_image=Image.from_file(location="test_resources/fruit.png"),
    reference_id=0,
)
mask_ref = MaskReferenceImage(
    reference_id=1,
    reference_image=None,
    config=MaskReferenceConfig(
        mask_mode="MASK_MODE_FOREGROUND",
        mask_dilation=0.1,
    ),
)

image = client.models.edit_image(
    model="imagen-3.0-capability-001",
    prompt="A small white ceramic bowl with lemons and limes",
    reference_images=[raw_ref, mask_ref],
    config=EditImageConfig(
        edit_mode="EDIT_MODE_INPAINT_INSERTION",
    ),
)

image.generated_images[0].image.save(output_file)

print(f"Created output image using {len(image.generated_images[0].image.image_bytes)} bytes")
# Example response:
# Created output image using 1234567 bytes

REST

如要進一步瞭解 Imagen API，請參閱下列內容：

使用任何要求資料之前，請先修改下列項目的值：

PROJECT_ID：您的 Google Cloud 專案 ID。
LOCATION：專案的區域。例如 us-central1、europe-west2 或 asia-northeast3。如需可用區域的清單，請參閱「Vertex AI 生成式 AI 服務地區」。使用地區 API 端點時，系統會根據端點網址中的區域，決定要求處理位置，並忽略資源路徑中發生衝突的 LOCATION。
TEXT_PROMPT：文字提示會引導模型生成圖片。使用提示進行局部修復插入時，請盡量詳細描述遮罩區域，避免使用單字提示。舉例來說，請使用「一隻可愛的柯基犬」，不要使用「柯基犬」。
B64_BASE_IMAGE：要編輯或放大畫質的基本圖片。圖片必須指定為 base64 編碼的位元組字串。大小限制：10 MB。
MASK_MODE - 字串，用於設定模型使用的自動遮罩建立類型。可用值：
- MASK_MODE_BACKGROUND：使用背景分割功能自動產生遮罩。
- MASK_MODE_FOREGROUND：使用前景區隔自動生成遮罩。
- MASK_MODE_SEMANTIC：根據您在 maskImageConfig.maskClasses 陣列中指定的區隔類別，使用語意區隔自動產生遮罩。例如：
```
          "maskImageConfig": {
            "maskMode": "MASK_MODE_SEMANTIC",
            "maskClasses": [175, 176], // bicycle, car
            "dilation": 0.01
          }
        
```
MASK_DILATION - float。這個遮罩要擴張的圖片寬度百分比。建議使用 0.01 的值，補償不完美的輸入遮罩。
EDIT_STEPS - 整數。基礎模型的取樣步驟數。如要插入修復內容，請從 35 步驟開始。如果品質不符合需求，請將步驟數調高至上限 75。增加步驟也會增加要求延遲時間。
EDIT_IMAGE_COUNT - 編輯過的圖片數量。接受的整數值：1 到 4。預設值：4。

HTTP 方法和網址：

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict

JSON 要求內文：

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT",
      "referenceImages": [
        {
          "referenceType": "REFERENCE_TYPE_RAW",
          "referenceId": 1,
          "referenceImage": {
            "bytesBase64Encoded": "B64_BASE_IMAGE"
          }
        },
        {
          "referenceType": "REFERENCE_TYPE_MASK",
          "referenceId": 2,
          "maskImageConfig": {
            "maskMode": "MASK_MODE",
            "dilation": MASK_DILATION
          }
        }
      ]
    }
  ],
  "parameters": {
    "editConfig": {
      "baseSteps": EDIT_STEPS
    },
    "editMode": "EDIT_MODE_INPAINT_INSERTION",
    "sampleCount": EDIT_IMAGE_COUNT
  }
}

如要傳送要求，請選擇以下其中一個選項：

curl

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict"

PowerShell

注意：下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI。您可以執行 gcloud auth list，查看目前使用的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict" | Select-Object -Expand Content

以下是要求的回應範例，其中包含 "sampleCount": 2。回應會傳回兩個預測物件，其中包含以 base64 編碼產生的圖片位元組。

{
  "predictions": [
    {
      "bytesBase64Encoded": "BASE64_IMG_BYTES",
      "mimeType": "image/png"
    },
    {
      "mimeType": "image/png",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    }
  ]
}

限制

以下各節說明 Imagen 物件移除功能的限制。

修改過的像素

模型會以自己的解析度 (例如 1024x1024) 生成像素，這可能與輸入圖片的解析度不同。也就是說，生成的圖片可能與原始圖片略有不同。

如要完美保留圖片，建議使用遮罩將生成的圖片與輸入圖片混合。一般來說，如果輸入圖片解析度為 2K 以上，就必須混合生成圖片和輸入圖片。

插入限制

雖然插入的物件通常會與基礎圖片的風格相符，但某些關鍵字可能會產生卡通風格的結果，而非相片擬真輸出內容。

舉例來說，如果提示是「黃色長頸鹿」，由於長頸鹿的自然顏色是棕色和黃褐色，因此系統可能會生成卡通風格的圖片。生成色彩不自然的擬真圖像可能很困難。

後續步驟

閱讀有關 Imagen 和其他 Vertex AI 生成式 AI 產品的文章：

Vertex AI 說明文件不再更新

使用修復功能在圖片中插入物件 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

內容插入範例

事前準備

控制台

Python

REST

插入已定義遮罩區域的內容

控制台

Python

安裝

REST

curl

PowerShell

插入時自動偵測遮罩

控制台

Python

安裝

REST

curl

PowerShell

限制

修改過的像素

插入限制

後續步驟

使用修復功能在圖片中插入物件