画像の理解

Gemini リクエストに画像を追加して、含まれる画像の内容を理解するタスクを実行できます。このページでは、Google Cloud コンソールと Vertex AI API を使用して、Vertex AI で Gemini に送信するリクエストに画像を追加する方法について説明します。

サポートされているモデル

次の表に、画像理解をサポートするモデルを示します。

モデル	メディアの詳細	MIME タイプ
Gemini 3 Pro プレビューモデル	プロンプトあたりの最大画像数: 900 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB デフォルトの解像度トークン: 1,120	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 3 Pro Image プレビューモデル	プロンプトあたりの最大画像数: 14 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB プロンプトあたりの出力画像の最大数: 32,768 個の出力トークンに制限サポートされているアスペクト比: 1:1、3:2、2:3、3:4、4:3、4:5、5:4、9:16、16:9、21:9	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Pro	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash プレビューモデル	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash-Lite プレビューモデル	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB プロンプトあたりの出力画像の最大数: 10	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash Image	プロンプトあたりの最大画像数: 3 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB プロンプトあたりの出力画像の最大数: 10 サポートされているアスペクト比: 1:1、3:2、2:3、3:4、4:3、4:5、5:4、9:16、16:9、21:9	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash-Lite	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB プロンプトあたりの出力画像の最大数: 10	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash + Live API ネイティブ音声プレビューモデル	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.0 Flash + 画像生成プレビューモデル	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB プロンプトあたりの出力画像の最大数: 10 プロジェクトあたりの 1 分間の最大トークン数（TPM）メディア解像度（高解像度 / 中解像度 / デフォルト）: 米国 / アジア: 4,000 万 EU: 1,000 万低解像度のメディア: 米国 / アジア: 1,000 万 EU: 300 万	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.0 Flash	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB プロジェクトあたりの 1 分間の最大トークン数（TPM）メディア解像度（高解像度 / 中解像度 / デフォルト）: 米国 / アジア: 4,000 万 EU: 1,000 万低解像度のメディア: 米国 / アジア: 1,000 万 EU: 260 万	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.0 Flash-Lite	プロンプトあたりの最大画像数: 3,000 コンソールから直接アップロードする場合またはインラインデータのファイルあたりの最大ファイルサイズ: 7 MB Google Cloud Storage からのファイルあたりの最大ファイルサイズ: 30 MB 1 分あたりの最大トークン数（TPM）: メディア解像度（高解像度 / 中解像度 / デフォルト）: 米国 / アジア: 670 万 EU: 260 万低解像度のメディア: 米国 / アジア: 260 万 EU: 260 万	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`

Gemini モデルでサポートされている言語の一覧については、モデル情報の Google モデルをご覧ください。マルチモーダルプロンプトの設計方法について詳しくは、マルチモーダルプロンプトを設計するをご覧ください。モバイルアプリやウェブアプリから Gemini を直接使用することをお考えの場合は、Swift、Android、ウェブ、Flutter、Unity アプリの Firebase AI Logic クライアント SDK をご覧ください。

リクエストに画像を追加する

Gemini へのリクエストに単一の画像または複数の画像を追加できます。

単一の画像

次の各タブのサンプルコードでは、画像に含まれているものを識別するさまざまな方法を示します。このサンプルは、すべての Gemini マルチモーダルモデルで動作します。

コンソール

Google Cloud コンソールでマルチモーダルプロンプトを送信する手順は次のとおりです。

Google Cloud コンソールの [Vertex AI] セクションで、[Vertex AI Studio] ページに移動します。

Vertex AI Studio に移動
[自由形式を開く] をクリックします。
省略可: モデルとパラメータを構成します。
- Model: モデルを選択します。
- リージョン: 使用するリージョンを選択します。
- 温度: スライダーまたはテキストボックスを使用して、温度の値を入力します。
  
  温度は、レスポンス生成時のサンプリングに使用されます。レスポンス生成は、topP と topK が適用された場合に発生します。温度は、トークン選択のランダム性の度合いを制御します。温度が低いほど、確定的で自由度や創造性を抑えたレスポンスが求められるプロンプトに適しています。一方、温度が高いと、より多様で創造的な結果を導くことができます。温度が 0 の場合、確率が最も高いトークンが常に選択されます。この場合、特定のプロンプトに対するレスポンスはほとんど確定的ですが、わずかに変動する可能性は残ります。
  モデルが返すレスポンスが一般的すぎる、短すぎる、あるいはフォールバック（代替）レスポンスが返ってくる場合は、温度を高く設定してみてください。モデルが無限生成の状態に移行した場合は、温度を 0.1 以上に引き上げると、結果が改善される可能性があります。
  1.0 は、温度の推奨開始値です。
- 出力トークンの上限: スライダーまたはテキストボックスを使用して、最大出力の上限値を入力します。
  
  レスポンスで生成できるトークンの最大数。1 トークンは約 4 文字です。100 トークンは約 60～80 語に相当します。
  レスポンスを短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。
- 停止シーケンスを追加: 省略可。停止シーケンスを入力します。これはスペースを含む一連の文字列です。モデルが停止シーケンスに遭遇すると、レスポンスの生成が停止します。停止シーケンスはレスポンスには含まれません。停止シーケンスは 5 つまで追加できます。
省略可: 詳細パラメータを構成するには、[詳細] をクリックして、次のように構成します。
クリックして [高度な構成] を開く
- Top-K: スライダーまたはテキストボックスを使用して、Top-K の値を入力します（Gemini 1.5 ではサポートされていません）。
  Top-K は、モデルが出力用にトークンを選択する方法を変更します。Top-K が 1 の場合、次に選択されるトークンは、モデルの語彙内のすべてのトークンで最も確率の高いものであることになります（グリーディデコードとも呼ばれます）。Top-K が 3 の場合は、最も確率が高い上位 3 つのトークンから次のトークン選択されることになります（温度を使用します）。
  トークン選択のそれぞれのステップで、最も高い確率を持つ Top-K のトークンがサンプリングされます。その後、トークンは Top-P に基づいてさらにフィルタされ、最終的なトークンは温度サンプリングを使って選択されます。
  
  ランダムなレスポンスを減らしたい場合は小さい値を、ランダムなレスポンスを増やしたい場合は大きい値を指定します。
- Top-P: スライダーまたはテキストボックスを使用して、Top-P の値を入力します。確率の合計が Top-P の値と等しくなるまで、最も確率が高いものから最も確率が低いものの順に、トークンが選択されます。結果を最小にするには、Top-P を 0 に設定します。
- 最大レスポンス数: スライダーまたはテキストボックスを使用して、生成するレスポンスの数の値を入力します。
- ストリーミングレスポンス: 有効にすると、レスポンスが生成されたときに出力されます。
- 安全フィルタのしきい値: 有害なおそれのあるレスポンスが表示される可能性のしきい値を選択します。
- グラウンディングを有効にする: マルチモーダルプロンプトでは、グラウンティングはサポートされていません。
[メディアを挿入] をクリックし、ファイルのソースを選択します。
アップロード
アップロードするファイルを選択して [開く] をクリックします。

URL
使用するファイルの URL を入力し、[挿入] をクリックします。

Cloud Storage
バケットを選択してから、バケット内のインポートするファイルを選択し、[選択] をクリックします。
Google ドライブ
1. このオプションを初めて選択するときに、アカウントを選択して Vertex AI Studio がアカウントにアクセスできるように同意します。合計サイズが最大 10 MB の複数のファイルをアップロードできます。1 つのファイルのサイズが 7 MB を超えないようにしてください。
2. 追加するファイルをクリックします。
3. [選択] をクリックします。
  
  ファイルのサムネイルが [プロンプト] ペインに表示されます。トークンの合計数も表示されます。プロンプトデータがトークンの上限を超えると、トークンは切り捨てられ、データの処理には含まれません。
[プロンプト] ペインにテキストプロンプトを入力します。
省略可: [テキストのトークン ID] と [トークン ID] を表示するには、[プロンプト] ペインで [トークン数] をクリックします。
注: メディアトークンはサポートされていません。
[送信] をクリックします。
省略可: プロンプトを [マイプロンプト] に保存するには、[ 保存] をクリックします。
省略可: プロンプトの Python コードまたは curl コマンドを取得するには、[コードを取得] をクリックします。

Python

インストール

pip install --upgrade google-genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        "What is shown in this image?",
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/image/scones.jpg",
            mime_type="image/jpeg",
        ),
    ],
)
print(response.text)
# Example response:
# The image shows a flat lay of blueberry scones arranged on parchment paper. There are ...

Go

Go をインストールまたは更新する方法について学びます。

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithTextImage shows how to generate text using both text and image input
func generateWithTextImage(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is shown in this image?"},
			{FileData: &genai.FileData{
				// Image source: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
				FileURI:  "gs://cloud-samples-data/generative-ai/image/scones.jpg",
				MIMEType: "image/jpeg",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The image shows an overhead shot of a rustic, artistic arrangement on a surface that ...

	return nil
}

Node.js

インストール

npm install @google/genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateContent(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const image = {
    fileData: {
      fileUri: 'gs://cloud-samples-data/generative-ai/image/scones.jpg',
      mimeType: 'image/jpeg',
    },
  };

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [image, 'What is shown in this image?'],
  });

  console.log(response.text);

  return response.text;
}

Java

Java をインストールまたは更新します。

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;

public class TextGenerationWithTextAndImage {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates text with text and image input
  public static String generateContent(String modelId) {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromText("What is shown in this image?"),
                  Part.fromUri(
                      "gs://cloud-samples-data/generative-ai/image/scones.jpg", "image/jpeg")),
              null);

      System.out.print(response.text());
      // Example response:
      // The image shows a flat lay of blueberry scones arranged on parchment paper. There are ...
      return response.text();
    }
  }
}

REST

環境をセットアップしたら、REST を使用してテキストプロンプトをテストできます。次のサンプルは、パブリッシャーモデルのエンドポイントにリクエストを送信します。

Cloud Storage に保存されている画像を追加することも、base64 でエンコードされた画像データを使用することもできます。

Cloud Storage 内の画像

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際のプロジェクト ID。
FILE_URI: プロンプトに含めるファイルの URI または URL。指定できる値は以下のとおりです。
- Cloud Storage バケット URI: オブジェクトは一般公開されているか、リクエストを送信するプロジェクトと同じ Google Cloud プロジェクトに存在している必要があります。gemini-2.0-flash と gemini-2.0-flash-lite の場合、サイズの上限は 2 GB です。
- HTTP URL: ファイルの URL は一般公開されている必要があります。リクエストごとに 1 つの動画ファイル、1 つの音声ファイル、最大 10 個の画像ファイルを指定できます。音声ファイル、動画ファイル、ドキュメントのサイズは 15 MB 以下にする必要があります。
- YouTube 動画の URL: YouTube 動画は、 Google Cloud コンソールのログインに使用したアカウントが所有しているか、公開されている必要があります。リクエストごとにサポートされる YouTube 動画の URL は 1 つだけです。
fileURI を指定する場合は、ファイルのメディアタイプ（mimeType）も指定する必要があります。VPC Service Controls が有効になっている場合、fileURI のメディアファイル URL の指定はサポートされていません。

Cloud Storage に画像ファイルがない場合は、MIME タイプが image/jpeg の一般公開ファイル gs://cloud-samples-data/generative-ai/image/scones.jpg を使用できます。この画像を表示するには、サンプルの画像ファイルを開きます。
MIME_TYPE: data フィールドまたは fileUri フィールドで指定されたファイルのメディアタイプ。指定できる値は以下のとおりです。
クリックして MIME タイプを開く
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT: プロンプトに含める指示のテキスト。例: What is shown in this image?

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存します。ターミナルで次のコマンドを実行して、このファイルを現在のディレクトリに作成または上書きします。

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

その後、次のコマンドを実行して REST リクエストを送信します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent"

PowerShell

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

その後、次のコマンドを実行して REST リクエストを送信します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

レスポンス

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": " The image shows a table with a cup of coffee, a bowl of blueberries, and a plate of scones with blueberries on it. There are also pink flowers on the table."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.027742893,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07276838
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.026155617,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07172113
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.04304285,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.037608635
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.08803312,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09203286
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 265,
    "candidatesTokenCount": 35,
    "totalTokenCount": 300
  }
}

Base64 画像データ

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION: リクエストを処理するリージョン。サポートされているリージョンを入力します。サポートされているリージョンの一覧については、利用可能なロケーションをご覧ください。
クリックして、利用可能なリージョンの一部を開く
- us-central1
- us-west4
- northamerica-northeast1
- us-east4
- us-west1
- asia-northeast3
- asia-southeast1
- asia-northeast1
PROJECT_ID: 実際のプロジェクト ID。
```
B64_BASE_IMAGE
```
プロンプトにインラインで含める画像、PDF、または動画の Base64 エンコード。メディアをインラインで含める場合は、データのメディアタイプ（mimeType）も指定する必要があります。
MIME_TYPE: data フィールドまたは fileUri フィールドで指定されたファイルのメディアタイプ。指定できる値は以下のとおりです。
クリックして MIME タイプを開く
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT: プロンプトに含める指示のテキスト。例: What is shown in this image?。

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "inlineData": {
          "data": "B64_BASE_IMAGE",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

その後、次のコマンドを実行して REST リクエストを送信します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent"

PowerShell

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "inlineData": {
          "data": "B64_BASE_IMAGE",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

その後、次のコマンドを実行して REST リクエストを送信します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

レスポンス

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": " The image shows a table with a cup of coffee, a bowl of blueberries, and a plate of scones with blueberries on it. There are also pink flowers on the table."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.027742893,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07276838
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.026155617,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07172113
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.04304285,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.037608635
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.08803312,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09203286
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 265,
    "candidatesTokenCount": 35,
    "totalTokenCount": 300
  }
}

このサンプルの URL にある次の点に注意してください。

generateContent メソッドを使用して、レスポンスが完全に生成された後に返されるようにリクエストします。ユーザーが認識するレイテンシを短縮するには、streamGenerateContent メソッドを使用して、生成時にレスポンスをストリーミングします。
マルチモーダルモデル ID は、URL の末尾のメソッドの前に配置されます（例: gemini-2.0-flash）。このサンプルでは、他のモデルもサポートされている場合があります。

複数の画像

以下の各タブでは、プロンプトリクエストに複数の画像を含める方法を説明します。各サンプルは、次の入力の 2 つのセットを受け取ります。

人気のある都市のランドマークの画像
画像のメディアタイプ
画像内の都市とランドマークを示すテキスト

このサンプルでは、3 つ目の画像とメディアタイプも取り込まれますが、テキストは取り込まれません。このサンプルは、3 つ目の画像に表示されている都市とランドマークを示すテキストレスポンスを返します。

これらの画像サンプルは、すべての Gemini マルチモーダルモデルで使用できます。

コンソール

Google Cloud コンソールでマルチモーダルプロンプトを送信する手順は次のとおりです。

Google Cloud コンソールの [Vertex AI] セクションで、[Vertex AI Studio] ページに移動します。

Vertex AI Studio に移動
[自由形式を開く] をクリックします。
省略可: モデルとパラメータを構成します。
- Model: モデルを選択します。
- リージョン: 使用するリージョンを選択します。
- 温度: スライダーまたはテキストボックスを使用して、温度の値を入力します。
  
  温度は、レスポンス生成時のサンプリングに使用されます。レスポンス生成は、topP と topK が適用された場合に発生します。温度は、トークン選択のランダム性の度合いを制御します。温度が低いほど、確定的で自由度や創造性を抑えたレスポンスが求められるプロンプトに適しています。一方、温度が高いと、より多様で創造的な結果を導くことができます。温度が 0 の場合、確率が最も高いトークンが常に選択されます。この場合、特定のプロンプトに対するレスポンスはほとんど確定的ですが、わずかに変動する可能性は残ります。
  モデルが返すレスポンスが一般的すぎる、短すぎる、あるいはフォールバック（代替）レスポンスが返ってくる場合は、温度を高く設定してみてください。モデルが無限生成の状態に移行した場合は、温度を 0.1 以上に引き上げると、結果が改善される可能性があります。
  1.0 は、温度の推奨開始値です。
- 出力トークンの上限: スライダーまたはテキストボックスを使用して、最大出力の上限値を入力します。
  
  レスポンスで生成できるトークンの最大数。1 トークンは約 4 文字です。100 トークンは約 60～80 語に相当します。
  レスポンスを短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。
- 停止シーケンスを追加: 省略可。停止シーケンスを入力します。これはスペースを含む一連の文字列です。モデルが停止シーケンスに遭遇すると、レスポンスの生成が停止します。停止シーケンスはレスポンスには含まれません。停止シーケンスは 5 つまで追加できます。
省略可: 詳細パラメータを構成するには、[詳細] をクリックして、次のように構成します。
クリックして [高度な構成] を開く
- Top-K: スライダーまたはテキストボックスを使用して、Top-K の値を入力します（Gemini 1.5 ではサポートされていません）。
  Top-K は、モデルが出力用にトークンを選択する方法を変更します。Top-K が 1 の場合、次に選択されるトークンは、モデルの語彙内のすべてのトークンで最も確率の高いものであることになります（グリーディデコードとも呼ばれます）。Top-K が 3 の場合は、最も確率が高い上位 3 つのトークンから次のトークン選択されることになります（温度を使用します）。
  トークン選択のそれぞれのステップで、最も高い確率を持つ Top-K のトークンがサンプリングされます。その後、トークンは Top-P に基づいてさらにフィルタされ、最終的なトークンは温度サンプリングを使って選択されます。
  
  ランダムなレスポンスを減らしたい場合は小さい値を、ランダムなレスポンスを増やしたい場合は大きい値を指定します。
- Top-P: スライダーまたはテキストボックスを使用して、Top-P の値を入力します。確率の合計が Top-P の値と等しくなるまで、最も確率が高いものから最も確率が低いものの順に、トークンが選択されます。結果を最小にするには、Top-P を 0 に設定します。
- 最大レスポンス数: スライダーまたはテキストボックスを使用して、生成するレスポンスの数の値を入力します。
- ストリーミングレスポンス: 有効にすると、レスポンスが生成されたときに出力されます。
- 安全フィルタのしきい値: 有害なおそれのあるレスポンスが表示される可能性のしきい値を選択します。
- グラウンディングを有効にする: マルチモーダルプロンプトでは、グラウンティングはサポートされていません。
[メディアを挿入] をクリックし、ファイルのソースを選択します。
アップロード
アップロードするファイルを選択して [開く] をクリックします。

URL
使用するファイルの URL を入力し、[挿入] をクリックします。

Cloud Storage
バケットを選択してから、バケット内のインポートするファイルを選択し、[選択] をクリックします。
Google ドライブ
1. このオプションを初めて選択するときに、アカウントを選択して Vertex AI Studio がアカウントにアクセスできるように同意します。合計サイズが最大 10 MB の複数のファイルをアップロードできます。1 つのファイルのサイズが 7 MB を超えないようにしてください。
2. 追加するファイルをクリックします。
3. [選択] をクリックします。
  
  ファイルのサムネイルが [プロンプト] ペインに表示されます。トークンの合計数も表示されます。プロンプトデータがトークンの上限を超えると、トークンは切り捨てられ、データの処理には含まれません。
[プロンプト] ペインにテキストプロンプトを入力します。
省略可: [テキストのトークン ID] と [トークン ID] を表示するには、[プロンプト] ペインで [トークン数] をクリックします。
注: メディアトークンはサポートされていません。
[送信] をクリックします。
省略可: プロンプトを [マイプロンプト] に保存するには、[ 保存] をクリックします。
省略可: プロンプトの Python コードまたは curl コマンドを取得するには、[コードを取得] をクリックします。

Python

インストール

pip install --upgrade google-genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))

# Read content from GCS
gcs_file_img_path = "gs://cloud-samples-data/generative-ai/image/scones.jpg"

# Read content from a local file
with open("test_data/latte.jpg", "rb") as f:
    local_file_img_bytes = f.read()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        "Generate a list of all the objects contained in both images.",
        Part.from_uri(file_uri=gcs_file_img_path, mime_type="image/jpeg"),
        Part.from_bytes(data=local_file_img_bytes, mime_type="image/jpeg"),
    ],
)
print(response.text)
# Example response:
# Okay, here's the list of objects present in both images:
# ...

Go

Go をインストールまたは更新する方法について学びます。

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"os"

	genai "google.golang.org/genai"
)

// generateWithMultiImg shows how to generate text using multiple image inputs.
func generateWithMultiImg(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	// TODO(Developer): Update the path to file (image source:
	//   https://storage.googleapis.com/cloud-samples-data/generative-ai/image/latte.jpg )
	imageBytes, err := os.ReadFile("./latte.jpg")
	if err != nil {
		return fmt.Errorf("failed to read image: %w", err)
	}

	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "Write an advertising jingle based on the items in both images."},
			{FileData: &genai.FileData{
				// Image source: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
				FileURI:  "gs://cloud-samples-data/generative-ai/image/scones.jpg",
				MIMEType: "image/jpeg",
			}},
			{InlineData: &genai.Blob{
				Data:     imageBytes,
				MIMEType: "image/jpeg",
			}},
		}},
	}
	modelName := "gemini-2.5-flash"

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Okay, here's an advertising jingle inspired by the blueberry scones, coffee, flowers, chocolate cake, and latte:
	//
	// (Upbeat, jazzy music)
	// ...

	return nil
}

Node.js

インストール

npm install @google/genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateContent(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const image1 = {
    fileData: {
      fileUri: 'gs://cloud-samples-data/generative-ai/image/scones.jpg',
      mimeType: 'image/jpeg',
    },
  };

  const image2 = {
    fileData: {
      fileUri: 'gs://cloud-samples-data/generative-ai/image/fruit.png',
      mimeType: 'image/png',
    },
  };

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [
      image1,
      image2,
      'Generate a list of all the objects contained in both images.',
    ],
  });

  console.log(response.text);

  return response.text;
}

Java

Java をインストールまたは更新します。

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;

public class TextGenerationWithMultiImage {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    // Content from Google Cloud Storage
    String gcsFileImagePath = "gs://cloud-samples-data/generative-ai/image/scones.jpg";
    String localImageFilePath = "resources/latte.jpg";
    generateContent(modelId, gcsFileImagePath, localImageFilePath);
  }

  // Generates text with multiple images
  public static String generateContent(
      String modelId, String gcsFileImagePath, String localImageFilePath) throws IOException {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      // Read content from a local file.
      byte[] localFileImgBytes = Files.readAllBytes(Paths.get(localImageFilePath));

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromText("Generate a list of all the objects contained in both images"),
                  Part.fromBytes(localFileImgBytes, "image/jpeg"),
                  Part.fromUri(gcsFileImagePath, "image/jpeg")),
              null);

      System.out.print(response.text());
      // Example response:
      // Okay, here's the list of objects present in both images:
      //
      // **Image 1 (Scones):**
      //
      // *   Scones
      // *   Plate
      // *   Jam/Preserve
      // *   Cream/Butter
      // *   Table/Surface
      // *   Napkin/Cloth (possibly)
      //
      // **Image 2 (Latte):**
      //
      // *   Latte/Coffee cup
      // *   Saucer
      // *   Spoon
      // *   Table/Surface
      // *   Foam/Latte art
      //
      // **Objects potentially in both (depending on interpretation and specific items):**
      //
      // *   Plate/Saucer (both are serving dishes)
      // *   Table/Surface
      return response.text();
    }
  }
}

REST

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID:
FILE_URI1: プロンプトに含めるファイルの URI または URL。指定できる値は以下のとおりです。
- Cloud Storage バケット URI: オブジェクトは一般公開されているか、リクエストを送信するプロジェクトと同じ Google Cloud プロジェクトに存在している必要があります。gemini-2.0-flash と gemini-2.0-flash-lite の場合、サイズの上限は 2 GB です。
- HTTP URL: ファイルの URL は一般公開されている必要があります。リクエストごとに 1 つの動画ファイル、1 つの音声ファイル、最大 10 個の画像ファイルを指定できます。音声ファイル、動画ファイル、ドキュメントのサイズは 15 MB 以下にする必要があります。
- YouTube 動画の URL: YouTube 動画は、 Google Cloud コンソールのログインに使用したアカウントが所有しているか、公開されている必要があります。リクエストごとにサポートされる YouTube 動画の URL は 1 つだけです。
fileURI を指定する場合は、ファイルのメディアタイプ（mimeType）も指定する必要があります。VPC Service Controls が有効になっている場合、fileURI のメディアファイル URL の指定はサポートされていません。

Cloud Storage に画像ファイルがない場合は、MIME タイプが image/png の一般公開ファイル gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.png を使用できます。この画像を表示するには、サンプルの画像ファイルを開きます。
MIME_TYPE: data フィールドまたは fileUri フィールドで指定されたファイルのメディアタイプ。指定できる値は以下のとおりです。
クリックして MIME タイプを開く
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
わかりやすくするために、このサンプルでは 3 つの入力画像すべてに同じメディアタイプを使用します。
TEXT1: プロンプトに含める指示のテキスト。例: city: Rome, Landmark: the Colosseum
FILE_URI2: プロンプトに含めるファイルの URI または URL。指定できる値は以下のとおりです。
- Cloud Storage バケット URI: オブジェクトは一般公開されているか、リクエストを送信するプロジェクトと同じ Google Cloud プロジェクトに存在している必要があります。gemini-2.0-flash と gemini-2.0-flash-lite の場合、サイズの上限は 2 GB です。
- HTTP URL: ファイルの URL は一般公開されている必要があります。リクエストごとに 1 つの動画ファイル、1 つの音声ファイル、最大 10 個の画像ファイルを指定できます。音声ファイル、動画ファイル、ドキュメントのサイズは 15 MB 以下にする必要があります。
- YouTube 動画の URL: YouTube 動画は、 Google Cloud コンソールのログインに使用したアカウントが所有しているか、公開されている必要があります。リクエストごとにサポートされる YouTube 動画の URL は 1 つだけです。
fileURI を指定する場合は、ファイルのメディアタイプ（mimeType）も指定する必要があります。VPC Service Controls が有効になっている場合、fileURI のメディアファイル URL の指定はサポートされていません。

Cloud Storage に画像ファイルがない場合は、MIME タイプが image/png の一般公開ファイル gs://cloud-samples-data/vertex-ai/llm/prompts/landmark2.png を使用できます。この画像を表示するには、サンプルの画像ファイルを開きます。
TEXT2: プロンプトに含める指示のテキスト。例: city: Beijing, Landmark: Forbidden City
FILE_URI3: プロンプトに含めるファイルの URI または URL。指定できる値は以下のとおりです。
- Cloud Storage バケット URI: オブジェクトは一般公開されているか、リクエストを送信するプロジェクトと同じ Google Cloud プロジェクトに存在している必要があります。gemini-2.0-flash と gemini-2.0-flash-lite の場合、サイズの上限は 2 GB です。
- HTTP URL: ファイルの URL は一般公開されている必要があります。リクエストごとに 1 つの動画ファイル、1 つの音声ファイル、最大 10 個の画像ファイルを指定できます。音声ファイル、動画ファイル、ドキュメントのサイズは 15 MB 以下にする必要があります。
- YouTube 動画の URL: YouTube 動画は、 Google Cloud コンソールのログインに使用したアカウントが所有しているか、公開されている必要があります。リクエストごとにサポートされる YouTube 動画の URL は 1 つだけです。
fileURI を指定する場合は、ファイルのメディアタイプ（mimeType）も指定する必要があります。VPC Service Controls が有効になっている場合、fileURI のメディアファイル URL の指定はサポートされていません。

Cloud Storage に画像ファイルがない場合は、MIME タイプが image/png の一般公開ファイル gs://cloud-samples-data/vertex-ai/llm/prompts/landmark3.png を使用できます。この画像を表示するには、サンプルの画像ファイルを開きます。

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI1",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT1"
      },
      {
        "fileData": {
          "fileUri": "FILE_URI2",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT2"
      },
      {
        "fileData": {
          "fileUri": "FILE_URI3",
          "mimeType": "MIME_TYPE"
        }
      }
    ]
  }
}
EOF

その後、次のコマンドを実行して REST リクエストを送信します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI1",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT1"
      },
      {
        "fileData": {
          "fileUri": "FILE_URI2",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT2"
      },
      {
        "fileData": {
          "fileUri": "FILE_URI3",
          "mimeType": "MIME_TYPE"
        }
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

その後、次のコマンドを実行して REST リクエストを送信します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

レスポンス

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "city: Rio de Janeiro, Landmark: Christ the Redeemer statue \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.05340333,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.08740791
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.13050689,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.10338596
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.05399884,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09947021
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.10576342,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.066934206
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 791,
    "candidatesTokenCount": 14,
    "totalTokenCount": 805
  }
}

このサンプルの URL にある次の点に注意してください。

generateContent メソッドを使用して、レスポンスが完全に生成された後に返されるようにリクエストします。ユーザーが認識するレイテンシを短縮するには、streamGenerateContent メソッドを使用して、生成時にレスポンスをストリーミングします。
マルチモーダルモデル ID は、URL の末尾のメソッドの前に配置されます（例: gemini-2.0-flash）。このサンプルでは、他のモデルもサポートされている場合があります。

オプションのモデルパラメータを設定する

各モデルには、設定可能な一連のオプションパラメータがあります。詳細については、コンテンツ生成パラメータをご覧ください。

画像のトークン化

プレビュー版

このプロダクトまたは機能はサービス固有の規約の「一般サービス規約」セクションの「一般提供前サービス規約」と、生成 AI プレビュー版プロダクトに関する追加利用規約の対象となります。お客様はこのプロダクトまたは機能の個人データを Cloud のデータ処理に関する追加条項に記載されているとおりに処理できます。ただし、Google Cloud へのアクセスに関する契約に記載されている義務と制限事項が適用されます。一般提供前のプロダクトと機能は「現状のまま」で提供されるものであり、サポートが制限されることがあります。詳細については、リリースステージの説明をご覧ください。

Gemini 3 Pro と Gemini 3 Pro Image では、画像のトークン化に可変シーケンス長が採用されています。従来のモデルで使用されていたパン＆スキャン方式に代わって品質とレイテンシが向上しています。

画像入力と PDF 入力に対してメディア解像度を指定できます。これにより、画像がどのようにトークン化されるかが変わり、各画像に使用されるトークンの数が決まります。generationConfig で media_resolution を設定すると、リクエスト内のすべてのメディアにその解像度が適用されます。また、個々のメディア要素に解像度を設定して上位の設定をオーバーライドすることもできます。

Gemini 3 Pro で使用できる解像度は次のとおりです。

MEDIA_RESOLUTION_HIGH: 画像と PDF に対して 1,120 トークン
MEDIA_RESOLUTION_MEDIUM: 画像と PDF に対して 560 トークン
MEDIA_RESOLUTION_LOW: 画像と PDF に対して 280 トークン
MEDIA_RESOLUTION_UNSPECIFIED: 画像には 1,120 トークンで PDF には 560 トークン（デフォルト）

Gemini 3 Pro Image には、次のトークン数が適用されます。

入力画像: 画像あたり 560 トークン
出力画像:
- 1K 解像度: 画像あたり 1,120 トークン（デフォルト）
- 2K 解像度: 画像あたり 1,120 トークン
- 4K 解像度: 画像あたり 2,000 トークン

Gemini 3 Pro より前のモデルでは、各画像はパン＆スキャンで処理され、258 トークンが使用されます。

次のコードサンプルは、media_resolution を調整する方法を示しています。

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
  model="gemini-3-pro-preview",
  contents=[
      types.Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/image/a-man-and-a-dog.png",
              mime_type="image/jpeg",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_HIGH
          ),
      ),
      Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/video/behind_the_scenes_pixel.mp4",
              mime_type="video/mp4",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_LOW
          ),
      ),
      "When does the image appear in the video? What is the context?",
  ],
)
print(response.text)

ベストプラクティス

画像を使用する場合は、最適な結果を得るために、次のベストプラクティスと情報を使用してください。

画像内のテキストを検出する必要がある場合は、1 つの画像を使用するプロンプトのほうが、複数の画像を使用するプロンプトよりも適切な結果が得られます。
プロンプトに 1 つの画像が含まれている場合は、リクエスト内でテキストプロンプトの前に画像を配置します。
プロンプトに複数の画像が含まれており、これらの画像をプロンプトの後半で参照する場合、またはモデルレスポンスでモデルが参照する場合は、各画像の前にインデックスを付けると、より良い結果が得られる可能性があります。インデックスには a b c または image 1 image 2 image 3 を使用します。プロンプトでインデックス付き画像を使用する例を次に示します。
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
解像度の高い画像を使用すると、より良い結果が得られます。
プロンプトにいくつかの例を含めます。
画像を適切な向きに回転してから、プロンプトに追加します。
ぼやけた画像は使用しないでください。

制限事項

Gemini マルチモーダルモデルは多くのマルチモーダルユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

コンテンツの管理: Google の安全に関するポリシーに違反する画像に対する回答は拒否されます。
空間推論: 画像内のテキストやオブジェクトの位置を正確に特定することはできません。オブジェクトの数も推定値しか返されない場合があります。
医療目的での使用: 医療画像（X 線、CT スキャンなど）の解釈や医学的なアドバイスの提供には適していません。
人物認識: このモデルは、画像内の著名人以外の人物を特定することを目的としたものではありません。
精度: 低品質、回転、極端に低解像度の画像を解釈する際に、ハルシネーションや誤りが発生する可能性があります。また、画像ドキュメント内の手書きテキストを解釈する際に、ハルシネーションが発生することもあります。

次のステップ

Gemini マルチモーダルモデルで構築を開始する - 新規のお客様は Google Cloud クレジット $300 分を無料で利用して、Gemini の機能をお試しいただけます。
チャットプロンプトリクエストの送信方法を学習する。
責任ある AI のベストプラクティスと Vertex AI の安全フィルタについて学習する。

画像の理解 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

サポートされているモデル

リクエストに画像を追加する

単一の画像

コンソール

クリックして [高度な構成] を開く

アップロード

URL

Cloud Storage

Google ドライブ

Python

インストール

Go

Node.js

インストール

Java

REST

Cloud Storage 内の画像

curl

PowerShell

レスポンス

Base64 画像データ

curl

PowerShell

レスポンス

複数の画像

コンソール

クリックして [高度な構成] を開く

アップロード

URL

Cloud Storage

Google ドライブ

Python

インストール

Go

Node.js

インストール

Java

REST

curl

PowerShell

レスポンス

オプションのモデル パラメータを設定する

画像のトークン化

ベスト プラクティス

制限事項

次のステップ

画像の理解

オプションのモデルパラメータを設定する

ベストプラクティス