Modelle mit benutzerdefinierten Gewichtungen bereitstellen

Die Bereitstellung von Modellen mit benutzerdefinierten Gewichten ist eine Vorabfunktion. Sie können Modelle auf Grundlage einer vordefinierten Gruppe von Basismodellen abstimmen und Ihre angepassten Modelle in Vertex AI Model Garden bereitstellen. Sie können Ihre benutzerdefinierten Modelle mit dem Import benutzerdefinierter Gewichte bereitstellen, indem Sie Ihre Modellartefakte in einen Cloud Storage-Bucket in Ihrem Projekt hochladen. In Vertex AI ist das mit nur einem Klick möglich.

VPC Service Controls-Unterstützung für benutzerdefinierte Gewichte ist verfügbar.

Unterstützte Modelle

Die öffentliche Vorschau von Modelle mit benutzerdefinierten Gewichten bereitstellen wird von den folgenden Basismodellen unterstützt:

Modellname	Version
Llama 3	Llama-2: 7B, 13B Llama-3.1: 8B, 70B Llama-3.2: 1B, 3B Llama-4: Scout-17B, Maverick-17B CodeLlama-13B
Gemma	Gemma-2: 9B, 27B Gemma-3: 1B, 4B, 3-12B, 27B Medgemma: 4B, 27B-Text
Qwen	Qwen2: 1,5 Mrd. Qwen2.5: 0,5 Mrd., 1,5 Mrd., 7 Mrd., 32 Mrd. Qwen3: 0,6 Mrd., 1,7 Mrd., 4 Mrd., 8 Mrd., 32 Mrd., Qwen3-Coder-480B-A35B-Instruct, Qwen3-Next-80B-A3B-Instruct, Qwen3-Next-80B-A3B-Thinking
Deepseek	Deepseek-R1 Deepseek-V3 DeepSeek-V3.1
Mistral und Mixtral	Mistral-7B-v0.1 Mixtral-8x7B-v0.1 Mistral-Nemo-Base-2407
Phi-4	Phi-4-reasoning
OpenAI OSS	gpt-oss: 20B, 120B

Beschränkungen

Benutzerdefinierte Gewichte unterstützen den Import von quantisierten Modellen nicht.

Modelldateien

Sie müssen die Modelldateien im Hugging Face-Gewichtsformat angeben. Weitere Informationen zum Hugging Face-Gewichtsformat finden Sie unter Hugging Face-Modelle verwenden.

Wenn die erforderlichen Dateien nicht bereitgestellt werden, schlägt die Bereitstellung des Modells möglicherweise fehl.

In dieser Tabelle sind die Arten von Modelldateien aufgeführt, die von der Architektur des Modells abhängen:

Modellinhalte	Dateityp
Modellkonfiguration	`config.json`
Modellgewichtungen	`.safetensors` `.bin`
Gewichtsindex	`*.index.json`
Tokenizer-Datei(en)	`tokenizer.model` `tokenizer.json` `tokenizer_config.json`

Standorte

Sie können benutzerdefinierte Modelle in allen Regionen über Model Garden-Dienste bereitstellen.

Vorbereitung

In diesem Abschnitt wird gezeigt, wie Sie Ihr benutzerdefiniertes Modell bereitstellen.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

In dieser Anleitung wird davon ausgegangen, dass Sie Cloud Shell zur Interaktion mit Google Cloudverwenden. Wenn Sie anstelle von Cloud Shell eine andere Shell nutzen möchten, führen Sie die folgende zusätzliche Konfiguration aus:

Install the Google Cloud CLI.
If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
To initialize the gcloud CLI, run the following command:
```
gcloud init
```

Benutzerdefiniertes Modell bereitstellen

In diesem Abschnitt wird gezeigt, wie Sie Ihr benutzerdefiniertes Modell bereitstellen.

Wenn Sie die Befehlszeile, Python oder JavaScript verwenden, ersetzen Sie die folgenden Variablen durch einen Wert, damit Ihre Codebeispiele funktionieren:

REGION: Ihre Region. Beispiel: uscentral1
MODEL_GCS: Ihr Google Cloud Modell. Beispiel: gs://custom-weights-fishfooding/meta-llama/Llama-3.2-1B-Instruct
PROJECT_ID: Ihre Projekt-ID.
MODEL_ID: Ihre Modell-ID.
MACHINE_TYPE: Ihr Maschinentyp. Beispiel: g2-standard-12.
ACCELERATOR_TYPE: Ihr Beschleunigertyp. Beispiel: NVIDIA_L4.
ACCELERATOR_COUNT: Die Anzahl der Beschleuniger.
PROMPT: Ihr Text-Prompt.

Console

In den folgenden Schritten wird beschrieben, wie Sie die Google Cloud -Konsole verwenden, um Ihr Modell mit benutzerdefinierten Gewichten bereitzustellen.

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Klicken Sie auf Modell mit benutzerdefinierten Gewichten bereitstellen. Der Bereich Modell mit benutzerdefinierten Gewichten bereitstellen wird angezeigt.
Führen Sie im Abschnitt Modellquelle folgende Schritte aus:
1. Klicken Sie auf Durchsuchen, wählen Sie den Bucket aus, in dem Ihr Modell gespeichert ist, und klicken Sie auf Auswählen.
2. Optional: Geben Sie den Namen Ihres Modells in das Feld Modellname ein.
Führen Sie im Abschnitt Bereitstellungseinstellungen die folgenden Schritte aus:
1. Wählen Sie im Feld Region Ihre Region aus und klicken Sie auf OK.
2. Wählen Sie im Feld Maschinenspezifikation die Maschinenspezifikation aus, die zum Bereitstellen Ihres Modells verwendet wird.
3. Optional: Im Feld Endpunktname wird standardmäßig der Endpunkt Ihres Modells angezeigt. Sie können aber einen anderen Endpunktnamen in das Feld eingeben.
4. Wenn für Ihr Projekt VPC-SC erzwungen wird oder Sie privaten Zugriff bevorzugen, wählen Sie im Feld Endpunktzugriff die Option Privat (Private Service Connect) aus. Wählen Sie andernfalls Öffentlich aus.
5. Wenn Sie Private Service Connect verwenden, geben Sie die Projekt-IDs der Projekte, in denen Ihre Anfrageclients ausgeführt werden, in das Feld Projekt-IDs ein oder klicken Sie auf Projekt-IDs auswählen, um ein Dialogfeld mit Projekt-IDs aufzurufen.
  
  Wenn Sie auf Projekt-IDs auswählen klicken, gehen Sie so vor:
  1. Suchen Sie das Projekt mit dem Code, der auf das Modell zugreifen möchte.
  2. Klicken Sie auf das Kästchen Ihres Projekts.
  3. Klicken Sie auf Auswählen.
Klicken Sie auf Bereitstellen.

gcloud-CLI

Dieser Befehl zeigt, wie das Modell in einer bestimmten Region bereitgestellt wird.

gcloud ai model-garden models deploy --model=${MODEL_GCS} --region ${REGION}

Dieser Befehl zeigt, wie Sie das Modell mit seinem Maschinentyp, Beschleunigertyp und der Anzahl der Beschleuniger in einer bestimmten Region bereitstellen. Wenn Sie eine bestimmte Maschinenkonfiguration auswählen möchten, müssen Sie alle drei Felder festlegen.

gcloud ai model-garden models deploy --model=${MODEL_GCS} --machine-type=${MACHINE_TYE} --accelerator-type=${ACCELERATOR_TYPE} --accelerator-count=${ACCELERATOR_COUNT} --region ${REGION}

Python

import vertexai
from google.cloud import aiplatform
from vertexai.preview import model_garden

vertexai.init(project=${PROJECT_ID}, location=${REGION})
custom_model = model_garden.CustomModel(
  gcs_uri=GCS_URI,
)
endpoint = custom_model.deploy(
  machine_type="${MACHINE_TYPE}",
  accelerator_type="${ACCELERATOR_TYPE}",
  accelerator_count="${ACCELERATOR_COUNT}",
  model_display_name="custom-model",
  endpoint_display_name="custom-model-endpoint")

endpoint.predict(instances=[{"prompt": "${PROMPT}"}], use_dedicated_endpoint=True)

Alternativ müssen Sie keinen Parameter an die Methode custom_model.deploy() übergeben.

import vertexai
from google.cloud import aiplatform
from vertexai.preview import model_garden

vertexai.init(project=${PROJECT_ID}, location=${REGION})
custom_model = model_garden.CustomModel(
  gcs_uri=GCS_URI,
)
endpoint = custom_model.deploy()

endpoint.predict(instances=[{"prompt": "${PROMPT}"}], use_dedicated_endpoint=True)

curl


curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:deploy" \
  -d '{
    "custom_model": {
    "gcs_uri": "'"${MODEL_GCS}"'"
  },
  "destination": "projects/'"${PROJECT_ID}"'/locations/'"${REGION}"'",
  "model_config": {
     "model_user_id": "'"${MODEL_ID}"'",
  },
}'

Alternativ können Sie den Maschinentyp explizit über die API festlegen.


curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:deploy" \
  -d '{
    "custom_model": {
    "gcs_uri": "'"${MODEL_GCS}"'"
  },
  "destination": "projects/'"${PROJECT_ID}"'/locations/'"${REGION}"'",
  "model_config": {
     "model_user_id": "'"${MODEL_ID}"'",
  },
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "'"${MACHINE_TYPE}"'",
        "accelerator_type": "'"${ACCELERATOR_TYPE}"'",
        "accelerator_count": '"${ACCELERATOR_COUNT}"'
      },
      "min_replica_count": 1
    }
  }
}'

Mit der API bereitstellen

VPC Service Controls funktioniert nur mit dem privaten dedizierten Endpunkt. Daher müssen Sie private_service_connect_config im folgenden Codebeispiel festlegen, das zeigt, wie die Bereitstellung über die API erfolgt:

curl

  curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://us-central1-aiplatform.googleapis.com/v1beta1/projects/YOUR_PROJECT/locations/us-central1:deploy" \
    -d '{
      "custom_model": {
        "model_id": "test-mg-deploy-092301",
        "gcs_uri": "gs://YOUR_GCS_BUCKET"
      },
      "destination": "projects/YOUR_PROJECT/locations/us-central1",
      "endpoint_config": {
        "endpoint_display_name": "psc-ep1",
        "private_service_connect_config": {
          "enablePrivateServiceConnect": true,
          "projectAllowlist": ["YOUR_PROJECT"]
        }
      },
      "deploy_config": {
        "dedicated_resources": {
          "machine_spec": {
            "machine_type": "g2-standard-24",
            "accelerator_type": "NVIDIA_L4",
            "accelerator_count": 2
          },
          "min_replica_count": 1,
          "max_replica_count": 1
        }
      }
    }'

Endpunkt-ID und Modell-ID über die Google Cloud Console abrufen

Führen Sie nach Abschluss der Bereitstellung die folgenden Schritte aus:

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Zu Model Garden
Klicken Sie auf Meine Endpunkte und Modelle ansehen.
Suchen Sie in der Tabelle Meine Endpunkte in der Spalte Name nach dem Endpunkt, den Sie gerade bereitgestellt haben. Die Seite Details wird angezeigt.
Klicken Sie in der Tabelle Bereitgestellte Modelle auf das Modell.
Wählen Sie die Seite Versionsdetails aus. Die Modell-ID wird in der Zeile Umgebungsvariablen der Tabelle angezeigt.

Private Service Connect einrichten

Sie fügen einen neuen Endpunkt für den Zugriff auf Google APIs hinzu. Dieser Endpunkt kann in allen Regionen des ausgewählten VPC-Netzwerk verwendet werden. Beachten Sie außerdem Folgendes:

Clients in Netzwerken, die über Hybridkonnektivität mit dem VPC-Netzwerk des Endpunkts verbunden sind, können auf den Endpunkt zugreifen. Weitere Informationen finden Sie unter Zugriff aufGoogle -APIs über Endpunkte.
Clients in Peering-VPC-Netzwerken können nicht auf den Endpunkt zugreifen.

Endpunkt zum Auflisten zum Abrufen des Dienstanhangs

In diesem Codebeispiel wird gezeigt, wie Sie einen Endpunkt auflisten, um eine Dienstanhängevorrichtung zu erhalten.

curl

$ curl \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://us-central1-aiplatform.googleapis.com/v1beta1/projects/YOUR_PROJECT/locations/us-central1/endpoints/YOUR_ENDPOINT_ID"

Dies ist die Antwort des Listenendpunkts.

  {
  "name": "projects/440968033208/locations/us-central1/endpoints/mg-endpoint-2c6ae2be-1491-43fe-b179-cb5a63e2c955",
  "displayName": "psc-ep1",
  "deployedModels": [
    {
      "id": "4026753529031950336",
      "model": "projects/440968033208/locations/us-central1/models/mg-custom-1758645924",
      "displayName": "null-null-null-1758645933",
      "createTime": "2025-09-23T16:45:45.169195Z",
      "dedicatedResources": {
        "machineSpec": {
          "machineType": "g2-standard-24",
          "acceleratorType": "NVIDIA_L4",
          "acceleratorCount": 2
        },
        "minReplicaCount": 1,
        "maxReplicaCount": 1
      },
      "enableContainerLogging": true,
      "privateEndpoints": {
        "serviceAttachment": "projects/qdb392d34e2a11149p-tp/regions/us-central1/serviceAttachments/gkedpm-fbbc4061323c91c14ab4d961a2f8b0"
      },
      "modelVersionId": "1",
      "status": {
        "lastUpdateTime": "2025-09-23T17:26:10.031652Z",
        "availableReplicaCount": 1
      }
    }
  ],
  "trafficSplit": {
    "4026753529031950336": 100
  },
  "etag": "AMEw9yPIWQYdbpHu6g6Mhpu1_10J062_oR9Jw9txrp8dFFbel7odLgSK8CGIogAUkR_r",
  "createTime": "2025-09-23T16:45:45.169195Z",
  "updateTime": "2025-09-23T17:13:36.320873Z",
  "privateServiceConnectConfig": {
    "enablePrivateServiceConnect": true,
    "projectAllowlist": [
      "ucaip-vpc-s-1605069239-dut-24"
    ]
  }
}

Private Service Connect erstellen

So stellen Sie eine Private Service Connect-Verbindung (PSC) her:

Rufen Sie in der Google Cloud Console die Seite Private Service Connect auf. Die Seite Verbundene Endpunkte wird angezeigt.

Zu Private Service Connect
Klicken Sie auf + Endpunkt verbinden. Die Seite Endpunkt verbinden wird angezeigt.
Wählen Sie eine Option aus dem Feld Ziel aus. Sie können Google APIs auswählen, um Zugriff auf die meisten Google APIs und -Dienste zu erhalten, oder Veröffentlichter Dienst, um Zugriff auf einen veröffentlichten Dienst zu erhalten.
Wählen Sie im Bereich Zieldetails einen Wert aus der Liste Umfang und einen Wert aus der Liste Pakettyp aus.
Führen Sie im Abschnitt Endpunktdetails folgende Schritte aus:
1. Geben Sie in das Feld Endpunktname einen Namen ein.
2. Wählen Sie einen Wert aus der Liste Netzwerk aus. Wählen Sie ein VPC-Netzwerk in Ihrem Projekt aus. Wenn Sie einen PSC-Endpunkt in einem Dienstprojekt erstellen müssen, das ein freigegebene VPC-Netzwerk in einem Hostprojekt nutzt, verwenden Sie stattdessen die Google Cloud CLI oder senden Sie eine API-Anfrage.
3. Wählen Sie einen Wert aus der Liste IP-Adresse aus.
Maximieren Sie den Bereich Service Directory.
Wählen Sie eine Region aus der Liste Region aus.
Wählen Sie einen Namespace aus der Liste Namespace aus.
Klicken Sie auf Endpunkt hinzufügen. Die Tabelle Endpunkte wird mit einer Zeile für den neuen Endpunkt aktualisiert.

Abfrage erstellen

In diesem Abschnitt wird erläutert, wie Sie einen öffentlichen und einen privaten Endpunkt erstellen.

Abfrage an einen öffentlichen Endpunkt senden

Nachdem Ihr Modell bereitgestellt wurde, werden benutzerdefinierte Gewichte für den öffentlichen dedizierten Endpunkt unterstützt. Sie können Abfragen über die API oder das SDK senden.

Bevor Sie Anfragen senden können, müssen Sie die Endpunkt-URL, die Endpunkt-ID und die Modell-ID abrufen. Diese sind in der Google Cloud Console verfügbar.

So rufen Sie die Informationen ab:

Rufen Sie in der Google Cloud Console die Seite Model Garden auf.

Model Garden
Klicken Sie auf Meine Endpunkte und Modelle ansehen.
Wählen Sie in der Liste Region Ihre Region aus.
Wenn Sie die Endpunkt-ID und die Endpunkt-URL abrufen möchten, klicken Sie im Bereich Meine Endpunkte auf den gewünschten Endpunkt.

Ihre Endpunkt-ID wird im Feld Endpunkt-ID angezeigt.

Die URL Ihres öffentlichen Endpunkts wird im Feld Dedizierter Endpunkt angezeigt.
So rufen Sie die Modell-ID ab: Suchen Sie in der Liste Bereitgestellte Modelle nach Ihrem Modell und gehen Sie so vor:
1. Klicken Sie im Feld Modell auf den Namen des bereitgestellten Modells.
2. Klicken Sie auf Versionsdetails. Ihre Modell-ID wird im Feld Modell-ID angezeigt.

Nachdem Sie die Informationen zu Ihrem Endpunkt und bereitgestellten Modell erhalten haben, finden Sie in den folgenden Codebeispielen Informationen zum Senden einer Inferenzanfrage. Alternativ können Sie auch Onlineinferenzanfrage an einen dedizierten öffentlichen Endpunkt senden lesen.

API

Die folgenden Codebeispiele zeigen verschiedene Möglichkeiten, die API basierend auf Ihrem Anwendungsfall zu verwenden.

Chat-Vervollständigung (unär)

Bei dieser Beispielanfrage wird eine vollständige Chatnachricht an das Modell gesendet und eine Antwort in einem einzigen Chunk empfangen, nachdem die gesamte Antwort generiert wurde. Das ist ähnlich wie beim Senden einer SMS und dem Erhalten einer einzelnen vollständigen Antwort.

  curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://${ENDPOINT_URL}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/endpoints/${ENDPOINT_ID}/chat/completions" \
    -d '{
    "model": "'"${MODEL_ID}"'",
    "temperature": 0,
    "top_p": 1,
    "max_tokens": 154,
    "ignore_eos": true,
    "messages": [
      {
        "role": "user",
        "content": "How to tell the time by looking at the sky?"
      }
    ]
  }'

Chat-Vervollständigung (Streaming)

Diese Anfrage ist die Streaming-Version der unären Chat-Vervollständigungsanfrage. Wenn Sie der Anfrage "stream": true hinzufügen, sendet das Modell seine Antwort nach und nach, während sie generiert wird. Dies ist nützlich, um in einer Chatanwendung einen Echtzeit-Schreibmaschineneffekt zu erzeugen.

  curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \  "https://${ENDPOINT_URL}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/endpoints/${ENDPOINT_ID}/chat/completions" \
    -d '{
    "model": "'"${MODEL_ID}"'",
    "stream": true,
    "temperature": 0,
    "top_p": 1,
    "max_tokens": 154,
    "ignore_eos": true,
    "messages": [
      {
        "role": "user",
        "content": "How to tell the time by looking at the sky?"
      }
    ]
  }'

Vorhersagen

Bei dieser Anfrage wird ein direkter Prompt gesendet, um eine Inferenz von einem Modell zu erhalten. Dies wird häufig für Aufgaben verwendet, die nicht unbedingt dialogorientiert sind, z. B. für die Textzusammenfassung oder ‑klassifizierung.

  curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
  "https://${ENDPOINT_URL}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/endpoints/${ENDPOINT_ID}:predict" \
    -d '{
    "instances": [
      {
        "prompt": "How to tell the time by looking at the sky?",
        "temperature": 0,
        "top_p": 1,
        "max_tokens": 154,
        "ignore_eos": true
      }
    ]
  }'

Raw Predict

Diese Anfrage ist eine Streaming-Version der Predict-Anfrage. Wenn Sie den :streamRawPredict-Endpunkt verwenden und "stream": true einfügen, wird mit dieser Anfrage ein direkter Prompt gesendet und die Ausgabe des Modells als kontinuierlicher Datenstrom empfangen, während sie generiert wird. Das ähnelt der Streaming-Chat-Vervollständigungsanfrage.

  curl -X POST \
    -N \
    --output - \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://${ENDPOINT_URL}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/endpoints/${ENDPOINT_ID}:streamRawPredict" \
    -d '{
    "instances": [
      {
        "prompt": "How to tell the time by looking at the sky?",
        "temperature": 0,
        "top_p": 1,
        "max_tokens": 154,
        "ignore_eos": true,
        "stream": true
      }
    ]
  }'

SDK

In diesem Codebeispiel wird das SDK verwendet, um eine Anfrage an ein Modell zu senden und eine Antwort von diesem Modell zu erhalten.

  from google.cloud import aiplatform

  project_id = ""
  location = ""
  endpoint_id = "" # Use the short ID here

  aiplatform.init(project=project_id, location=location)

  endpoint = aiplatform.Endpoint(endpoint_id)

  prompt = "How to tell the time by looking at the sky?"
  instances=[{"text": prompt}]
  response = endpoint.predict(instances=instances, use_dedicated_endpoint=True)
  print(response.predictions)

Abfrage für einen privaten Endpunkt erstellen

Sie können Ihre Abfrage mit einem Notebook oder einer VM im zulässigen Projekt testen.

In dieser Beispielanfrage können Sie Variablen durch Ihre IP-Adresse, Projekt-ID, Endpunkt-ID und Modell-ID (aus dem Bereitstellungsschritt oben) ersetzen.

curl

Chat-Vervollständigung

curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 'https://YOUR_IP/v1beta1/projects/YOUR_PROJECT_ID/locations/YOUR_LOCATION/endpoints/YOUR_ENDPOINT_ID/chat/completions' -d '{ "model": "YOUR_MODEL_ID", "max_tokens": 300, "messages": [{ "role": "user", "content": "how to tell the time by looking at sky?" }]}'

Vorhersagen

$ curl -k -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 'https:/YOUR_IP/v1beta1/projects/YOUR_PROJECT_ID/locations/YOUR_LOCATION/endpoints/YOUR_ENDPOINT_ID:predict' -d '{
  "instances": [
    {
      "prompt": "Summarize Goog stock performance",
      "temperature": 0,
      "top_p": 1,
      "max_tokens": 154,
      "ignore_eos": true
    }
  ]
}'

Ein weiteres Beispiel für die Verwendung der API finden Sie im Notebook zum Importieren benutzerdefinierter Gewichte.

Weitere Informationen zu selbst bereitgestellten Modellen in Vertex AI

Weitere Informationen zu privaten dedizierten Endpunkten für Vertex AI-Onlinevorhersagen finden Sie unter Dedizierte private Endpunkte basierend auf Private Service Connect für Onlineinferenz verwenden.
Weitere Informationen zu selbst bereitgestellten Modellen finden Sie unter Übersicht über selbst bereitgestellte Modelle.
Weitere Informationen zu Model Garden finden Sie unter Übersicht über Model Garden.
Weitere Informationen zum Bereitstellen von Modellen finden Sie unter Modelle in Model Garden verwenden.
Offene Gemma-Modelle verwenden
Offene Llama-Modelle verwenden
Offene Hugging Face-Modelle verwenden

Modelle mit benutzerdefinierten Gewichtungen bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Unterstützte Modelle

Beschränkungen

Modelldateien

Standorte

Vorbereitung

Hinweise

Benutzerdefiniertes Modell bereitstellen

Console

gcloud-CLI

Python

curl

Mit der API bereitstellen

curl

Endpunkt-ID und Modell-ID über die Google Cloud Console abrufen

Private Service Connect einrichten

Endpunkt zum Auflisten zum Abrufen des Dienstanhangs

curl

Private Service Connect erstellen

Abfrage erstellen

Abfrage an einen öffentlichen Endpunkt senden

API

SDK

Abfrage für einen privaten Endpunkt erstellen

curl

Weitere Informationen zu selbst bereitgestellten Modellen in Vertex AI

Modelle mit benutzerdefinierten Gewichtungen bereitstellen