Die Bereitstellung von Modellen mit benutzerdefinierten Gewichten ist eine Vorschaufunktion. Sie können Modelle auf Grundlage einer vordefinierten Gruppe von Basismodellen abstimmen und Ihre angepassten Modelle in Vertex AI Model Garden bereitstellen. Sie können Ihre benutzerdefinierten Modelle mit dem Import benutzerdefinierter Gewichte bereitstellen, indem Sie Ihre Modellartefakte in einen Cloud Storage-Bucket in Ihrem Projekt hochladen. In Vertex AI ist das mit nur einem Klick möglich.
VPC Service Controls-Unterstützung für benutzerdefinierte Gewichte ist verfügbar.
Unterstützte Modelle
Die öffentliche Vorschau von Modelle mit benutzerdefinierten Gewichten bereitstellen wird von den folgenden Basismodellen unterstützt:
| Modellname | Version |
|---|---|
| Llama 3 |
|
| Gemma |
|
| Qwen |
|
| Deepseek |
|
| Mistral und Mixtral |
|
| Phi-4 |
|
| OpenAI OSS |
|
Beschränkungen
Benutzerdefinierte Gewichte unterstützen den Import von quantisierten Modellen nicht.
Modelldateien
Sie müssen die Modelldateien im Hugging Face-Gewichtsformat angeben. Weitere Informationen zum Hugging Face-Gewichtsformat finden Sie unter Hugging Face-Modelle verwenden.
Wenn die erforderlichen Dateien nicht bereitgestellt werden, schlägt die Bereitstellung des Modells möglicherweise fehl.
In dieser Tabelle sind die Arten von Modelldateien aufgeführt, die von der Architektur des Modells abhängen:
| Inhalte der Modelldatei | Dateityp |
|---|---|
| Modellkonfiguration |
|
| Modellgewichtungen |
|
| Gewichtsindex |
|
| Tokenizer-Datei(en) |
|
Standorte
Sie können benutzerdefinierte Modelle in allen Regionen über Model Garden-Dienste bereitstellen.
Vorbereitung
In diesem Abschnitt wird gezeigt, wie Sie Ihr benutzerdefiniertes Modell bereitstellen.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
-
Install the Google Cloud CLI.
-
If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
-
To initialize the gcloud CLI, run the following command:
gcloud init - REGION: Ihre Region. Beispiel:
uscentral1 - MODEL_GCS: Ihr Google Cloud Modell. Beispiel:
gs://custom-weights-fishfooding/meta-llama/Llama-3.2-1B-Instruct - PROJECT_ID: Ihre Projekt-ID.
- MODEL_ID: Ihre Modell-ID.
- MACHINE_TYPE: Ihr Maschinentyp. Beispiel:
g2-standard-12. - ACCELERATOR_TYPE: Ihr Beschleunigertyp. Beispiel:
NVIDIA_L4. - ACCELERATOR_COUNT: Die Anzahl der Beschleuniger.
PROMPT: Ihr Text-Prompt.
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Klicken Sie auf Modell mit benutzerdefinierten Gewichten bereitstellen. Der Bereich Modell mit benutzerdefinierten Gewichten bereitstellen wird angezeigt.
Führen Sie im Abschnitt Modellquelle folgende Schritte aus:
Klicken Sie auf Durchsuchen, wählen Sie den Bucket aus, in dem Ihr Modell gespeichert ist, und klicken Sie auf Auswählen.
Optional: Geben Sie den Namen Ihres Modells in das Feld Modellname ein.
Führen Sie im Abschnitt Bereitstellungseinstellungen die folgenden Schritte aus:
Wählen Sie im Feld Region Ihre Region aus und klicken Sie auf OK.
Wählen Sie im Feld Maschinenspezifikation die Maschinenspezifikation aus, die zum Bereitstellen Ihres Modells verwendet wird.
Optional: Im Feld Endpunktname wird standardmäßig der Endpunkt Ihres Modells angezeigt. Sie können jedoch einen anderen Endpunktnamen in das Feld eingeben.
Wenn für Ihr Projekt VPC-SC erzwungen wird oder Sie privaten Zugriff bevorzugen, wählen Sie im Feld Endpunktzugriff die Option Privat (Private Service Connect) aus. Wählen Sie andernfalls Öffentlich aus.
Wenn Sie Private Service Connect verwenden, geben Sie die Projekt-IDs der Projekte, in denen Ihre Anfrageclients ausgeführt werden, in das Feld Projekt-IDs ein oder klicken Sie auf Projekt-IDs auswählen, um ein Dialogfeld mit Projekt-IDs aufzurufen.
Wenn Sie auf Projekt-IDs auswählen klicken, gehen Sie so vor:
- Suchen Sie das Projekt mit dem Code, der auf das Modell zugreifen möchte.
- Klicken Sie auf das Kästchen Ihres Projekts.
- Klicken Sie auf Auswählen.
Klicken Sie auf Bereitstellen.
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Klicken Sie auf Meine Endpunkte und Modelle ansehen.
Suchen Sie in der Tabelle Meine Endpunkte in der Spalte Name nach dem Endpunkt, den Sie gerade bereitgestellt haben. Die Seite Details wird angezeigt.
Klicken Sie in der Tabelle Bereitgestellte Modelle auf das Modell.
Wählen Sie die Seite Versionsdetails aus. Die Modell-ID wird in der Zeile Umgebungsvariablen der Tabelle angezeigt.
- Clients in Netzwerken, die über Hybridkonnektivität mit dem VPC-Netzwerk des Endpunkts verbunden sind, können auf den Endpunkt zugreifen. Weitere Informationen finden Sie unter Zugriff aufGoogle -APIs über Endpunkte.
- Clients in Peering-VPC-Netzwerken können nicht auf den Endpunkt zugreifen.
Rufen Sie in der Google Cloud Console die Seite Private Service Connect auf. Die Seite Verbundene Endpunkte wird angezeigt.
Klicken Sie auf + Endpunkt verbinden. Die Seite Endpunkt verbinden wird angezeigt.
Wählen Sie eine Option aus dem Feld Ziel aus. Sie können Google APIs auswählen, um Zugriff auf die meisten Google APIs und -Dienste zu erhalten, oder Veröffentlichter Dienst, um Zugriff auf einen veröffentlichten Dienst zu erhalten.
Wählen Sie im Bereich Zieldetails einen Wert aus der Liste Umfang und einen Wert aus der Liste Pakettyp aus.
Führen Sie im Abschnitt Endpunktdetails folgende Schritte aus:
- Geben Sie in das Feld Endpunktname einen Namen ein.
- Wählen Sie einen Wert aus der Liste Netzwerk aus. Wählen Sie ein VPC-Netzwerk in Ihrem Projekt aus. Wenn Sie einen PSC-Endpunkt in einem Dienstprojekt erstellen müssen, das ein freigegebene VPC-Netzwerk in einem Hostprojekt nutzt, verwenden Sie stattdessen die Google Cloud CLI oder senden Sie eine API-Anfrage.
- Wählen Sie einen Wert aus der Liste IP-Adresse aus.
Maximieren Sie den Bereich Service Directory.
Wählen Sie eine Region aus der Liste Region aus.
Wählen Sie einen Namespace aus der Liste Namespace aus.
Klicken Sie auf Endpunkt hinzufügen. Die Tabelle Endpunkte wird mit einer Zeile für den neuen Endpunkt aktualisiert.
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Klicken Sie auf Meine Endpunkte und Modelle ansehen.
Wählen Sie in der Liste Region Ihre Region aus.
Wenn Sie die Endpunkt-ID und die Endpunkt-URL abrufen möchten, klicken Sie im Bereich Meine Endpunkte auf den gewünschten Endpunkt.
Ihre Endpunkt-ID wird im Feld Endpunkt-ID angezeigt.
Die URL Ihres öffentlichen Endpunkts wird im Feld Dedizierter Endpunkt angezeigt.
So rufen Sie die Modell-ID ab: Suchen Sie in der Liste Bereitgestellte Modelle nach Ihrem Modell und gehen Sie so vor:
- Klicken Sie im Feld Modell auf den Namen des bereitgestellten Modells.
- Klicken Sie auf Versionsdetails. Ihre Modell-ID wird im Feld Modell-ID angezeigt.
- Weitere Informationen zu privaten dedizierten Endpunkten für Vertex AI-Onlinevorhersagen finden Sie unter Dedizierte private Endpunkte basierend auf Private Service Connect für Onlineinferenz verwenden.
- Weitere Informationen zu selbst bereitgestellten Modellen finden Sie unter Übersicht über selbst bereitgestellte Modelle.
- Weitere Informationen zu Model Garden finden Sie unter Übersicht über Model Garden.
- Weitere Informationen zum Bereitstellen von Modellen finden Sie unter Modelle in Model Garden verwenden.
- Offene Gemma-Modelle verwenden
- Offene Llama-Modelle verwenden
- Offene Hugging Face-Modelle verwenden
In dieser Anleitung wird davon ausgegangen, dass Sie Cloud Shell zur Interaktion mit Google Cloudverwenden. Wenn Sie anstelle von Cloud Shell eine andere Shell nutzen möchten, führen Sie die folgende zusätzliche Konfiguration aus:
Benutzerdefiniertes Modell bereitstellen
In diesem Abschnitt wird gezeigt, wie Sie Ihr benutzerdefiniertes Modell bereitstellen.
Wenn Sie die Befehlszeile, Python oder JavaScript verwenden, ersetzen Sie die folgenden Variablen durch einen Wert, damit Ihre Codebeispiele funktionieren:
Console
In den folgenden Schritten wird beschrieben, wie Sie Ihr Modell mit benutzerdefinierten Gewichten über die Google Cloud -Konsole bereitstellen.
gcloud-CLI
Dieser Befehl zeigt, wie das Modell in einer bestimmten Region bereitgestellt wird.
gcloud ai model-garden models deploy --model=${MODEL_GCS} --region ${REGION}
Dieser Befehl zeigt, wie Sie das Modell mit seinem Maschinentyp, Beschleunigertyp und der Anzahl der Beschleuniger in einer bestimmten Region bereitstellen. Wenn Sie eine bestimmte Maschinenkonfiguration auswählen möchten, müssen Sie alle drei Felder festlegen.
gcloud ai model-garden models deploy --model=${MODEL_GCS} --machine-type=${MACHINE_TYE} --accelerator-type=${ACCELERATOR_TYPE} --accelerator-count=${ACCELERATOR_COUNT} --region ${REGION}
Python
import vertexai
from google.cloud import aiplatform
from vertexai.preview import model_garden
vertexai.init(project=${PROJECT_ID}, location=${REGION})
custom_model = model_garden.CustomModel(
gcs_uri=GCS_URI,
)
endpoint = custom_model.deploy(
machine_type="${MACHINE_TYPE}",
accelerator_type="${ACCELERATOR_TYPE}",
accelerator_count="${ACCELERATOR_COUNT}",
model_display_name="custom-model",
endpoint_display_name="custom-model-endpoint")
endpoint.predict(instances=[{"prompt": "${PROMPT}"}], use_dedicated_endpoint=True)
Alternativ müssen Sie keinen Parameter an die Methode custom_model.deploy() übergeben.
import vertexai
from google.cloud import aiplatform
from vertexai.preview import model_garden
vertexai.init(project=${PROJECT_ID}, location=${REGION})
custom_model = model_garden.CustomModel(
gcs_uri=GCS_URI,
)
endpoint = custom_model.deploy()
endpoint.predict(instances=[{"prompt": "${PROMPT}"}], use_dedicated_endpoint=True)
curl
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:deploy" \
-d '{
"custom_model": {
"gcs_uri": "'"${MODEL_GCS}"'"
},
"destination": "projects/'"${PROJECT_ID}"'/locations/'"${REGION}"'",
"model_config": {
"model_user_id": "'"${MODEL_ID}"'",
},
}'
Alternativ können Sie den Maschinentyp explizit über die API festlegen.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:deploy" \
-d '{
"custom_model": {
"gcs_uri": "'"${MODEL_GCS}"'"
},
"destination": "projects/'"${PROJECT_ID}"'/locations/'"${REGION}"'",
"model_config": {
"model_user_id": "'"${MODEL_ID}"'",
},
"deploy_config": {
"dedicated_resources": {
"machine_spec": {
"machine_type": "'"${MACHINE_TYPE}"'",
"accelerator_type": "'"${ACCELERATOR_TYPE}"'",
"accelerator_count": '"${ACCELERATOR_COUNT}"'
},
"min_replica_count": 1
}
}
}'
Mit der API bereitstellen
VPC Service Controls funktioniert nur mit dem privaten dedizierten Endpunkt.
Daher müssen Sie private_service_connect_config im folgenden Codebeispiel festlegen, in dem gezeigt wird, wie die Bereitstellung über die API erfolgt:
curl
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://us-central1-aiplatform.googleapis.com/v1beta1/projects/YOUR_PROJECT/locations/us-central1:deploy" \
-d '{
"custom_model": {
"model_id": "test-mg-deploy-092301",
"gcs_uri": "gs://YOUR_GCS_BUCKET"
},
"destination": "projects/YOUR_PROJECT/locations/us-central1",
"endpoint_config": {
"endpoint_display_name": "psc-ep1",
"private_service_connect_config": {
"enablePrivateServiceConnect": true,
"projectAllowlist": ["YOUR_PROJECT"]
}
},
"deploy_config": {
"dedicated_resources": {
"machine_spec": {
"machine_type": "g2-standard-24",
"accelerator_type": "NVIDIA_L4",
"accelerator_count": 2
},
"min_replica_count": 1,
"max_replica_count": 1
}
}
}'
Endpunkt-ID und Modell-ID über die Google Cloud Console abrufen
Führen Sie nach Abschluss der Bereitstellung die folgenden Schritte aus:
Private Service Connect einrichten
Sie fügen einen neuen Endpunkt für den Zugriff auf Google APIs hinzu. Dieser Endpunkt kann in allen Regionen des ausgewählten VPC-Netzwerk verwendet werden. Beachten Sie außerdem Folgendes:
Endpunkt zum Auflisten zum Abrufen des Dienstanhangs
In diesem Codebeispiel wird gezeigt, wie Sie einen Endpunkt auflisten, um eine Dienstanhängevorrichtung zu erhalten.
curl
$ curl \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://us-central1-aiplatform.googleapis.com/v1beta1/projects/YOUR_PROJECT/locations/us-central1/endpoints/YOUR_ENDPOINT_ID"
Dies ist die Antwort des Listenendpunkts.
{
"name": "projects/440968033208/locations/us-central1/endpoints/mg-endpoint-2c6ae2be-1491-43fe-b179-cb5a63e2c955",
"displayName": "psc-ep1",
"deployedModels": [
{
"id": "4026753529031950336",
"model": "projects/440968033208/locations/us-central1/models/mg-custom-1758645924",
"displayName": "null-null-null-1758645933",
"createTime": "2025-09-23T16:45:45.169195Z",
"dedicatedResources": {
"machineSpec": {
"machineType": "g2-standard-24",
"acceleratorType": "NVIDIA_L4",
"acceleratorCount": 2
},
"minReplicaCount": 1,
"maxReplicaCount": 1
},
"enableContainerLogging": true,
"privateEndpoints": {
"serviceAttachment": "projects/qdb392d34e2a11149p-tp/regions/us-central1/serviceAttachments/gkedpm-fbbc4061323c91c14ab4d961a2f8b0"
},
"modelVersionId": "1",
"status": {
"lastUpdateTime": "2025-09-23T17:26:10.031652Z",
"availableReplicaCount": 1
}
}
],
"trafficSplit": {
"4026753529031950336": 100
},
"etag": "AMEw9yPIWQYdbpHu6g6Mhpu1_10J062_oR9Jw9txrp8dFFbel7odLgSK8CGIogAUkR_r",
"createTime": "2025-09-23T16:45:45.169195Z",
"updateTime": "2025-09-23T17:13:36.320873Z",
"privateServiceConnectConfig": {
"enablePrivateServiceConnect": true,
"projectAllowlist": [
"ucaip-vpc-s-1605069239-dut-24"
]
}
}
Private Service Connect erstellen
So stellen Sie eine Private Service Connect-Verbindung (PSC) her:
Abfrage erstellen
In diesem Abschnitt wird erläutert, wie Sie einen öffentlichen und einen privaten Endpunkt erstellen.
Abfrage an einen öffentlichen Endpunkt senden
Nachdem Ihr Modell bereitgestellt wurde, werden benutzerdefinierte Gewichte für den öffentlichen dedizierten Endpunkt unterstützt. Sie können Abfragen über die API oder das SDK senden.
Bevor Sie Anfragen senden können, müssen Sie die Endpunkt-URL, die Endpunkt-ID und die Modell-ID abrufen. Diese sind in der Google Cloud Console verfügbar.
So rufen Sie die Informationen ab:
Nachdem Sie die Informationen zu Ihrem Endpunkt und bereitgestellten Modell erhalten haben, finden Sie in den folgenden Codebeispielen Informationen zum Senden einer Inferenzanfrage. Alternativ können Sie auch Onlineinferenzanfrage an einen dedizierten öffentlichen Endpunkt senden lesen.
API
Die folgenden Codebeispiele zeigen verschiedene Möglichkeiten, die API basierend auf Ihrem Anwendungsfall zu verwenden.
Chat-Vervollständigung (unär)
Bei dieser Beispielanfrage wird eine vollständige Chatnachricht an das Modell gesendet und eine Antwort in einem einzigen Chunk empfangen, nachdem die gesamte Antwort generiert wurde. Das ist ähnlich wie beim Senden einer SMS und dem Erhalten einer einzelnen vollständigen Antwort.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://${ENDPOINT_URL}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/endpoints/${ENDPOINT_ID}/chat/completions" \
-d '{
"model": "'"${MODEL_ID}"'",
"temperature": 0,
"top_p": 1,
"max_tokens": 154,
"ignore_eos": true,
"messages": [
{
"role": "user",
"content": "How to tell the time by looking at the sky?"
}
]
}'
Chat-Vervollständigung (Streaming)
Diese Anfrage ist die Streaming-Version der unären Chat-Vervollständigungsanfrage. Wenn Sie der Anfrage "stream": true hinzufügen, sendet das Modell seine Antwort nach und nach, während sie generiert wird. Dies ist nützlich, um in einer Chatanwendung einen Echtzeit-Schreibmaschineneffekt zu erzeugen.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \ "https://${ENDPOINT_URL}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/endpoints/${ENDPOINT_ID}/chat/completions" \
-d '{
"model": "'"${MODEL_ID}"'",
"stream": true,
"temperature": 0,
"top_p": 1,
"max_tokens": 154,
"ignore_eos": true,
"messages": [
{
"role": "user",
"content": "How to tell the time by looking at the sky?"
}
]
}'
Vorhersagen
Bei dieser Anfrage wird ein direkter Prompt gesendet, um eine Inferenz von einem Modell zu erhalten. Dies wird häufig für Aufgaben verwendet, die nicht unbedingt dialogorientiert sind, z. B. für die Textzusammenfassung oder ‑klassifizierung.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://${ENDPOINT_URL}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/endpoints/${ENDPOINT_ID}:predict" \
-d '{
"instances": [
{
"prompt": "How to tell the time by looking at the sky?",
"temperature": 0,
"top_p": 1,
"max_tokens": 154,
"ignore_eos": true
}
]
}'
Raw Predict
Diese Anfrage ist eine Streaming-Version der Predict-Anfrage. Wenn Sie den :streamRawPredict-Endpunkt verwenden und "stream": true einfügen, wird mit dieser Anfrage ein direkter Prompt gesendet und die Ausgabe des Modells als kontinuierlicher Datenstrom empfangen, während sie generiert wird. Das ähnelt der Streaming-Chat-Vervollständigungsanfrage.
curl -X POST \
-N \
--output - \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://${ENDPOINT_URL}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/endpoints/${ENDPOINT_ID}:streamRawPredict" \
-d '{
"instances": [
{
"prompt": "How to tell the time by looking at the sky?",
"temperature": 0,
"top_p": 1,
"max_tokens": 154,
"ignore_eos": true,
"stream": true
}
]
}'
SDK
In diesem Codebeispiel wird das SDK verwendet, um eine Anfrage an ein Modell zu senden und eine Antwort von diesem Modell zu erhalten.
from google.cloud import aiplatform
project_id = ""
location = ""
endpoint_id = "" # Use the short ID here
aiplatform.init(project=project_id, location=location)
endpoint = aiplatform.Endpoint(endpoint_id)
prompt = "How to tell the time by looking at the sky?"
instances=[{"text": prompt}]
response = endpoint.predict(instances=instances, use_dedicated_endpoint=True)
print(response.predictions)
Abfrage für einen privaten Endpunkt erstellen
Sie können Ihre Abfrage mit einem Notebook oder einer VM im zulässigen Projekt testen.
In dieser Beispielabfrage können Sie Variablen durch Ihre IP-Adresse, Projekt-ID, Endpunkt-ID und Modell-ID (aus dem Bereitstellungsschritt oben) ersetzen.
curl
Chat-Vervollständigung
curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 'https://YOUR_IP/v1beta1/projects/YOUR_PROJECT_ID/locations/YOUR_LOCATION/endpoints/YOUR_ENDPOINT_ID/chat/completions' -d '{ "model": "YOUR_MODEL_ID", "max_tokens": 300, "messages": [{ "role": "user", "content": "how to tell the time by looking at sky?" }]}'
Vorhersagen
$ curl -k -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 'https:/YOUR_IP/v1beta1/projects/YOUR_PROJECT_ID/locations/YOUR_LOCATION/endpoints/YOUR_ENDPOINT_ID:predict' -d '{
"instances": [
{
"prompt": "Summarize Goog stock performance",
"temperature": 0,
"top_p": 1,
"max_tokens": 154,
"ignore_eos": true
}
]
}'
Ein weiteres Beispiel für die Verwendung der API finden Sie im Notebook zum Importieren benutzerdefinierter Gewichte.