Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Öffentlichen Endpunkt erstellen

Wenn Sie ein Modell mit der gcloud CLI oder der Gemini Enterprise API bereitstellen möchten, müssen Sie zuerst einen öffentlichen Endpunkt erstellen.

Wenn Sie bereits einen öffentlichen Endpunkt haben, können Sie diesen Schritt überspringen und mit Modell mit der gcloud CLI oder der Gemini Enterprise API bereitstellenfortfahren.

In diesem Dokument wird das Erstellen eines neuen öffentlichen Endpunkts beschrieben.

Dedizierten öffentlichen Endpunkt erstellen (empfohlen)

Das Standard-Zeitlimit für Anfragen für einen dedizierten öffentlichen Endpunkt beträgt 10 Minuten. In der Gemini Enterprise API und im Agent Platform SDK for Python können Sie optional ein anderes Zeitlimit für Anfragen angeben, indem Sie ein clientConnectionConfig Objekt mit einem neuen inferenceTimeout Wert hinzufügen, wie im folgenden Beispiel gezeigt. Der maximale Zeitlimitwert beträgt 3.600 Sekunden (1 Stunde).

Google Cloud Console

Rufen Sie in der Google Cloud -Console im Abschnitt „Agent Platform“ die Seite Onlinevorhersage auf.
Zur Seite „Onlinevorhersage“
Klicken Sie auf Erstellen.
Im Bereich Neuer Endpunkt:

Geben Sie den Endpunktnamen ein.
Wählen Sie für den Zugriffstyp Standard aus.
Klicken Sie auf das Kästchen Dediziertes DNS aktivieren.
Klicken Sie auf Weiter.

Klicken Sie auf Fertig.

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION_ID: Ihre Region.
PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
ENDPOINT_NAME: Der Anzeigename für den Endpunkt.
INFERENCE_TIMEOUT_SECS: (Optional) Anzahl der Sekunden im optionalen inferenceTimeout Feld.

HTTP-Methode und URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints

JSON-Text anfordern:

{
  "display_name": "ENDPOINT_NAME",
  "dedicatedEndpointEnabled": true,
  "clientConnectionConfig": {
    "inferenceTimeout": {
      "seconds": INFERENCE_TIMEOUT_SECS
    }
  }
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt haben, die Sie automatisch in der gcloud-Befehlszeile anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateEndpointOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-11-05T17:45:42.812656Z",
      "updateTime": "2020-11-05T17:45:42.812656Z"
    }
  }
}

Sie können den Status des Vorgangs abfragen, bis in der Antwort

"done":
true

angegeben wird.

Python

Folgen Sie der Python Einrichtungsanleitung in der Kurzanleitung zu Agent Platform zur Verwendung von Clientbibliotheken, bevor Sie dieses Beispiel anwenden. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Agent PlatformPython.

Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Agent Platform zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

Ersetzen Sie Folgendes:

PROJECT_ID: Ihre Projekt-ID.
LOCATION_ID: Die Region, in der Sie Agent Platform verwenden.
ENDPOINT_NAME: Der Anzeigename für den Endpunkt.
INFERENCE_TIMEOUT_SECS: (Optional) Anzahl der Sekunden im optionalen inference_timeout Wert.

from google.cloud import aiplatform

PROJECT_ID = "PROJECT_ID"
LOCATION = "LOCATION_ID"
ENDPOINT_NAME = "ENDPOINT_NAME"
INFERENCE_TIMEOUT_SECS = "INFERENCE_TIMEOUT_SECS"

aiplatform.init(
    project=PROJECT_ID,
    location=LOCATION,
    api_endpoint=ENDPOINT_NAME,
)

dedicated_endpoint = aiplatform.Endpoint.create(
    display_name=DISPLAY_NAME,
    dedicated_endpoint_enabled=True,
    sync=True,
    inference_timeout=INFERENCE_TIMEOUT_SECS,
)

Konfiguration des Zeitlimits für die Inferenz

Das Standard-Zeitlimit für Inferenzanfragen beträgt 600 Sekunden (10 Minuten). Dieses Zeitlimit wird angewendet, wenn beim Erstellen des Endpunkts kein explizites Zeitlimit für die Inferenz angegeben wird. Der maximal zulässige Zeitlimitwert beträgt eine Stunde.

Verwenden Sie den Parameter inference_timeout, um das Zeitlimit für die Inferenz beim Erstellen des Endpunkts zu konfigurieren, wie im folgenden Code-Snippet gezeigt:

timeout_endpoint = aiplatform.Endpoint.create(
    display_name="dedicated-endpoint-with-timeout",
    dedicated_endpoint_enabled=True,
    inference_timeout=1800,  # Unit: Seconds
)

Änderungen an der Einstellung für das Zeitlimit für die Inferenz nach dem Erstellen des Endpunkts können mit der Methode EndpointService.UpdateEndpointLongRunning vorgenommen werden. Die Methode EndpointService.UpdateEndpoint unterstützt diese Änderung nicht.

Anfrage-/Antwort-Logging

Mit dem Feature für das Anfrage-/Antwort-Logging werden API-Interaktionen erfasst. Um die BigQuery-Beschränkungen einzuhalten, werden Nutzlasten mit einer Größe von mehr als 10 MB jedoch aus den Logs ausgeschlossen.

Verwenden Sie die folgenden Parameter, um das Anfrage-/Antwort-Logging beim Erstellen des Endpunkts zu aktivieren und zu konfigurieren, wie im folgenden Code-Snippet gezeigt:

logging_endpoint = aiplatform.Endpoint.create(
    display_name="dedicated-endpoint-with-logging",
    dedicated_endpoint_enabled=True,
    enable_request_response_logging=True,
    request_response_logging_sampling_rate=1.0,  # Default: 0.0
    request_response_logging_bq_destination_table="bq://test_logging",
    # If not set, a new BigQuery table will be created with the name:
    # bq://{project_id}.logging_{endpoint_display_name}_{endpoint_id}.request_response_logging
)

Änderungen an den Einstellungen für das Anfrage-/Antwort-Logging nach dem Erstellen des Endpunkts können mit der Methode EndpointService.UpdateEndpointLongRunning vorgenommen werden. Die Methode EndpointService.UpdateEndpoint unterstützt diese Änderung nicht.

Gemeinsamen öffentlichen Endpunkt erstellen

Google Cloud Console

Rufen Sie in der Google Cloud -Console im Abschnitt „Agent Platform“ die Seite Onlinevorhersage auf.
Zur Seite „Onlinevorhersage“
Klicken Sie auf Erstellen.
Im Bereich Neuer Endpunkt:

Geben Sie den Endpunktnamen ein.
Wählen Sie für den Zugriffstyp Standard aus.
Klicken Sie auf Weiter.

Klicken Sie auf Fertig.

gcloud

Im folgenden Beispiel wird der gcloud ai endpoints create Befehl verwendet:

gcloud ai endpoints create \
    --region=LOCATION_ID \
    --display-name=ENDPOINT_NAME

Ersetzen Sie Folgendes:

LOCATION_ID: Die Region, in der Sie Agent Platform verwenden.
ENDPOINT_NAME: Der Anzeigename für den Endpunkt.

Es kann einige Sekunden dauern, bis das Google Cloud CLI den Endpunkt erstellt.

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION_ID: Ihre Region.
PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
ENDPOINT_NAME: Der Anzeigename für den Endpunkt.

HTTP-Methode und URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints

JSON-Text anfordern:

{
  "display_name": "ENDPOINT_NAME"
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateEndpointOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-11-05T17:45:42.812656Z",
      "updateTime": "2020-11-05T17:45:42.812656Z"
    }
  }
}

Sie können den Status des Vorgangs abfragen, bis in der Antwort

"done":
true

angegeben wird.

Terraform

Im folgenden Beispiel wird die google_vertex_ai_endpoint Terraform-Ressource verwendet, um einen Endpunkt zu erstellen.

Informationen zum Anwenden oder Entfernen einer Terraform-Konfiguration finden Sie unter Grundlegende Terraform-Befehle.

# Endpoint name must be unique for the project
resource "random_id" "endpoint_id" {
  byte_length = 4
}

resource "google_vertex_ai_endpoint" "default" {
  name         = substr(random_id.endpoint_id.dec, 0, 10)
  display_name = "sample-endpoint"
  description  = "A sample Vertex AI endpoint"
  location     = "us-central1"
  labels = {
    label-one = "value-one"
  }
}

Java

Folgen Sie der Java Einrichtungsanleitung in der Kurzanleitung zu Agent Platform zur Verwendung von Clientbibliotheken, bevor Sie dieses Beispiel anwenden. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Agent PlatformJava.


import com.google.api.gax.longrunning.OperationFuture;
import com.google.cloud.aiplatform.v1.CreateEndpointOperationMetadata;
import com.google.cloud.aiplatform.v1.Endpoint;
import com.google.cloud.aiplatform.v1.EndpointServiceClient;
import com.google.cloud.aiplatform.v1.EndpointServiceSettings;
import com.google.cloud.aiplatform.v1.LocationName;
import java.io.IOException;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.TimeUnit;
import java.util.concurrent.TimeoutException;

public class CreateEndpointSample {

  public static void main(String[] args)
      throws IOException, InterruptedException, ExecutionException, TimeoutException {
    // TODO(developer): Replace these variables before running the sample.
    String project = "YOUR_PROJECT_ID";
    String endpointDisplayName = "YOUR_ENDPOINT_DISPLAY_NAME";
    createEndpointSample(project, endpointDisplayName);
  }

  static void createEndpointSample(String project, String endpointDisplayName)
      throws IOException, InterruptedException, ExecutionException, TimeoutException {
    EndpointServiceSettings endpointServiceSettings =
        EndpointServiceSettings.newBuilder()
            .setEndpoint("us-central1-aiplatform.googleapis.com:443")
            .build();

    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (EndpointServiceClient endpointServiceClient =
        EndpointServiceClient.create(endpointServiceSettings)) {
      String location = "us-central1";
      LocationName locationName = LocationName.of(project, location);
      Endpoint endpoint = Endpoint.newBuilder().setDisplayName(endpointDisplayName).build();

      OperationFuture<Endpoint, CreateEndpointOperationMetadata> endpointFuture =
          endpointServiceClient.createEndpointAsync(locationName, endpoint);
      System.out.format("Operation name: %s\n", endpointFuture.getInitialFuture().get().getName());
      System.out.println("Waiting for operation to finish...");
      Endpoint endpointResponse = endpointFuture.get(300, TimeUnit.SECONDS);

      System.out.println("Create Endpoint Response");
      System.out.format("Name: %s\n", endpointResponse.getName());
      System.out.format("Display Name: %s\n", endpointResponse.getDisplayName());
      System.out.format("Description: %s\n", endpointResponse.getDescription());
      System.out.format("Labels: %s\n", endpointResponse.getLabelsMap());
      System.out.format("Create Time: %s\n", endpointResponse.getCreateTime());
      System.out.format("Update Time: %s\n", endpointResponse.getUpdateTime());
    }
  }
}

Node.js

Folgen Sie der Node.js Einrichtungsanleitung in der Kurzanleitung zu Agent Platform zur Verwendung von Clientbibliotheken, bevor Sie dieses Beispiel anwenden. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Agent Platform Node.js.

/**
 * TODO(developer): Uncomment these variables before running the sample.\
 * (Not necessary if passing values as arguments)
 */

// const endpointDisplayName = 'YOUR_ENDPOINT_DISPLAY_NAME';
// const project = 'YOUR_PROJECT_ID';
// const location = 'YOUR_PROJECT_LOCATION';

// Imports the Google Cloud Endpoint Service Client library
const {EndpointServiceClient} = require('@google-cloud/aiplatform');

// Specifies the location of the api endpoint
const clientOptions = {
  apiEndpoint: 'us-central1-aiplatform.googleapis.com',
};

// Instantiates a client
const endpointServiceClient = new EndpointServiceClient(clientOptions);

async function createEndpoint() {
  // Configure the parent resource
  const parent = `projects/${project}/locations/${location}`;
  const endpoint = {
    displayName: endpointDisplayName,
  };
  const request = {
    parent,
    endpoint,
  };

  // Get and print out a list of all the endpoints for this resource
  const [response] = await endpointServiceClient.createEndpoint(request);
  console.log(`Long running operation : ${response.name}`);

  // Wait for operation to complete
  await response.promise();
  const result = response.result;

  console.log('Create endpoint response');
  console.log(`\tName : ${result.name}`);
  console.log(`\tDisplay name : ${result.displayName}`);
  console.log(`\tDescription : ${result.description}`);
  console.log(`\tLabels : ${JSON.stringify(result.labels)}`);
  console.log(`\tCreate time : ${JSON.stringify(result.createTime)}`);
  console.log(`\tUpdate time : ${JSON.stringify(result.updateTime)}`);
}
createEndpoint();

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python API-Referenzdokumentation.

def create_endpoint_sample(
    project: str,
    display_name: str,
    location: str,
):
    aiplatform.init(project=project, location=location)

    endpoint = aiplatform.Endpoint.create(
        display_name=display_name,
        project=project,
        location=location,
    )

    print(endpoint.display_name)
    print(endpoint.resource_name)
    return endpoint

Nächste Schritte

Modell mit der gcloud CLI oder der Gemini Enterprise API bereitstellen.
Informationen zum Abrufen einer Online-Inferenz .

Öffentlichen Endpunkt erstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Dedizierten öffentlichen Endpunkt erstellen (empfohlen)

Google Cloud Console

REST

curl (Linux, macOS oder Cloud Shell)

PowerShell (Windows)

Python

Konfiguration des Zeitlimits für die Inferenz

Anfrage-/Antwort-Logging

Gemeinsamen öffentlichen Endpunkt erstellen

Google Cloud Console

gcloud

REST

curl (Linux, macOS oder Cloud Shell)

PowerShell (Windows)

Terraform

Java

Node.js

Python

Nächste Schritte

Öffentlichen Endpunkt erstellen