Utiliser des points de terminaison publics dédiés pour l'inférence en ligne

Un point de terminaison public dédié est un point de terminaison public pour l'inférence en ligne. Il offre les avantages suivants :

  • Mise en réseau dédiée : lorsque vous envoyez une requête d’inférence à un point de terminaison public dédié, elle est isolée du trafic des autres utilisateurs.
  • Latence réseau optimisée
  • Prise en charge de charges utiles plus volumineuses : jusqu'à 10 Mo.
  • Délais avant expiration des requêtes plus longs : configurables jusqu'à 1 heure.
  • Prêt pour l'IA générative : le streaming et gRPC sont compatibles. Le délai avant expiration de l'inférence est configurable jusqu'à 1 heure.

Pour ces raisons, les points de terminaison publics dédiés sont recommandés comme bonne pratique pour diffuser les inférences en ligne de Gemini Enterprise Agent Platform.

Pour en savoir plus, consultez Choisir un type de point de terminaison.

Créer un point de terminaison public dédié et y déployer un modèle

Vous pouvez créer un point de terminaison dédié et y déployer un modèle à l'aide de la Google Cloud console. Pour en savoir plus, consultez Déployer un modèle à l'aide de la Google Cloud console.

Vous pouvez également créer un point de terminaison public dédié et y déployer un modèle à l'aide de l'API Gemini Enterprise comme suit :

  1. Créez un point de terminaison public dédié. La configuration du délai avant expiration de l'inférence et des paramètres de journalisation des requêtes et des réponses est prise en charge lors de la création du point de terminaison.
  2. Déployez le modèle à l'aide de l'API Gemini Enterprise.

Obtenir des inférences en ligne à partir d'un point de terminaison public dédié

Les points de terminaison dédiés sont compatibles avec les protocoles de communication HTTP et gRPC. Pour les requêtes gRPC, l'en-tête x-vertex-ai-endpoint-id doit être inclus pour une identification correcte du point de terminaison. Les API suivantes sont compatibles :

  • Prédiction
  • RawPredict
  • StreamRawPredict
  • Chat Completion (Model Garden uniquement)

Vous pouvez envoyer des requêtes d'inférence en ligne à un point de terminaison public dédié à l'aide du SDK Agent Platform pour Python. Pour en savoir plus, consultez Envoyer une requête d'inférence en ligne à un point de terminaison public dédié.

Tutoriel

Limites

  • Le déploiement de modèles Gemini réglés n'est pas pris en charge.
  • VPC Service Controls n'est pas compatible. Utilisez plutôt un point de terminaison Private Service Connect.

Étape suivante

  • Découvrez les types de points de terminaison d'inférence en ligne de Gemini Enterprise Agent Platform .