Options de consommation

Gemini Enterprise Agent Platform offre plusieurs options pour obtenir et utiliser des ressources de calcul lorsque vous utilisez des modèles génératifs. Ces options de consommation sont conçues pour répondre aux besoins de n'importe quelle charge de travail, du prototypage initial aux déploiements en production. Il est essentiel de sélectionner la bonne option pour équilibrer les performances, la fiabilité et les coûts.

Ce guide décrit les options de consommation disponibles, vous aide à les associer aux exigences spécifiques de votre charge de travail et fournit des stratégies pour optimiser la latence, la disponibilité et les coûts.

Options de consommation

Gemini Enterprise Agent Platform propose cinq options de consommation adaptées à différents schémas de trafic et besoins commerciaux :

Option d'utilisation Description Idéal pour les cas suivants Tarifs
Débit provisionné Fournit un débit garanti pour une période d'engagement Charges de travail critiques, stables et toujours actives pour lesquelles un contrat de niveau de service est nécessaire Basés sur un engagement (disponibles avec des forfaits d'une semaine, d'un mois, de trois mois et d'un an)
PayGo Standard Option flexible de paiement à l'usage sans engagement initial Option par défaut pour les cas d'utilisation quotidiens avec une flexibilité pour la demande de trafic variable Par jeton (tarif standard)
Priorité Offre une fiabilité accrue grâce au traitement prioritaire tout en conservant la flexibilité de PayGo Charges de travail importantes qui nécessitent une fiabilité et des limites supérieures à celles de PayGo standard Par jeton (tarif premium)
Flex Option économique pour les charges de travail tolérantes à la latence Tâches qui peuvent tolérer des temps de réponse plus lents et une limitation plus élevée en échange de prix plus bas Par jeton (prix réduit)
Inférence par lot Optimisé pour les coûts pour le traitement asynchrone à volume élevé Tâches à grande échelle pour lesquelles les résultats sont nécessaires dans un délai plus long Par jeton (prix réduit)

Pour obtenir des informations sur la tarification, consultez la page des tarifs.

Choisir l'option adaptée à votre charge de travail

Les sections suivantes fournissent des conseils pour sélectionner l'option de consommation la plus adaptée en fonction des exigences et des caractéristiques spécifiques de votre charge de travail.

Charges de travail sensibles à la latence

Les organisations doivent souvent faire des compromis entre fiabilité et coût lorsqu'elles choisissent les bons modèles de consommation. Bien que le débit provisionné offre la plus grande fiabilité, il peut entraîner une sous-utilisation si votre trafic connaît des pics. De même, PayGo peut offrir une flexibilité maximale, mais ne peut pas garantir une qualité de service. La section suivante décrit comment combiner au mieux ces mécanismes pour obtenir le résultat optimal :

  1. Couvrez le trafic de référence avec le débit provisionné. Cela améliore l'utilisation de votre capacité réservée, ce qui la rend économique tout en garantissant la fiabilité de votre trafic principal. Pour ce faire :
    • Analysez vos schémas de trafic au niveau de la minute ou de la seconde.
    • Déterminez la quantité de trafic à couvrir par le débit provisionné. Il doit couvrir votre trafic le plus prioritaire.
  2. Gérez le trafic excédentaire avec PayGo standard ou prioritaire : par défaut, le trafic qui dépasse votre référence de débit provisionné (appelé trafic excédentaire) est géré par PayGo standard. Si vous constatez une plus grande variance dans les performances des requêtes au-dessus de la limite de TPM, vous pouvez l'atténuer grâce à l'optimisation. PayGo prioritaire vous permet d'obtenir des performances fiables à un prix premium, sous réserve de la limite de montée en charge.

Charges de travail asynchrones à volume élevé

Si vous avez un grand nombre de requêtes en attente (par exemple, si vous avez des millions de documents à résumer) et que la latence immédiate n'est pas un problème, vous devez envoyer un job par lot en formulant des requêtes dans un fichier JSON ou une feuille de calcul. Cela est utile pour les cas d'utilisation tels que le libellé d'images, le traitement de documents en bloc ou l'analyse des sentiments sur les données historiques.

Il s'agit de l'option la plus économique pour l'inférence à volume élevé.

Charges de travail tolérantes à la latence et sensibles aux coûts

Si vous devez traiter des requêtes pour lesquelles l'application peut attendre une réponse mais que la réduction des coûts est une priorité, vous devez utiliser PayGo Flex. PayGo Flex propose des prix par jeton réduits pour les requêtes qui ne nécessitent pas d'exécution immédiate. Cette option est utile pour les cas d'utilisation tels que l'analyse hors connexion, l'annotation de données, la création de catalogues de produits ou la traduction.

Stratégies d'optimisation

Une fois que vous avez sélectionné votre modèle de consommation, utilisez les stratégies suivantes pour optimiser davantage la latence, la disponibilité et les coûts.

Latence

Lorsque vous créez des applications interactives, la latence joue un rôle essentiel dans l'expérience utilisateur. La latence fait référence au temps nécessaire à un modèle pour traiter votre prompt d'entrée et générer une réponse de sortie correspondante. Lorsque vous examinez la latence avec un modèle, tenez compte des points suivants :

  • Délai avant le premier jeton (TTFT) : temps nécessaire au modèle pour produire le premier jeton de la réponse après avoir reçu le prompt. Le TTFT est particulièrement pertinent pour les applications de streaming, où il est essentiel de fournir un retour d'information immédiat.
  • Délai avant le dernier jeton (TTLT) : temps total nécessaire au modèle pour traiter le prompt et générer la réponse.

Pour optimiser la latence :

  • Sélectionnez le modèle adapté à votre cas d'utilisation : Gemini Enterprise Agent Platform propose une large gamme de modèles avec des fonctionnalités et des caractéristiques de performances variées. Évaluez soigneusement vos exigences en termes de vitesse et de qualité de sortie pour choisir le modèle qui correspond le mieux à votre cas d'utilisation. Pour obtenir la liste des modèles disponibles, consultez Model Garden.
  • Réduisez la taille du prompt : définissez des requêtes claires et concises qui transmettent efficacement votre intent sans détails inutiles ni redondances. Des requêtes plus courtes réduisent le délai avant l'obtention du premier jeton.
  • Limiter les jetons de sortie :
    • Utilisez des instructions système pour contrôler la longueur de la réponse. Demandez au modèle de fournir des réponses concises ou de limiter la sortie à un nombre spécifique de phrases ou de paragraphes. Cette stratégie peut réduire le délai avant l'obtention du dernier jeton.
    • Restreignez la sortie en définissant une limite. Utilisez le paramètre max_output_tokens pour définir une limite maximale sur la longueur de la réponse générée, afin d'éviter les résultats trop longs. La latence est directement proportionnelle au nombre de jetons générés. La génération de moins de jetons entraîne des réponses plus rapides. Toutefois, soyez prudent, car cela peut couper les réponses au milieu d'une phrase.
  • Utilisez le débit provisionné : pour des performances plus cohérentes, utilisez le débit provisionné. Cela élimine la variabilité causée par les "démarrages à froid" ou la mise en file d'attente qui peuvent parfois se produire dans les modèles PayGo en cas de trafic élevé.
  • Limitez le budget de réflexion : si vous utilisez un modèle compatible avec la réflexion, vous pouvez réduire la latence en réduisant le budget de réflexion. En limitant les jetons de raisonnement internes que le modèle génère avant de répondre, vous réduisez le temps de traitement global. Toutefois, vous devez vous assurer que le budget reste suffisant pour la complexité de la tâche afin d'éviter de dégrader la qualité de la réponse.
  • Utilisez le streaming pour vos réponses : Le streaming améliore la réactivité perçue et crée une expérience utilisateur plus interactive. Avec le streaming, le modèle commence à envoyer sa réponse avant de générer la sortie complète. Ainsi, les résultats sont traités en temps réel. Vous pouvez ainsi mettre à jour votre interface utilisateur immédiatement et effectuer d'autres tâches simultanées.

Disponibilité

Pour optimiser la disponibilité :

  • Implémentez une logique de nouvelle tentative : implémentez un intervalle exponentiel entre les tentatives pour les erreurs 429, en particulier lorsque vous utilisez PayGo standard.
  • Utilisez une implémentation hybride : comme indiqué dans la section Choisir l'option adaptée à votre charge de travail, ne vous fiez pas uniquement à PayGo pour les applications de production critiques. La combinaison du débit provisionné et de PayGo offre la plus grande assurance contre l'épuisement des ressources (erreurs 429).
  • Gérez votre quota de débit provisionné : surveillez régulièrement votre consommation de TPM et augmentez les GSU de débit provisionné avant les événements de trafic prévus (tels que les lancements de produits). Vous pouvez utiliser une règle d'alerte pour automatiser la surveillance.
  • Utilisez le point de terminaison global : utilisez le point de terminaison global pour utiliser le pool de capacité mondial de Google afin de minimiser la limitation due aux contraintes de capacité régionales.
  • Lissez votre trafic pour réduire les pics dans la mesure du possible : les taux de trafic PayGo plus élevés (TPM) ont tendance à être associés à des taux de limitation plus élevés.
  • Déplacez le trafic vers les heures creuses : l'utilisation globale des modèles suit généralement un schéma diurne. Le décalage de votre charge de travail vers les heures creuses ou les week-ends peut améliorer considérablement la disponibilité.

Coût

Pour optimiser les coûts :

  • Dimensionnez correctement votre débit provisionné : en général, vous n'avez pas besoin de provisionner le débit provisionné pour couvrir la demande maximale. Le provisionnement pour la demande maximale réduit l'utilisation globale et augmente les coûts. Essayez de couvrir un centile spécifique de votre trafic en fonction de votre tolérance au risque, et laissez PayGo standard et PayGo prioritaire gérer le reste.
  • Achetez un débit provisionné à plus long terme : un engagement de débit provisionné d'un an est proposé à un prix inférieur de 26% à celui d'un débit provisionné d'un mois, ce qui permet de réaliser des économies importantes. Vous pouvez toujours modifier le modèle associé aux GSU de débit provisionné que vous avez achetées pour profiter des dernières fonctionnalités de notre modèle.
  • Utilisez PayGo Flex : identifiez toute partie de votre pipeline qui n'est pas sensible à la latence (par exemple, la synthèse en arrière-plan, l'extraction de données) et déplacez-la vers PayGo Flex pour réduire les coûts d'environ 50%.
  • Utilisez le traitement par lot : pour les jobs asynchrones tels que le traitement de grands ensembles de données, le traitement par lot est beaucoup moins cher (50%) que le traitement séquentiel des requêtes à l'aide de PayGo standard.
  • Utilisez la mise en cache de contexte : La mise en cache de contexte permet de réduire le coût et la latence des requêtes contenant du contenu répété. Augmentez les succès de cache en plaçant du contenu volumineux et courant au début de votre prompt, et en envoyant des requêtes avec un préfixe similaire dans un court laps de temps.
  • Sélectionnez un modèle moins cher : si votre cas d'utilisation le permet, utilisez l'un de nos modèles plus petits, comme Flash-Lite, dont le prix par jeton est inférieur à celui de nos modèles robustes et complets.