Vertex AI propose plusieurs options pour obtenir et utiliser des ressources de calcul lorsque vous utilisez des modèles génératifs. Ces options de consommation sont conçues pour répondre aux besoins de n'importe quelle charge de travail, du prototypage initial aux déploiements en production. Il est essentiel de choisir la bonne option pour équilibrer les performances, la fiabilité et les coûts.
Ce guide décrit en détail les options de consommation disponibles, vous aide à les associer aux exigences spécifiques de votre charge de travail et fournit des stratégies pour optimiser la latence, la disponibilité et les coûts.
Options de consommation
Vertex AI propose cinq options de consommation adaptées à différents modèles de trafic et besoins commerciaux :
| Option d'utilisation | Description | Idéal pour | Tarifs | |
|---|---|---|---|---|
| Débit provisionné | Fournit un débit garanti pour une période d'engagement | Charges de travail critiques, à l'état stable et permanentes pour lesquelles un SLA est nécessaire | Avec engagement (disponible pour les forfaits d'une semaine, d'un mois, de trois mois et d'un an) | |
| PayGo | Standard | Option flexible, avec paiement à l'utilisation et sans engagement préalable | Option par défaut pour les cas d'utilisation quotidiens avec flexibilité pour la demande de trafic variable | Par jeton (tarif premium) |
| Priorité | Offre une fiabilité accrue grâce au traitement prioritaire tout en conservant la flexibilité du paiement à l'utilisation | Charges de travail importantes nécessitant une fiabilité et des limites supérieures à celles du paiement à l'utilisation standard | Par jeton (taux standard) | |
| Flex | Option économique pour les charges de travail tolérantes à la latence | Tâches pouvant tolérer un temps de réponse plus lent et une limitation plus élevée, avec des prix plus bas | Par jeton (tarif réduit) | |
| Inférence par lot | Coût optimisé pour le traitement asynchrone à volume élevé | Tâches à grande échelle pour lesquelles les résultats sont nécessaires dans un délai plus long | Par jeton (tarif réduit) | |
Pour en savoir plus sur les tarifs, consultez la page des tarifs.
Choisir l'option adaptée à votre charge de travail
Charges de travail sensibles à la latence
Les organisations doivent souvent faire des compromis entre fiabilité et coût lorsqu'elles choisissent les bons modèles de consommation. Bien que le débit provisionné offre la fiabilité la plus élevée, il peut entraîner une sous-utilisation si votre trafic connaît des pics. De même, le paiement à l'utilisation peut offrir une flexibilité maximale, mais ne peut pas garantir une qualité de service. La section suivante explique comment combiner au mieux ces mécanismes pour obtenir le résultat optimal :
- Couvrez le trafic de référence avec le débit provisionné. Cela améliore l'utilisation de votre capacité réservée, ce qui la rend économique tout en garantissant la fiabilité du cœur de votre trafic. Pour ce faire, procédez comme suit :
- Analysez vos tendances de trafic au niveau de la minute ou de la seconde.
- Déterminez la quantité de trafic à couvrir par le débit provisionné. Elle doit couvrir votre trafic le plus prioritaire.
- Gérer le trafic excédentaire avec le paiement à l'utilisation standard ou prioritaire : par défaut, le trafic qui dépasse votre débit provisionné de référence (appelé trafic excédentaire) est géré par le paiement à l'utilisation standard. Si vous constatez une variance plus élevée des performances pour les requêtes dépassant la limite de TPM, vous pouvez l'atténuer grâce à l'optimisation. Priority PayGo vous permet d'obtenir des performances fiables à un prix premium, sous réserve de la limite d'augmentation.
Charges de travail asynchrones à volume élevé
Si vous avez un grand nombre de requêtes en attente (par exemple, si vous avez des millions de documents à résumer) et que la latence immédiate n'est pas un problème, vous devez envoyer un job par lot en formulant les requêtes dans un fichier JSON ou une feuille de calcul. Cela est utile pour des cas d'utilisation tels que l'étiquetage d'images, le traitement de documents en masse ou l'analyse des sentiments sur des données historiques.
Cette option est la plus économique pour l'inférence à grand volume.
Charges de travail tolérantes à la latence et économiques
Si vous devez traiter des requêtes (comme l'annotation de données ou la création de catalogues) où l'application peut attendre une réponse, mais où la réduction des coûts est une priorité, vous devez utiliser Flex PayGo. Le paiement à l'utilisation flexible propose des prix par jeton réduits pour les requêtes qui ne nécessitent pas d'exécution immédiate. Cette option est utile pour des cas d'utilisation tels que l'analyse hors connexion, l'annotation de données, la création de catalogues de produits ou la traduction.
Stratégies d'optimisation
Une fois votre modèle de consommation sélectionné, utilisez les stratégies suivantes pour optimiser davantage la latence, la disponibilité et les coûts.
Latence
Pour optimiser la latence :
- Sélectionnez le modèle adapté à votre cas d'utilisation : Vertex AI propose une large gamme de modèles aux caractéristiques de performances et de capacités variées. Évaluez attentivement vos exigences en termes de vitesse et de qualité de sortie pour choisir le modèle qui correspond le mieux à votre cas d'utilisation. Pour obtenir la liste des modèles disponibles, consultez Model Garden.
- Réduisez la taille des requêtes : définissez des requêtes claires et concises qui transmettent efficacement votre intention sans détails inutiles ni redondances. Des requêtes plus courtes réduisent le délai avant l'obtention du premier jeton.
- Limiter les jetons de sortie :
- Utilisez des instructions système pour contrôler la longueur de la réponse. Demandez au modèle de fournir des réponses concises ou de limiter la sortie à un nombre spécifique de phrases ou de paragraphes. Cette stratégie peut réduire le délai avant l'obtention du dernier jeton.
- Limitez la sortie en définissant une limite. Utilisez le paramètre
max_output_tokenspour définir une limite maximale à la longueur de la réponse générée, ce qui permet d'éviter les sorties trop longues. La latence est directement proportionnelle au nombre de jetons générés. La génération d'un nombre réduit de jetons permet d'obtenir des réponses plus rapides. Toutefois, soyez prudent, car cela peut couper les réponses en plein milieu d'une phrase.
- Utiliser le débit provisionné : pour obtenir les performances les plus cohérentes, utilisez le débit provisionné. Cela élimine la variabilité causée par les "démarrages à froid" ou la mise en file d'attente qui peuvent parfois se produire dans les modèles PayGo en cas de trafic élevé.
- Limitez le budget de réflexion : si vous utilisez un modèle compatible avec la réflexion, vous pouvez réduire la latence en diminuant le budget de réflexion. En limitant le nombre de jetons de raisonnement interne que le modèle génère avant de répondre, vous réduisez le temps de traitement global. Toutefois, vous devez vous assurer que le budget reste suffisant pour la complexité de la tâche afin d'éviter de dégrader la qualité des réponses.
Disponibilité
Pour optimiser la disponibilité :
- Implémentez une logique de nouvelle tentative : implémentez un intervalle exponentiel entre les tentatives pour les erreurs 429, en particulier lorsque vous utilisez le paiement à l'utilisation standard.
- Utilisez une implémentation hybride : comme indiqué dans les sections précédentes, ne vous fiez pas uniquement au paiement à l'utilisation pour les applications de production critiques. La combinaison du débit provisionné et du paiement à l'usage offre la meilleure garantie contre l'épuisement des ressources (erreurs 429).
- Gérez votre quota de débit provisionné : surveillez régulièrement votre consommation de TPM et augmentez les UGS de débit provisionné avant les événements de trafic prévus (comme les lancements de produits). Vous pouvez utiliser une règle d'alerte pour automatiser la surveillance.
- Utilisez le point de terminaison mondial : utilisez le point de terminaison mondial pour exploiter le pool de capacité mondial de Google et minimiser la limitation du débit en raison de contraintes de capacité régionales.
- Lissez votre trafic pour réduire les pics dans la mesure du possible : un taux de trafic à la carte (TPM) plus élevé a tendance à être associé à des taux de limitation plus élevés.
- Déplacez le trafic vers les heures creuses : l'utilisation globale des modèles suit généralement un schéma diurne. Décaler votre charge de travail aux heures creuses ou aux week-ends peut améliorer considérablement la disponibilité.
Coût
Pour optimiser les coûts :
- Utilisez le dimensionnement approprié pour le débit provisionné : en général, vous n'avez pas besoin de provisionner le débit provisionné au maximum, ce qui réduit l'utilisation globale du débit provisionné et augmente les coûts totaux. Visez un certain centile du trafic en fonction de votre tolérance au risque, et laissez les niveaux Standard Paygo et Priorité Paygo s'occuper du reste.
- Achetez du débit provisionné sur une période plus longue : le DP sur un an est proposé avec une remise de 26 % par rapport au DP sur un mois, ce qui permet de réaliser des économies importantes. Vous pouvez toujours transférer les GSU de débit provisionné achetées entre différents modèles pour profiter des dernières fonctionnalités de nos modèles.
- Utilisez Flex PayGo : identifiez les parties de votre pipeline qui ne sont pas sensibles à la latence (par exemple, la synthèse en arrière-plan ou l'extraction de données) et déplacez-les vers Flex pour réduire les coûts d'environ 50 %.
- Utilisez le traitement par lot : pour les tâches asynchrones telles que le traitement de grands ensembles de données, le traitement par lot est beaucoup moins cher (50 %) que le traitement séquentiel des requêtes avec le paiement à l'utilisation standard.
- Utiliser la mise en cache du contexte : la mise en cache du contexte permet de réduire le coût et la latence des requêtes contenant du contenu répété. Augmentez le taux de réussite du cache en plaçant les contenus volumineux et courants au début de votre requête, et en envoyant des requêtes avec un préfixe similaire en peu de temps.
- Sélectionnez un modèle moins cher : si votre cas d'utilisation le permet, utilisez l'un de nos modèles plus petits, comme Flash-Lite, qui a un prix par jeton inférieur à celui de nos modèles robustes et complets.