Par défaut, Cloud Run est optimisé pour offrir des performances élevées avec une cible d'utilisation de 60% pour le processeur et la simultanéité, et adapte automatiquement le nombre d'instances pour gérer toutes les requêtes entrantes. Toutefois, dans certains cas d'utilisation, vous pouvez configurer les facteurs de scaling à utiliser, tels que le processeur uniquement, et définir des cibles d'utilisation personnalisées.
Cloud Run fournit des contrôles de scaling pour vous donner plus de contrôle sur les comportements de scaling de votre service, ce qui vous permet de prendre des décisions éclairées concernant le scaling de votre charge de travail en fonction de vos besoins. Vous pouvez activer un comportement de scaling amélioré en conservant les cibles d'utilisation par défaut ou en configurant les cibles d'utilisation personnalisées suivantes :
- Cible d'utilisation pour le scaling basé sur le processeur
- Cible d'utilisation pour le scaling basé sur la simultanéité
Les contrôles de scaling vous permettent d'optimiser les coûts et d'améliorer la prévisibilité de vos services. Pour en savoir plus sur le comportement d'autoscaling par défaut des services Cloud Run, consultez la page À propos de l'autoscaling des instances dans les services Cloud Run.
Limites relatives aux configurations
Les limites suivantes s'appliquent aux cibles de scaling personnalisées :
| Facteur de scaling | % par défaut | % configurable minimal | % configurable maximal |
|---|---|---|---|
CPU target utilization |
60% | 10% | 95% |
Concurrency target utilization |
60% | 10% | 95% |
Activer un comportement de scaling amélioré
L'autoscaler de Cloud Run répond de manière précise aux cibles que vous configurez, même pour les services avec un faible nombre d'instances. Envisagez d'activer cette fonctionnalité pour améliorer la prévisibilité du scaling, même si vous prévoyez de conserver les cibles d'utilisation par défaut de 60% pour le processeur et la simultanéité.
Pour activer cette fonctionnalité, vous pouvez utiliser la gcloud CLI ou YAML lorsque vous déployez une nouvelle révision.
Tout changement de configuration entraîne la création d'une révision. Les révisions ultérieures obtiennent aussi automatiquement le même paramètre de configuration, à moins que vous ne le mettiez explicitement à jour.
gcloud
Définissez les valeurs cibles d'utilisation du processeur et cibles d'utilisation de la simultanéité d'une révision donnée en
exécutant la commande gcloud beta run services update suivante :
gcloud beta run services update SERVICE --scaling-cpu-target=0.6 \ --scaling-concurrency-target=0.6
Remplacez SERVICE par le nom du service.
YAML
Si vous créez un service, ignorez cette étape. Si vous mettez à jour un service existant, téléchargez sa configuration YAML :
gcloud run services describe SERVICE --format export > service.yaml
Ajoutez les attributs
run.googleapis.com/scaling-cpu-targetetrun.googleapis.com/scaling-concurrency-target.apiVersion: serving.knative.dev/v1 kind: Service metadata: annotations: run.googleapis.com/launch-stage: BETA name: SERVICE spec: template: metadata: annotations: run.googleapis.com/scaling-cpu-target: '0.6' run.googleapis.com/scaling-concurrency-target: '0.6'
Remplacez SERVICE par le nom du service.
Créez ou mettez à jour le service à l'aide de la commande suivante :
gcloud run services replace service.yaml
Configurer des cibles personnalisées
Définissez des cibles d'utilisation personnalisées pour optimiser les coûts ou améliorer les performances de vos charges de travail en configurant des cibles d'utilisation spécifiques du processeur et de la simultanéité dans les limites de configuration.
Tout changement de configuration entraîne la création d'une révision. Les révisions ultérieures obtiennent aussi automatiquement le même paramètre de configuration, à moins que vous ne le mettiez explicitement à jour.
Vous pouvez configurer des contrôles de scaling à l'aide de la gcloud CLI ou de YAML lorsque vous déployez une nouvelle révision.
gcloud
Mettez à jour les valeurs cibles d'utilisation du processeur et cibles de la simultanéité d'une révision donnée en
exécutant la commande gcloud beta run services update.
Pour mettre à jour la cible d'utilisation du processeur, exécutez la commande suivante :
gcloud beta run services update SERVICE --scaling-cpu-target=CPU_TARGET
Remplacez les éléments suivants :
SERVICE : nom de votre service.
CPU_TARGET : cible d'utilisation du processeur. Définissez une valeur comprise entre 0,1 et 0,95. Vous ne pouvez configurer que deux chiffres au maximum après la virgule.
Pour mettre à jour la cible d'utilisation de la simultanéité, exécutez la commande suivante :
gcloud beta run services update SERVICE --scaling-concurrency-target=CONCURRENCY_TARGET
Remplacez les éléments suivants :
SERVICE : nom de votre service.
CONCURRENCY_TARGET : cible d'utilisation de la simultanéité. Définissez une valeur comprise entre 0,1 et 0,95. Vous ne pouvez configurer que deux chiffres au maximum après la virgule.
Pour mettre à jour la cible d'utilisation du processeur et de la simultanéité, exécutez la commande suivante :
gcloud beta run services update SERVICE --scaling-cpu-target=CPU_TARGET \ --scaling-concurrency-target=CONCURRENCY_TARGET
Remplacez les éléments suivants :
- SERVICE : nom de votre service.
- CPU_TARGET : cible d'utilisation du processeur. Définissez une valeur comprise entre 0,1 et 0,95. Vous ne pouvez configurer que deux chiffres au maximum après la virgule.
- CONCURRENCY_TARGET : cible d'utilisation de la simultanéité. Définissez une valeur comprise entre 0,1 et 0,95. Vous ne pouvez configurer que deux chiffres au maximum après la virgule.
YAML
Si vous créez un service, ignorez cette étape. Si vous mettez à jour un service existant, téléchargez sa configuration YAML :
gcloud run services describe SERVICE --format export > service.yaml
Pour mettre à jour la cible d'utilisation du processeur et de la simultanéité, ajoutez les attributs
run.googleapis.com/scaling-cpu-targetetrun.googleapis.com/scaling-concurrency-target:apiVersion: serving.knative.dev/v1 kind: Service metadata: annotations: run.googleapis.com/launch-stage: BETA name: SERVICE spec: template: metadata: annotations: run.googleapis.com/scaling-cpu-target: 'CPU_TARGET' run.googleapis.com/scaling-concurrency-target: 'CONCURRENCY_TARGET'
Remplacez les éléments suivants :
- SERVICE : nom de votre service.
- CPU_TARGET : cible d'utilisation du processeur. Définissez une valeur comprise entre 0,1 et 0,95. Vous ne pouvez configurer que deux chiffres au maximum après la virgule.
- CONCURRENCY_TARGET : cible d'utilisation de la simultanéité. Définissez une valeur comprise entre 0,1 et 0,95. Vous ne pouvez configurer que deux chiffres au maximum après la virgule.
Créez ou mettez à jour le service à l'aide de la commande suivante :
gcloud run services replace service.yaml
Désactiver les contrôles de scaling
Vous pouvez désactiver les cibles d'utilisation du processeur ou de la simultanéité, mais pas les deux. Un facteur de scaling doit toujours être actif. Pour désactiver les contrôles de scaling, restaurez les valeurs d'utilisation par défaut au lieu de les désactiver. Lorsque vous désactivez un facteur de scaling, Cloud Run ignore cette métrique lors de la prise de décisions de scaling.
Vous pouvez désactiver les contrôles de scaling à l'aide de la gcloud CLI ou de YAML lorsque vous déployez une nouvelle révision.
gcloud
Vous pouvez désactiver la cible d'utilisation du processeur ou la cible d'utilisation de la simultanéité en exécutant la commande .gcloud beta run services update
Pour effectuer un scaling uniquement par processeur, désactivez la cible de simultanéité en exécutant la commande suivante :
gcloud beta run services update SERVICE --scaling-concurrency-target=disabled
Remplacez SERVICE par le nom du service.
Pour effectuer un scaling uniquement par simultanéité, désactivez la cible du processeur en exécutant la commande suivante :
gcloud beta run services update SERVICE --scaling-cpu-target=disabled
Remplacez SERVICE par le nom du service.
YAML
Si vous créez un service, ignorez cette étape. Si vous mettez à jour un service existant, téléchargez sa configuration YAML :
gcloud run services describe SERVICE --format export > service.yaml
Pour effectuer un scaling uniquement par processeur, désactivez la cible de simultanéité en définissant l'attribut
run.googleapis.com/scaling-concurrency-targetsurdisabled:apiVersion: serving.knative.dev/v1 kind: Service metadata: annotations: run.googleapis.com/launch-stage: BETA name: SERVICE spec: template: metadata: annotations: run.googleapis.com/scaling-concurrency-target: disabled
Remplacez SERVICE par le nom du service.
Pour effectuer un scaling uniquement par simultanéité, désactivez la cible du processeur en définissant l'attribut
run.googleapis.com/scaling-cpu-targetsurdisabled:apiVersion: serving.knative.dev/v1 kind: Service metadata: annotations: run.googleapis.com/launch-stage: BETA name: SERVICE spec: template: metadata: annotations: run.googleapis.com/scaling-cpu-target: disabled
Remplacez SERVICE par le nom du service.
Créez ou mettez à jour le service à l'aide de la commande suivante :
gcloud run services replace service.yaml
Rétablir les valeurs par défaut
Lorsque vous rétablissez les valeurs par défaut de la cible d'utilisation du processeur ou de la simultanéité, vous désactivez la fonctionnalité de contrôles de scaling. Vous pouvez rétablir les contrôles de scaling par défaut à l'aide de la gcloud CLI ou de YAML lorsque vous déployez une nouvelle révision.
gcloud
Rétablissez les valeurs par défaut de la cible d'utilisation du processeur et de la cible de simultanéité en
exécutant la commande gcloud beta run services update.
Pour rétablir la valeur par défaut de la cible d'utilisation du processeur, exécutez la commande suivante :
gcloud beta run services update SERVICE --scaling-cpu-target=default
Remplacez SERVICE par le nom du service.
Pour rétablir la valeur par défaut de la cible d'utilisation de la simultanéité, exécutez la commande suivante :
gcloud beta run services update SERVICE --scaling-concurrency-target=default
Remplacez SERVICE par le nom du service.
Pour rétablir les valeurs par défaut de la cible d'utilisation du processeur et de la simultanéité, exécutez la commande suivante :
gcloud beta run services update SERVICE --scaling-cpu-target=default \ --scaling-concurrency-target=default
Remplacez SERVICE par le nom du service.
YAML
Si vous créez un service, ignorez cette étape. Si vous mettez à jour un service existant, téléchargez sa configuration YAML :
gcloud run services describe SERVICE --format export > service.yaml
Pour rétablir les cibles par défaut d'utilisation du processeur et de la simultanéité, supprimez les attributs
run.googleapis.com/scaling-cpu-targetetrun.googleapis.com/scaling-concurrency-targetde votre fichier YAML :apiVersion: serving.knative.dev/v1 kind: Service metadata: annotations: run.googleapis.com/launch-stage: BETA name: SERVICE spec: template: metadata: # Remove the scaling target annotations to restore defaults ...
Remplacez SERVICE par le nom du service.
Créez ou mettez à jour le service à l'aide de la commande suivante :
gcloud run services replace service.yaml
Afficher la configuration du scaling
Vous pouvez afficher votre configuration de scaling à l'aide de la gcloud CLI ou de YAML.
Console
Dans la Google Cloud console, accédez à la page Services de Cloud Run :
Cliquez sur votre service pour ouvrir le panneau Informations sur le service.
Cliquez sur l'onglet Révisions.
Dans le panneau de détails sur la droite, affichez le paramètre Métriques d'autoscaling répertorié sous l'onglet Conteneurs.
gcloud
Exécutez la commande suivante :
gcloud run services describe SERVICE
Remplacez SERVICE par le nom du service.
Recherchez les valeurs des paramètres Target CPU utilization (Cible d'utilisation du processeur) et Target concurrency utilization (Cible d'utilisation de la simultanéité) dans la configuration renvoyée.
Bonnes pratiques
Vous pouvez optimiser les coûts et éviter le surdimensionnement en réduisant le nombre d'instances, ou améliorer les performances en effectuant un scaling plus agressif en réponse à des facteurs spécifiques. Pour déterminer les cibles d'utilisation optimales pour votre charge de travail, utilisez les stratégies suivantes :
Avant d'ajuster les cibles, identifiez la métrique qui déclenche le scaling de votre service. Pour identifier la métrique de scaling, procédez comme suit :
Accédez à l'explorateur de métriques dans la Google Cloud console pour examiner le graphique de surveillance de l'utilisation du processeur et de la simultanéité.
Recherchez et sélectionnez la métrique
run.googleapis.com/scaling/recommended_instances, puis définissez Aggregation (Agrégation) sur Unaggregated (Non agrégé) pour afficher la métrique regroupée par facteur de scaling.
Le facteur avec la valeur la plus élevée est celui qui contrôle le nombre d'instances de votre service. Si vous souhaitez qu'un autre facteur soit prioritaire ou si vous souhaitez effectuer un scaling plus ou moins agressif, ajustez la cible d'utilisation de ce facteur spécifique.
Ajustez les cibles de manière incrémentielle et attendez quelques minutes entre les ajustements pour observer l'effet sur les performances.
Utilisez la répartition du trafic pour tester de nouvelles cibles de scaling en redirigeant un petit pourcentage de votre trafic vers une révision distincte avant de les déployer sur l'ensemble de votre service.
À propos des cibles d'utilisation faibles
La réduction de votre cible d'utilisation au minimum de 0,1 (10%) modifie considérablement le scaling de votre service.
La définition d'une cible d'utilisation faible présente les avantages suivants :
Haute disponibilité du service : votre service effectue un scaling beaucoup plus tôt, en conservant une grande mémoire tampon de capacité inactive pour gérer les pics de trafic soudains sans impact sur la latence.
Scaling plus rapide avec un faible nombre d'instances : les services effectuent un scaling plus fiable avant d'atteindre des goulots d'étranglement à forte utilisation.
La définition de cibles d'utilisation faibles présente les inconvénients suivants :
- Augmentation potentielle des coûts : vous exécutez plus d'instances que ce qui est strictement nécessaire pour votre charge actuelle, ce qui entraîne une facturation plus élevée.
- Décisions de scaling plus fréquentes : avec des utilisations plus faibles, Cloud Run a une tolérance plus faible et n'attend pas aussi longtemps avant d'effectuer un scaling.
Étape suivante
- Pour en savoir plus sur les autres options de scaling, consultez la page Scaling manuel.
- Pour gérer le nombre maximal d'instances de vos services Cloud Run, consultez la page Définir un nombre maximal d'instances.
- Pour gérer le nombre maximal de requêtes simultanées traitées par chaque instance, consultez la page Définir la simultanéité.
- Pour optimiser le paramètre de simultanéité, reportez-vous à la page Conseils de développement pour le réglage de la simultanéité.
- Pour spécifier qu'une instance inactive doit rester en cours d'exécution afin de minimiser la latence ou le démarrage à froid lors des premières requêtes, consultez la page concernant l'utilisation de
min-instancepour activer les instances inactives.