Inférence par lot avec Gemini

Bénéficiez d'une inférence asynchrone, à haut débit et économique pour vos besoins de traitement de données à grande échelle grâce à l'inférence par lot de Gemini (anciennement appelée "prédiction par lot"). Ce guide vous expliquera la valeur de l'inférence par lot, son fonctionnement, ses limites et les bonnes pratiques pour obtenir des résultats optimaux.

Pourquoi utiliser l'inférence par lot ?

Dans de nombreux scénarios concrets, vous n'avez pas besoin d'une réponse immédiate de la part d'un modèle de langage. Vous pouvez également disposer d'un grand ensemble de données d'invites que vous devez traiter de manière efficace et abordable. C'est là que l'inférence par lot est utile.

Voici quelques-uns des principaux avantages :

Rentabilité : le traitement par lot est proposé à un tarif réduit de 50 % par rapport à l'inférence en temps réel. Il est donc idéal pour les tâches à grande échelle et non urgentes. La mise en cache implicite est activée par défaut pour Gemini 2.5 Pro, Gemini 2.5 Flash et Gemini 2.5 Flash-Lite. La mise en cache implicite offre une remise de 90 % sur les jetons mis en cache par rapport aux jetons d'entrée standards. Toutefois, les remises pour le cache et les lots ne sont pas cumulables. La remise de 90 % succès de cache (hit) prévaut sur la remise pour les lots.
Limites de débit élevées : traitez des centaines de milliers de requêtes dans un seul lot avec une limite de débit plus élevée que celle de l'API Gemini en temps réel.
Workflow simplifié : au lieu de gérer un pipeline complexe de requêtes individuelles en temps réel, vous pouvez envoyer un seul job par lot et récupérer les résultats une fois le traitement terminé. Le service gère la validation du format, parallélise les requêtes pour le traitement simultané et effectue automatiquement des nouvelles tentatives pour s'efforcer d'obtenir un taux d'achèvement élevé avec un délai de traitement de 24 heures.

L'inférence par lot est optimisée pour les tâches de traitement à grande échelle, comme :

Génération de contenu : générez des descriptions de produits, des posts sur les réseaux sociaux ou d'autres textes créatifs de manière groupée.
Annotation et classification des données : classez les avis des utilisateurs, catégorisez les documents ou effectuez une analyse des sentiments sur un grand corpus de texte.
Analyse hors connexion : résumez des articles, extrayez des informations clés de rapports ou traduisez des documents à grande échelle.

Modèles Gemini compatibles avec l'inférence par lots

Les modèles Gemini de base et réglés suivants sont compatibles avec l'inférence par lots :

Compatibilité avec les modèles de points de terminaison globaux

L'inférence par lot est compatible avec le point de terminaison global pour les modèles Gemini de base. Il n'est pas compatible avec le point de terminaison mondial pour les modèles Gemini réglés.

Le point de terminaison global permet d'améliorer la disponibilité globale en traitant vos requêtes depuis n'importe quelle région compatible avec le modèle que vous utilisez. Notez qu'il n'est pas compatible avec les exigences en matière de résidence des données. Si vous avez des exigences de résidence des données, utilisez les points de terminaison régionaux.

Quotas et limites

Bien que l'inférence par lot soit puissante, il est important de connaître les limites suivantes.

Quota : il n'existe aucune limite de quota prédéfinie pour votre utilisation. Au lieu de cela, le service par lot donne accès à un grand pool de ressources partagées, allouées de manière dynamique en fonction de la disponibilité des ressources et de la demande en temps réel de tous les clients de ce modèle. Lorsque davantage de clients sont actifs et que notre capacité est saturée, vos requêtes par lot peuvent être mises en file d'attente.
Temps d'attente : lorsque notre service connaît un trafic élevé, votre job par lot est mis en file d'attente en fonction de la capacité. La tâche restera dans la file d'attente pendant 72 heures maximum avant d'expirer.
Limites de requêtes : un seul job par lot peut inclure jusqu'à 200 000 requêtes. Si vous utilisez Cloud Storage comme entrée, la taille des fichiers est également limitée à 1 Go.
Délai de traitement : les jobs par lot sont traités de manière asynchrone et ne sont pas conçus pour les applications en temps réel. La plupart des jobs se terminent dans les 24 heures suivant leur exécution (sans compter le temps d'attente dans la file d'attente). Au bout de 24 heures, les tâches incomplètes seront annulées et vous ne serez facturé que pour les demandes effectuées.
Fonctionnalités non compatibles : l'inférence par lot n'est pas compatible avec la mise en cache explicite ni avec RAG. La mise en cache implicite de l'inférence par lots n'est pas compatible avec Gemini 2.0 Flash ni Gemini 2.0 Flash-Lite.

Bonnes pratiques

Pour tirer le meilleur parti de l'inférence par lot avec Gemini, nous vous recommandons de suivre les bonnes pratiques suivantes :

Combiner les jobs : pour maximiser le débit, combinez les petits jobs en un seul grand job, dans les limites du système. Par exemple, l'envoi d'un job par lot avec 200 000 requêtes vous donnera un meilleur débit que 1 000 jobs avec 200 requêtes chacun.
Surveiller l'état du job : vous pouvez surveiller la progression du job à l'aide de l'API, du SDK ou de l'UI. Pour en savoir plus, consultez Surveiller l'état du job. Si une tâche échoue, consultez les messages d'erreur pour diagnostiquer et résoudre le problème.
Optimiser les coûts : profitez des économies offertes par le traitement par lot pour toutes les tâches qui ne nécessitent pas de réponse immédiate.

Étapes suivantes

Créer un job par lot avec Cloud Storage
Créer un job par lot avec BigQuery
Découvrez comment régler un modèle Gemini dans Présentation du réglage du modèle pour Gemini.
En savoir plus sur l'API de prédiction par lots