Bonnes pratiques avec les grands modèles de langage (LLM)

Requêtes multimodales

Pour en savoir plus sur les bonnes pratiques concernant les requêtes multimodales, consultez les pages suivantes en fonction de la modalité que vous utilisez :

Latence réduite

Lorsque vous créez des applications interactives, le temps de réponse, également appelé latence, joue un rôle crucial dans l'expérience utilisateur. Cette section explore le concept de latence dans le contexte des API LLM Vertex AI et fournit des stratégies pratiques pour la minimiser et améliorer le temps de réponse de vos applications optimisées par l'IA.

Comprendre les métriques de latence pour les LLM

La latence fait référence au temps nécessaire à un modèle pour traiter votre requête d'entrée et générer une réponse de sortie correspondante.

Lorsque vous examinez la latence avec un modèle, tenez compte des points suivants :

Le délai avant le premier jeton (TTFT) correspond au temps nécessaire au modèle pour produire le premier jeton de la réponse après avoir reçu la requête. Le TTFT est particulièrement pertinent pour les applications utilisant le streaming, où il est essentiel de fournir un retour d'information immédiat.

La valeur TTL (Time to Last token) mesure le temps global nécessaire au modèle pour traiter la requête et générer la réponse.

Stratégies pour réduire la latence

Vertex AI vous permet d'utiliser plusieurs stratégies pour réduire la latence et améliorer la réactivité de vos applications :

Choisir le modèle adapté à votre cas d'utilisation

Vertex AI propose une large gamme de modèles aux capacités et aux caractéristiques de performances variées. Évaluez attentivement vos exigences en termes de vitesse et de qualité de sortie pour choisir le modèle qui correspond le mieux à votre cas d'utilisation. Pour obtenir la liste des modèles disponibles, consultez Explorer tous les modèles.

Optimiser la longueur des requêtes et des sorties

Le nombre de jetons dans la requête d'entrée et la sortie attendue a un impact direct sur le temps de traitement. Minimisez le nombre de jetons pour réduire la latence.

  • Définissez des requêtes claires et concises qui transmettent efficacement votre intent sans détails inutiles ni redondances. Des requêtes plus courtes réduisent le délai avant l'obtention du premier jeton.

  • Utilisez des instructions système pour contrôler la longueur de la réponse. Demandez au modèle de fournir des réponses concises ou de limiter le résultat à un nombre spécifique de phrases ou de paragraphes. Cette stratégie peut réduire le délai avant l'obtention du dernier jeton.

  • Ajustez le temperature. Testez le paramètre temperature pour contrôler l'aléatoire du résultat. Des valeurs temperature inférieures peuvent entraîner des réponses plus courtes et plus ciblées, tandis que des valeurs plus élevées peuvent générer des résultats plus diversifiés, mais potentiellement plus longs. Pour en savoir plus, consultez temperature dans la documentation de référence sur les paramètres du modèle.

  • Limitez la sortie en définissant une limite. Utilisez le paramètre max_output_tokens pour définir une limite maximale à la longueur de la réponse générée, ce qui évite d'obtenir des résultats trop longs. Toutefois, soyez prudent, car cela peut couper les réponses en plein milieu d'une phrase.

Diffuser un flux de réponses

Avec le streaming, le modèle commence à envoyer sa réponse avant de générer la sortie complète. Ainsi, les résultats sont traités en temps réel. Vous pouvez ainsi mettre à jour votre interface utilisateur immédiatement et effectuer d'autres tâches simultanées.

Le streaming améliore la réactivité perçue et crée une expérience utilisateur plus interactive.

Étape suivante