Best Practices für Skalierung und hohes Trafficvolumen

Wenn Sie Ihre KI-Anwendungen skalieren und hohes Traffic-Aufkommen haben, ist es wichtig, dass Sie sie auf Ausfallsicherheit und Leistung auslegen. In diesem Abschnitt werden Best Practices für die effektive Verwendung von Model Armor in anspruchsvollen Umgebungen beschrieben.

Kontingente und Systemlimits

Model Armor umfasst Kontingente und Systemlimits, um eine faire Nutzung und Systemstabilität zu gewährleisten.

  • Kontingenterhöhungen anfordern: Wenn Sie mit mehr Traffic rechnen, wenden Sie sich an Cloud Customer Care, um eine Kontingentanpassung für die Model Armor API anzufordern.
  • Systemlimits verstehen: Entwickeln Sie Ihre Anwendung so, dass sie diese Limits problemlos verarbeiten kann. Teilen Sie dazu bei Bedarf größere Eingaben in kleinere Einheiten auf. Die genauen Werte finden Sie unter Kontingente und Systemlimits.

Für hohes Traffic-Aufkommen und Ausfallsicherheit konzipieren

  • Clientseitige Wiederholungsversuche mit exponentiellem Backoff: Implementieren Sie eine robuste Fehlerbehandlung in Ihren Clients. Verwenden Sie für Fehler, die Sie wiederholen können, z. B. Ratenbegrenzungen oder Serverfehler, eine Strategie für exponentiellen Backoff. So wird verhindert, dass der Dienst bei vorübergehenden Problemen überlastet wird. Weitere Informationen finden Sie unter Wiederholungsstrategie.
  • Caching-Strategien: Cachen Sie Model Armor-Antworten für identische Prompts, insbesondere für häufige oder weniger sensible Interaktionen. Achten Sie beim Caching auf die Aktualität der Daten und die Sicherheitsrisiken.
  • Asynchrone Verarbeitung: Bei nicht interaktiven Arbeitslasten sollten Sie Anfragen asynchron verarbeiten. Anfragen in die Warteschlange stellen und mit einer Rate verarbeiten, die die API-Limits berücksichtigt und Traffic-Spitzen ausgleicht.
  • Stufenweiser Abbau: Entwickeln Sie Ihre Anwendung so, dass sie mit einer potenziellen Nichtverfügbarkeit oder mit Fehlern von Model Armor umgehen kann. Erwägen Sie, einen Fallback-Mechanismus zu implementieren oder bestimmte Prüfungen vorübergehend zu umgehen, während Sie den Fehler protokollieren.

Leistung optimieren

  • Nutzlastgröße minimieren: Senden Sie nur die erforderlichen Daten zur Analyse an Model Armor. Vermeiden Sie unnötig große Prompts oder Dateien.
  • Vorlagenkonfiguration optimieren: Konfigurieren Sie Ihre Model Armor-Vorlagen so, dass sie nur die für Ihren Anwendungsfall erforderlichen Filter und Einstellungen enthalten. Das Aktivieren unnötiger Detektoren kann die Latenz erhöhen.
  • Anwendung, Daten und Anfragen in derselben Region speichern: Stellen Sie Ihre Anwendung bereit und verwenden Sie Model Armor-Endpunkte in derselben Region, um die Netzwerklatenz zu minimieren. Weitere Informationen finden Sie unter Model Armor-Standorte.

Monitoring und Benachrichtigungen

  • Benachrichtigungen einrichten: Konfigurieren Sie Benachrichtigungen in Cloud Monitoring, um benachrichtigt zu werden, wenn Sie sich Kontingentlimits nähern oder hohe Fehlerraten bei der Model Armor API auftreten.
  • Logs analysieren: Mit Cloud Logging können Sie Nutzungsmuster, Fehler und Leistungsmesswerte von Model Armor analysieren. Durch die Analyse von Logs lassen sich Engpässe oder Bereiche mit Optimierungspotenzial ermitteln. Weitere Informationen finden Sie unter Logs filtern.