Nutzungsoptionen

Die Gemini Enterprise Agent Platform bietet mehrere Optionen zum Abrufen und Verwenden von Rechenressourcen bei der Verwendung generativer Modelle. Diese Verbrauchsoptionen sind für alle Arbeitslasten geeignet, vom ersten Prototyping bis hin zu Produktionsbereitstellungen. Die Auswahl der richtigen Option ist entscheidend, um Leistung, Zuverlässigkeit und Kosten in Einklang zu bringen.

In diesem Leitfaden werden die verfügbaren Verbrauchsoptionen beschrieben. Außerdem wird erläutert, wie Sie sie Ihren spezifischen Anforderungen an die Arbeitslast zuordnen können, und es werden Strategien zur Optimierung von Latenz, Verfügbarkeit und Kosten vorgestellt.

Nutzungsoptionen

Die Gemini Enterprise Agent Platform bietet fünf Nutzungsoptionen, die auf unterschiedliche Traffic-Muster und Geschäftsanforderungen zugeschnitten sind:

Nutzungsoption Beschreibung Ideal für Preise
Bereitgestellter Durchsatz Bietet garantierten Durchsatz für eine Mindestlaufzeit Kritische, stabile, Always-on-Arbeitslasten, für die ein SLA erforderlich ist Zusicherungsbasiert (verfügbar für 1‑Wochen-, 1‑Monats-, 3‑Monats- und 1‑Jahres-Abos)
PayGo Standard Flexible Pay-per-use-Option ohne Vorabverpflichtung Standardoption für alltägliche Anwendungsfälle mit Flexibilität für variablen Traffic Pro Token (Standardrate)
Priorität Höhere Zuverlässigkeit durch Prioritätsverarbeitung bei gleichzeitiger Pay-as-you-go-Flexibilität Wichtige Arbeitslasten, die eine höhere Zuverlässigkeit und höhere Limits als das Standardmodell „Pay-as-you-go“ erfordern Pro Token (Premium-Tarif)
Flex Kostengünstige Option für latenztolerante Arbeitslasten Aufgaben, bei denen langsamere Reaktionszeiten und höheres Throttling in Kauf genommen werden können, um den Preis zu senken Pro Token (rabattierter Preis)
Batch-Inferenz Kostenoptimiert für die asynchrone Verarbeitung großer Mengen Große Aufträge, bei denen Ergebnisse innerhalb eines längeren Zeitrahmens benötigt werden Pro Token (rabattierter Preis)

Informationen zu den Preisen finden Sie auf der Preisseite.

Die richtige Option für Ihre Arbeitslast auswählen

In den folgenden Abschnitten finden Sie Informationen zur Auswahl der am besten geeigneten Verbrauchsoption basierend auf den spezifischen Anforderungen und Merkmalen Ihrer Arbeitslast.

Latenzempfindliche Arbeitslasten

Unternehmen müssen bei der Auswahl der richtigen Verbrauchsmodelle oft Kompromisse zwischen Zuverlässigkeit und Kosten eingehen. Bereitgestellter Durchsatz bietet zwar die höchste Zuverlässigkeit, kann aber zu einer Unterauslastung führen, wenn Ihr Traffic Spitzen aufweist. Ebenso bietet PayGo möglicherweise die maximale Flexibilität, kann aber keine Dienstqualität garantieren. Im folgenden Abschnitt wird beschrieben, wie Sie diese Mechanismen am besten kombinieren, um das optimale Ergebnis zu erzielen:

  1. Baseline-Traffic mit bereitgestelltem Durchsatz abdecken: So wird die Nutzung Ihrer reservierten Kapazität verbessert, was wirtschaftlich ist und gleichzeitig eine garantierte Zuverlässigkeit für den Großteil Ihres Traffics bietet. Gehen Sie dazu so vor:
    • Traffic-Muster auf Minuten- oder Sekundenebene analysieren
    • Bestimmen Sie die Menge des Traffics, die vom bereitgestellten Durchsatz abgedeckt werden soll. Sie sollte Ihren Traffic mit der höchsten Priorität abdecken.
  2. Spillover-Traffic mit Standard- oder Priority-PayGo verwalten: Standardmäßig wird Traffic, der Ihren bereitgestellten Durchsatz überschreitet (Spillover-Traffic), mit Standard-PayGo verarbeitet. Wenn Sie bei Anfragen über dem TPM-Limit eine höhere Varianz bei der Leistung feststellen, können Sie diese durch Optimierung verringern. Mit Priority PayGo können Sie zuverlässige Leistung zu einem Premium-Preis erzielen. Dabei gilt das Ramp-up-Limit.

Asynchrone Arbeitslasten mit hohem Volumen

Wenn Sie eine große Anzahl von Anfragen haben (z. B. wenn Sie Millionen von Dokumenten zusammenfassen müssen) und die sofortige Latenz kein Problem darstellt, sollten Sie einen Batch-Job einreichen, indem Sie Anfragen in einer JSON-Datei oder Tabelle formulieren. Das ist nützlich für Anwendungsfälle wie die Bildkennzeichnung, die Verarbeitung von Massendokumenten oder die Sentimentanalyse von Verlaufsdaten.

Dies ist die kostengünstigste Option für die Inferenz mit hohem Volumen.

Latenztolerante, kostensensible Arbeitslasten

Wenn Sie Anfragen verarbeiten müssen, bei denen die Anwendung auf eine Antwort warten kann, die Kostensenkung aber Priorität hat, sollten Sie Flex PayGo verwenden. Mit Flex PayGo erhalten Sie einen niedrigeren Preis pro Token für Anfragen, die nicht sofort ausgeführt werden müssen. Diese Option ist für Anwendungsfälle wie Offline-Analysen, Datenannotationen, das Erstellen von Produktkatalogen oder Übersetzungen nützlich.

Optimierungsstrategien

Nachdem Sie Ihr Nutzungsmodell ausgewählt haben, können Sie mit den folgenden Strategien die Latenz, Verfügbarkeit und Kosten weiter optimieren.

Latenz

Beim Erstellen interaktiver Anwendungen spielt die Latenz eine entscheidende Rolle für die Nutzerfreundlichkeit. Latenz bezieht sich auf die Zeit, die ein Modell benötigt, um Ihren Eingabe-Prompt zu verarbeiten und eine entsprechende Ausgabeantwort zu generieren. Beachten Sie beim Untersuchen der Latenz eines Modells Folgendes:

  • Zeit bis zum ersten Token (Time to First Token, TTFT): Die Zeit, die das Modell benötigt, um das erste Token der Antwort zu generieren, nachdem es den Prompt erhalten hat. TTFT ist besonders wichtig für Streaminganwendungen, bei denen sofortiges Feedback entscheidend ist.
  • Zeit bis zum letzten Token (Time to Last Token, TTLT): Die Gesamtzeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren.

So optimieren Sie die Latenz:

  • Das richtige Modell für Ihren Anwendungsfall auswählen: Die Gemini Enterprise Agent Platform bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Leistungsmerkmalen. Wählen Sie das Modell aus, das am besten zu Ihrem Anwendungsfall passt. Berücksichtigen Sie dabei Ihre Anforderungen an Geschwindigkeit und Ausgabequalität. Eine Liste der verfügbaren Modelle finden Sie unter Model Garden.
  • Prompt-Größe reduzieren: Erstellen Sie klare und prägnante Prompts, die Ihre Absicht effektiv vermitteln, ohne unnötige Details oder Redundanz. Kürzere Prompts verkürzen die Zeit bis zum ersten Token.
  • Ausgabetokens begrenzen:
    • Mit Systemanweisungen können Sie die Länge der Antwort steuern. Weisen Sie das Modell an, prägnante Antworten zu geben oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Mit dieser Strategie können Sie die Zeit bis zum letzten Token verkürzen.
    • Ausgabe durch Festlegen eines Limits einschränken Mit dem Parameter max_output_tokens können Sie eine maximale Länge für die generierte Antwort festlegen, um zu lange Ausgaben zu vermeiden. Die Latenz ist direkt proportional zur Anzahl der generierten Tokens. Wenn weniger Tokens generiert werden, sind die Antworten schneller. Seien Sie jedoch vorsichtig, da Antworten dadurch mitten im Satz abgeschnitten werden können.
  • Bereitgestellter Durchsatz verwenden: Für eine möglichst konsistente Leistung sollten Sie Bereitgestellten Durchsatz verwenden. Dadurch wird die Variabilität eliminiert, die durch Kaltstarts oder Warteschlangen entstehen kann, die gelegentlich in Pay-as-you-go-Modellen bei hohem Traffic auftreten.
  • Budget für Denkprozesse begrenzen: Wenn Sie ein Modell verwenden, das Denkprozesse unterstützt, können Sie die Latenz verringern, indem Sie das Budget für Denkprozesse reduzieren. Wenn Sie die Anzahl der internen Reasoning-Tokens begrenzen, die das Modell vor der Beantwortung generiert, verkürzen Sie die Gesamtverarbeitungszeit. Sie müssen jedoch darauf achten, dass das Budget für die Komplexität der Aufgabe ausreicht, um die Qualität der Antworten nicht zu beeinträchtigen.
  • Streaming für Antworten verwenden: Streaming verbessert die wahrgenommene Reaktionsfähigkeit und sorgt für ein interaktiveres Nutzererlebnis. Beim Streaming beginnt das Modell mit dem Senden der Antwort, bevor die gesamte Ausgabe generiert wurde. Dadurch kann die Ausgabe in Echtzeit verarbeitet werden, sodass Sie Ihre Benutzeroberfläche sofort aktualisieren und andere gleichzeitige Aufgaben ausführen können.

Verfügbarkeit

So optimieren Sie für Verfügbarkeit:

  • Wiederholungslogik implementieren: Implementieren Sie exponentiellen Backoff für 429-Fehler, insbesondere bei Verwendung von Standard PayGo.
  • Hybride Implementierung verwenden: Wie unter Die richtige Option für Ihre Arbeitslast auswählen beschrieben, sollten Sie sich bei wichtigen Produktions-Apps nicht ausschließlich auf PayGo verlassen. Die Kombination aus bereitgestelltem Durchsatz und PayGo bietet die höchste Sicherheit gegen Ressourcenerschöpfung (429-Fehler).
  • Kontingent für bereitgestellten Durchsatz verwalten: Überwachen Sie regelmäßig Ihren TPM-Verbrauch und erhöhen Sie die PT-GSUs vor erwarteten Traffic-Ereignissen wie Produkteinführungen. Sie können eine Benachrichtigungsrichtlinie verwenden, um das Monitoring zu automatisieren.
  • Globalen Endpunkt verwenden: Verwenden Sie den globalen Endpunkt, um den globalen Kapazitätspool von Google zu nutzen und die Drosselung aufgrund regionaler Kapazitätsbeschränkungen zu minimieren.
  • Traffic glätten, um Spitzen nach Möglichkeit zu reduzieren: Höhere Pay-as-you-go-Trafficraten (TPM) sind in der Regel mit höheren Drosselungsraten verbunden.
  • Traffic in Nebenzeiten verlagern: Die Modellnutzung folgt in der Regel einem Tagesmuster. Wenn Sie Ihre Arbeitslast auf die Nebenzeiten oder Wochenenden verlagern, kann sich die Verfügbarkeit erheblich verbessern.

Kosten

So optimieren Sie die Kosten:

  • Bereitgestellten Durchsatz richtig dimensionieren: In der Regel müssen Sie keinen bereitgestellten Durchsatz bereitstellen, um die Spitzenlast zu decken. Die Bereitstellung für Spitzenlasten verringert die Gesamtauslastung und treibt die Kosten in die Höhe. Decken Sie je nach Risikobereitschaft ein bestimmtes Perzentil Ihres Traffics ab und lassen Sie den Rest von Standard PayGo und Priority PayGo abwickeln.
  • Längerfristigen bereitgestellten Durchsatz kaufen: Eine 1-jährige PT-Zusicherung ist im Vergleich zu 1-monatigem PT mit einem Rabatt von 26% erhältlich, was zu erheblichen Kosteneinsparungen führt. Sie können das Modell, das mit Ihren gekauften GSUs für bereitgestellten Durchsatz verknüpft ist, jederzeit ändern, um die neuesten Modellfunktionen zu nutzen.
  • Flex PayGo verwenden: Identifizieren Sie alle Teile Ihrer Pipeline, die nicht latenzempfindlich sind (z.B. Hintergrundzusammenfassung, Datenextraktion), und verschieben Sie sie zu Flex PayGo, um die Kosten um etwa 50 % zu senken.
  • Batchverarbeitung verwenden: Bei asynchronen Jobs wie der Verarbeitung großer Datasets ist die Batchverarbeitung deutlich günstiger (50%) als die sequenzielle Verarbeitung von Anfragen mit Standard PayGo.
  • Kontext-Caching verwenden: Das Kontext-Caching kann die Kosten und Latenz von Anfragen mit wiederholten Inhalten reduzieren. Sie können die Cache-Trefferraten erhöhen, indem Sie große und häufig verwendete Inhalte an den Anfang Ihres Prompts stellen und Anfragen mit einem ähnlichen Präfix innerhalb kurzer Zeit senden.
  • Günstigeres Modell auswählen: Wenn Ihr Anwendungsfall dies zulässt, können Sie eines unserer kleineren Modelle wie Flash-Lite verwenden, das einen niedrigeren Preis pro Token hat als unsere leistungsstarken Modelle mit vollem Funktionsumfang.