Die Gemini Enterprise Agent Platform bietet mehrere Optionen für den Bezug und die Nutzung von Compute-Ressourcen bei der Verwendung generativer Modelle. Diese Nutzungsoptionen sind auf die Anforderungen jeder Arbeitslast zugeschnitten, von der ersten Prototypenerstellung bis hin zu Produktionsbereitstellungen. Die Auswahl der richtigen Option ist entscheidend, um ein ausgewogenes Verhältnis zwischen Leistung, Zuverlässigkeit und Kosten zu erzielen.
In diesem Leitfaden werden die verfügbaren Nutzungsoptionen beschrieben, Sie erfahren, wie Sie sie Ihren spezifischen Arbeitslastanforderungen zuordnen können, und erhalten Strategien zur Optimierung von Latenz, Verfügbarkeit und Kosten.
Nutzungsoptionen
Die Gemini Enterprise Agent Platform bietet fünf Nutzungsoptionen, die auf verschiedene Trafficmuster und geschäftliche Anforderungen zugeschnitten sind:
| Nutzungsoption | Beschreibung | Ideal für | Preise | |
|---|---|---|---|---|
| Bereitgestellter Durchsatz | Bietet garantierten Durchsatz für eine Mindestlaufzeit | Kritische, stabile, immer aktive Arbeitslasten, für die ein SLA erforderlich ist | Zusicherungsbasiert (verfügbar in Abos für 1 Woche, 1 Monat, 3 Monate und 1 Jahr) | |
| PayGo | Standard | Flexible, nutzungsabhängige Option ohne Vorabzusicherung | Standardoption für alltägliche Anwendungsfälle mit Flexibilität für variable Trafficanforderungen | Pro Token (Standardrate) |
| Priorität | Bietet höhere Zuverlässigkeit durch Verarbeitung mit Priorität bei gleichzeitiger Beibehaltung der PayGo-Flexibilität | Wichtige Arbeitslasten, die eine höhere Zuverlässigkeit und höhere Limits als Standard-PayGo erfordern | Pro Token (Premiumrate) | |
| Flex | Kostengünstige Option für latenzunempfindliche Arbeitslasten | Aufgaben, die eine langsamere Reaktionszeit und eine höhere Drosselung vertragen und daher zu niedrigeren Preisen angeboten werden | Pro Token (Rabattierter Preis) | |
| Batch-Inferenz | Kostenoptimiert für asynchrone Verarbeitung mit hohem Volumen | Große Jobs, bei denen Ergebnisse innerhalb eines längeren Zeitraums benötigt werden | Pro Token (Rabattierter Preis) | |
Informationen zu den Preisen finden Sie auf der Preisseite.
Die richtige Option für Ihre Arbeitslast auswählen
In den folgenden Abschnitten finden Sie eine Anleitung zur Auswahl der am besten geeigneten Nutzungsoption basierend auf den spezifischen Anforderungen und Merkmalen Ihrer Arbeitslast.
Latenzempfindliche Arbeitslasten
Unternehmen müssen oft Kompromisse zwischen Zuverlässigkeit und Kosten eingehen, wenn sie die richtigen Nutzungsmodelle auswählen. Bereitgestellter Durchsatz bietet zwar die höchste Zuverlässigkeit, kann aber zu einer Unterauslastung führen, wenn Ihr Traffic Spitzen aufweist. Ebenso bietet PayGo zwar maximale Flexibilität, kann aber keine bestimmte Dienstqualität garantieren. Im folgenden Abschnitt wird beschrieben, wie Sie diese Mechanismen am besten kombinieren, um das optimale Ergebnis zu erzielen:
- Grundlast-Traffic mit bereitgestelltem Durchsatz abdecken. Dadurch wird die Auslastung Ihrer reservierten Kapazität verbessert, was wirtschaftlich ist und gleichzeitig eine garantierte Zuverlässigkeit für den Großteil Ihres Traffics bietet. So gehen Sie vor:
- Analysieren Sie Ihre Trafficmuster auf Minuten- oder Sekundenebene.
- Bestimmen Sie die Menge an Traffic, die durch bereitgestellten Durchsatz abgedeckt werden soll. Er sollte den Traffic mit der höchsten Priorität abdecken.
- Überlauf-Traffic mit Standard- oder Prioritäts-PayGo verwalten: Standardmäßig wird Traffic, der die Grundlast Ihres bereitgestellten Durchsatzes übersteigt (Überlauf-Traffic), mit Standard PayGo verarbeitet. Wenn Sie bei Anfragen über dem TPM-Limit eine höhere Varianz in der Leistung feststellen, können Sie dies durch Optimierung verringern. Mit Prioritäts-PayGo können Sie eine zuverlässige Leistung zu einem Premiumpreis erzielen, vorbehaltlich des Ramp-Limits.
Asynchrone Arbeitslasten mit hohem Volumen
Wenn Sie einen großen Rückstand an Anfragen haben (z. B. wenn Sie Millionen von Dokumenten zusammenfassen müssen) und die sofortige Latenz kein Problem darstellt, sollten Sie einen Batchjob einreichen, indem Sie Anfragen in einer JSON-Datei oder einer Tabelle formulieren. Dies ist nützlich für Anwendungsfälle wie die Bildkennzeichnung, die Verarbeitung von Massendokumenten oder die Sentimentanalyse von Verlaufsdaten.
Diese Option ist die kostengünstigste für die Inferenz mit hohem Volumen.
Latenzunempfindliche, kostenempfindliche Arbeitslasten
Wenn Sie Anfragen verarbeiten müssen (z. B. Datenannotation oder Katalogerstellung), bei denen die Anwendung auf eine Antwort warten kann, die Kostenreduzierung aber Priorität hat, sollten Sie Flex-PayGo verwenden. Flex-PayGo bietet reduzierte Preise pro Token für Anfragen, die nicht sofort ausgeführt werden müssen. Diese Option ist nützlich für Anwendungsfälle wie Offlineanalysen, Datenannotationen, die Erstellung von Produktkatalogen oder Übersetzungen.
Optimierungsstrategien
Nachdem Sie Ihr Nutzungsmodell ausgewählt haben, können Sie mit den folgenden Strategien Latenz, Verfügbarkeit und Kosten weiter optimieren.
Latenz
Beim Erstellen interaktiver Anwendungen spielt die Latenz eine entscheidende Rolle für die Nutzerfreundlichkeit. Latenz bezieht sich auf die Zeit, die ein Modell benötigt, um Ihren Eingabe-Prompt zu verarbeiten und eine entsprechende Ausgabeantwort zu generieren. Bei der Untersuchung der Latenz eines Modells sollten Sie Folgendes berücksichtigen:
- Zeit bis zum ersten Token (TTFT): Die Zeit, die das Modell benötigt, um nach dem Empfang des Prompts das erste Token der Antwort zu erzeugen. TTFT ist besonders wichtig für Streaminganwendungen, bei denen sofortiges Feedback entscheidend ist.
- Zeit bis zum letzten Token (TTLT): Die Gesamtzeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren.
So optimieren Sie die Latenz:
- Das richtige Modell für Ihren Anwendungsfall auswählen: Die Gemini Enterprise Agent Platform bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Leistungs merkmalen. Bewerten Sie sorgfältig Ihre Anforderungen an Geschwindigkeit und Ausgabequalität, um das Modell auszuwählen, das am besten zu Ihrem Anwendungsfall passt. Eine Liste der verfügbaren Modelle finden Sie im Model Garden.
- Promptgröße reduzieren: Erstellen Sie klare und prägnante Prompts, die Ihre Absicht effektiv vermitteln, ohne unnötige Details oder Redundanzen. Kürzere Prompts verkürzen die Zeit bis zum ersten Token.
- Ausgabetokens begrenzen:
- Verwenden Sie Systemanweisungen, um die Länge der Antwort zu steuern. Weisen Sie das Modell an, prägnante Antworten zu geben oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Mit dieser Strategie können Sie die Zeit bis zum letzten Token reduzieren.
- Beschränken Sie die Ausgabe, indem Sie ein Limit festlegen. Mit dem Parameter
max_output_tokenskönnen Sie eine maximale Länge für die generierte Antwort festlegen, um zu lange Ausgaben zu vermeiden. Die Latenz ist direkt proportional zur Anzahl der generierten Tokens. Weniger Tokens führen zu schnelleren Antworten. Seien Sie jedoch vorsichtig, da dies dazu führen kann, dass Antworten mitten im Satz abgeschnitten werden.
- Bereitgestellten Durchsatz verwenden: Für die konsistenteste Leistung sollten Sie bereitgestellten Durchsatz verwenden. Dadurch wird die Variabilität eliminiert, die durch „Kaltstarts“ oder Warteschlangen entstehen kann, die gelegentlich bei PayGo-Modellen bei hohem Traffic auftreten.
- Das Budget für Denkprozesse begrenzen: Wenn Sie ein Modell verwenden, das Denkprozesse unterstützt, können Sie die Latenz reduzieren, indem Sie das Budget für Denkprozesse verringern. Wenn Sie die Anzahl der internen Reasoning-Tokens begrenzen, die das Modell vor der Beantwortung generiert, verkürzen Sie die Gesamtverarbeitungszeit. Sie müssen jedoch darauf achten, dass das Budget für die Komplexität der Aufgabe ausreicht, um die Qualität der Antworten nicht zu beeinträchtigen.
- Streaming für Ihre Antworten verwenden: Streaming verbessert die wahrgenommene Reaktionsfähigkeit und sorgt für eine interaktivere Nutzer erfahrung. Beim Streaming beginnt das Modell mit dem Senden der Antwort, bevor die vollständige Ausgabe generiert wurde. Dadurch kann die Ausgabe in Echtzeit verarbeitet werden und Sie können sofort Ihre Benutzeroberfläche aktualisieren und andere gleichzeitige Aufgaben ausführen.
Verfügbarkeit
So optimieren Sie die Verfügbarkeit:
- Wiederholungslogik implementieren: Implementieren Sie exponentiellen Backoff für 429-Fehler, insbesondere bei Verwendung von Standard-PayGo.
- Hybride Implementierung verwenden: Wie in den vorherigen Abschnitten beschrieben, sollten Sie sich bei kritischen Produktionsanwendungen nicht ausschließlich auf PayGo verlassen. Die Kombination von bereitgestelltem Durchsatz und PayGo bietet die höchste Sicherheit gegen Ressourcenerschöpfung (429-Fehler).
- Kontingent für bereitgestellten Durchsatz verwalten: Überwachen Sie regelmäßig Ihren TPM-Verbrauch und erhöhen Sie die PT-GSUs vor erwarteten Trafficereignissen (z. B. Produkteinführungen). Sie können eine Benachrichtigungsrichtlinie verwenden, um die Überwachung zu automatisieren.
- Globalen Endpunkt verwenden: Verwenden Sie den globalen Endpunkt, um den globalen Kapazitätspool von Google zu nutzen und die Drosselung aufgrund regionaler Kapazitätsbeschränkungen zu minimieren.
- Traffic möglichst glätten, um Spitzen zu reduzieren: Eine höhere PayGo Trafficrate (TPM) ist in der Regel mit höheren Drosselungsraten verbunden.
- Traffic in die Nebenzeiten verlagern: Die Modellnutzung folgt im Allgemeinen einem Tagesmuster. Wenn Sie Ihre Arbeitslast in die Nebenzeiten oder auf Wochenenden verlagern, kann sich die Verfügbarkeit erheblich verbessern.
Kosten
So optimieren Sie die Kosten:
- Bereitgestellten Durchsatz richtig dimensionieren: In der Regel müssen Sie den bereitgestellten Durchsatz nicht in Spitzenzeiten bereitstellen. Dadurch wird die Gesamtauslastung des bereitgestellten Durchsatzes reduziert und die Gesamtkosten steigen. Streben Sie je nach Risikobereitschaft ein bestimmtes Perzentil des Traffics an und lassen Sie den Rest von Standard-PayGo und Prioritäts-PayGo verarbeiten.
- Bereitgestellten Durchsatz für einen längeren Zeitraum kaufen: Der Preis für 1 Jahr bereitgestellten Durchsatz ist um 26% niedriger als für 1 Monat bereitgestellten Durchsatz, was zu erheblichen Kosteneinsparungen führt. Sie können die gekauften GSUs für bereitgestellten Durchsatz jederzeit zwischen verschiedenen Modellen wechseln, um die neuesten Modellfunktionen zu nutzen.
- Flex-PayGo verwenden: Ermitteln Sie alle Teile Ihrer Pipeline, die nicht latenz empfindlich sind (z.B. Hintergrundzusammenfassung, Datenextraktion), und verschieben Sie sie zu Flex, um die Kosten um etwa 50 % zu senken.
- Batchverarbeitung verwenden: Bei asynchronen Jobs wie der Verarbeitung großer Datensätze ist die Batchverarbeitung deutlich günstiger (50%) als die sequenzielle Verarbeitung von Anfragen mit Standard-PayGo.
- Kontext-Caching verwenden: Kontext Caching trägt dazu bei, die Kosten und die Latenz von Anfragen zu reduzieren, die wiederholte Inhalte enthalten. Erhöhen Sie die Cache-Trefferrate, indem Sie große und häufig verwendete Inhalte am Anfang Ihres Prompts platzieren und Anfragen mit einem ähnlichen Präfix in kurzer Zeit senden.
- Ein günstigeres Modell auswählen: Wenn Ihr Anwendungsfall dies zulässt, verwenden Sie eines unserer kleineren Modelle wie Flash-Lite, das einen niedrigeren Preis pro Token hat als unsere leistungsstarken Modelle mit vollem Funktionsumfang.