Nutzungsoptionen

Die Gemini Enterprise Agent Platform bietet mehrere Optionen zum Abrufen und Verwenden von Rechenressourcen bei der Verwendung generativer Modelle. Diese Verbrauchsoptionen sind für alle Arbeitslasten geeignet, vom ersten Prototyping bis hin zu Produktionsbereitstellungen. Die Auswahl der richtigen Option ist entscheidend, um Leistung, Zuverlässigkeit und Kosten in Einklang zu bringen.

In diesem Leitfaden werden die verfügbaren Verbrauchsoptionen beschrieben. Außerdem wird erläutert, wie Sie sie Ihren spezifischen Anforderungen an die Arbeitslast zuordnen können, und es werden Strategien zur Optimierung von Latenz, Verfügbarkeit und Kosten vorgestellt.

Nutzungsoptionen

Die Gemini Enterprise Agent Platform bietet fünf Nutzungsoptionen, die auf unterschiedliche Traffic-Muster und Geschäftsanforderungen zugeschnitten sind:

Nutzungsoption Beschreibung Ideal für Preise
Bereitgestellter Durchsatz Bietet garantierten Durchsatz für eine Mindestlaufzeit Kritische, stabile, Always-on-Arbeitslasten, für die ein SLA erforderlich ist Zusicherungsbasiert (verfügbar für 1‑Wochen-, 1‑Monats-, 3‑Monats- und 1‑Jahres-Abos)
PayGo Standard Flexible Pay-per-use-Option ohne Vorabverpflichtung Standardoption für alltägliche Anwendungsfälle mit Flexibilität für variablen Traffic Pro Token (Standardrate)
Priorität Höhere Zuverlässigkeit durch Prioritätsverarbeitung bei gleichzeitiger Pay-as-you-go-Flexibilität Wichtige Arbeitslasten, die eine höhere Zuverlässigkeit und höhere Limits als das Standardmodell „Pay-as-you-go“ erfordern Pro Token (Premium-Dienst)
Flex Kostengünstige Option für latenztolerante Arbeitslasten Aufgaben, bei denen langsamere Reaktionszeiten und höheres Throttling in Kauf genommen werden können, um den Preis zu senken Pro Token (rabattierter Preis)
Batch-Inferenz Kostenoptimiert für die asynchrone Verarbeitung großer Mengen Große Aufträge, bei denen Ergebnisse innerhalb eines längeren Zeitraums benötigt werden Pro Token (rabattierter Preis)

Informationen zu den Preisen finden Sie auf der Preisseite.

Die richtige Option für Ihre Arbeitslast auswählen

In den folgenden Abschnitten finden Sie Informationen zur Auswahl der am besten geeigneten Verbrauchsoption basierend auf den spezifischen Anforderungen und Merkmalen Ihrer Arbeitslast.

Latenzempfindliche Arbeitslasten

Unternehmen müssen bei der Auswahl der richtigen Verbrauchsmodelle oft Kompromisse zwischen Zuverlässigkeit und Kosten eingehen. Bereitgestellter Durchsatz bietet zwar die höchste Zuverlässigkeit, kann aber bei Traffic-Spitzen zu einer Unterauslastung führen. Ebenso bietet PayGo möglicherweise die maximale Flexibilität, kann aber keine Dienstqualität garantieren. Im folgenden Abschnitt wird beschrieben, wie Sie diese Mechanismen am besten kombinieren, um das optimale Ergebnis zu erzielen:

  1. Referenz-Traffic mit bereitgestelltem Durchsatz abdecken: Dadurch wird die Nutzung Ihrer reservierten Kapazität verbessert.Das ist wirtschaftlich und bietet gleichzeitig garantierte Zuverlässigkeit für den Kern Ihres Traffics. Gehen Sie dazu so vor:
    • Traffic-Muster auf Minuten- oder Sekundenebene analysieren
    • Bestimmen Sie die Menge des Traffics, der vom bereitgestellten Durchsatz abgedeckt werden soll. Sie sollte den Traffic mit der höchsten Priorität abdecken.
  2. Spillover-Traffic mit Standard- oder Priority-PayGo verwalten: Standardmäßig wird Traffic, der über Ihren bereitgestellten Durchsatz hinausgeht (Spillover-Traffic), mit Standard-PayGo verarbeitet. Wenn Sie bei Anfragen über dem TPM-Limit eine höhere Leistungsvarianz feststellen, können Sie diese durch Optimierung verringern. Mit Priority-PayGo können Sie eine zuverlässige Leistung zu einem Premiumpreis erzielen, vorbehaltlich des Ramp-Limits.

Asynchrone Arbeitslasten mit hohem Volumen

Wenn Sie eine große Anzahl von Anfragen haben (z. B. wenn Sie Millionen von Dokumenten zusammenfassen müssen) und die sofortige Latenz kein Problem darstellt, sollten Sie einen Batch-Job einreichen, indem Sie Anfragen in einer JSON-Datei oder einem Tabellenblatt formulieren. Das ist nützlich für Anwendungsfälle wie die Bildkennzeichnung, die Verarbeitung von Massendokumenten oder die Sentimentanalyse von Verlaufsdaten.

Dies ist die kostengünstigste Option für die Inferenz mit hohem Volumen.

Latenztolerante, kostensensible Arbeitslasten

Wenn Sie Anfragen verarbeiten müssen, bei denen die Anwendung auf eine Antwort warten kann, die Kostensenkung aber Priorität hat, sollten Sie Flex PayGo verwenden. Mit Flex PayGo erhalten Sie einen niedrigeren Preis pro Token für Anfragen, die nicht sofort ausgeführt werden müssen. Diese Option ist für Anwendungsfälle wie Offline-Analysen, Datenannotationen, das Erstellen von Produktkatalogen oder Übersetzungen nützlich.

Optimierungsstrategien

Nachdem Sie Ihr Nutzungsmodell ausgewählt haben, können Sie mit den folgenden Strategien Latenz, Verfügbarkeit und Kosten weiter optimieren.

Latenz

Beim Erstellen interaktiver Anwendungen spielt die Latenz eine entscheidende Rolle für die Nutzerfreundlichkeit. Latenz bezieht sich auf die Zeit, die ein Modell benötigt, um Ihren Eingabe-Prompt zu verarbeiten und eine entsprechende Ausgabe zu generieren. Beachten Sie beim Untersuchen der Latenz eines Modells Folgendes:

  • Zeit bis zum ersten Token (Time to First Token, TTFT): Die Zeit, die das Modell benötigt, um das erste Token der Antwort zu generieren, nachdem es den Prompt erhalten hat. TTFT ist besonders wichtig für Streaminganwendungen, bei denen sofortiges Feedback entscheidend ist.
  • Zeit bis zum letzten Token (TTLT): Die Gesamtzeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren.

So optimieren Sie die Latenz:

  • Das richtige Modell für Ihren Anwendungsfall auswählen: Die Gemini Enterprise Agent Platform bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Leistungsmerkmalen. Wählen Sie das Modell aus, das am besten zu Ihrem Anwendungsfall passt. Berücksichtigen Sie dabei Ihre Anforderungen in Bezug auf Geschwindigkeit und Ausgabequalität. Eine Liste der verfügbaren Modelle finden Sie unter Model Garden.
  • Prompt-Größe reduzieren: Erstellen Sie klare und prägnante Prompts, die Ihre Absicht effektiv vermitteln, ohne unnötige Details oder Redundanz. Kürzere Prompts verkürzen die Zeit bis zum ersten Token.
  • Ausgabetokens begrenzen:
    • Verwenden Sie Systemanweisungen, um die Länge der Antwort zu steuern. Weisen Sie das Modell an, prägnante Antworten zu geben oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Mit dieser Strategie können Sie die Zeit bis zum letzten Token verkürzen.
    • Sie können die Ausgabe einschränken, indem Sie ein Limit festlegen. Verwenden Sie den Parameter max_output_tokens, um eine maximale Länge für die generierte Antwort festzulegen und so übermäßig lange Ausgaben zu vermeiden. Die Latenz ist direkt proportional zur Anzahl der generierten Tokens. Wenn weniger Tokens generiert werden, sind die Antworten schneller. Seien Sie jedoch vorsichtig, da Antworten dadurch mitten im Satz abgeschnitten werden können.
  • Bereitgestellter Durchsatz verwenden: Für eine möglichst konsistente Leistung sollten Sie Bereitgestellten Durchsatz verwenden. Dadurch wird die Variabilität eliminiert, die durch Kaltstarts oder Warteschlangen verursacht wird, die gelegentlich in Pay-as-you-go-Modellen bei hohem Traffic auftreten können.
  • Budget für Denkprozesse begrenzen: Wenn Sie ein Modell verwenden, das Denkprozesse unterstützt, können Sie die Latenz verringern, indem Sie das Budget für Denkprozesse reduzieren. Wenn Sie die Anzahl der internen Reasoning-Tokens begrenzen, die das Modell vor der Beantwortung generiert, verkürzen Sie die Gesamtverarbeitungszeit. Sie müssen jedoch darauf achten, dass das Budget für die Komplexität der Aufgabe ausreicht, um die Qualität der Antworten nicht zu beeinträchtigen.
  • Streaming für Ihre Antworten verwenden: Streaming verbessert die wahrgenommene Reaktionsfähigkeit und sorgt für eine interaktivere Nutzererfahrung. Beim Streaming beginnt das Modell mit dem Senden seiner Antwort, bevor es die vollständige Ausgabe generiert. Dies ermöglicht die Echtzeitverarbeitung der Ausgabe, sodass Sie Ihre Benutzeroberfläche sofort aktualisieren und andere gleichzeitige Aufgaben ausführen können.

Verfügbarkeit

So optimieren Sie für Verfügbarkeit:

  • Wiederholungslogik implementieren: Implementieren Sie exponentiellen Backoff für 429-Fehler, insbesondere bei Verwendung von Standard PayGo.
  • Hybridimplementierung verwenden: Wie unter Die richtige Option für Ihre Arbeitslast auswählen beschrieben, sollten Sie sich bei wichtigen Produktionsanwendungen nicht ausschließlich auf PayGo verlassen. Die Kombination aus bereitgestelltem Durchsatz und PayGo bietet die höchste Sicherheit gegen Ressourcenerschöpfung (429-Fehler).
  • Provisioned Throughput-Kontingent verwalten: Überwachen Sie regelmäßig die TPM-Nutzung und erhöhen Sie die PT-GSUs vor erwarteten Traffic-Ereignissen wie Produkteinführungen. Sie können eine Benachrichtigungsrichtlinie verwenden, um die Überwachung zu automatisieren.
  • Globalen Endpunkt verwenden: Verwenden Sie den globalen Endpunkt, um den globalen Kapazitätspool von Google zu nutzen und die Drosselung aufgrund regionaler Kapazitätsbeschränkungen zu minimieren.
  • Traffic glätten, um Spitzen nach Möglichkeit zu reduzieren: Höhere Pay-as-you-go-Trafficraten (TPM) sind in der Regel mit höheren Drosselungsraten verbunden.
  • Traffic in die Nebenzeiten verlagern: Die Modellnutzung folgt im Allgemeinen einem Tagesmuster. Wenn Sie Ihre Arbeitslast in die Nebenzeiten oder auf Wochenenden verlagern, kann sich die Verfügbarkeit erheblich verbessern.

Kosten

So optimieren Sie die Kosten:

  • Bereitgestellten Durchsatz richtig dimensionieren: In der Regel müssen Sie keinen bereitgestellten Durchsatz für die Spitzenlast bereitstellen. Die Bereitstellung für die Spitzenlast reduziert die Gesamtauslastung und erhöht die Kosten. Versuchen Sie, ein bestimmtes Perzentil Ihres Traffics abzudecken, je nach Ihrer Risikobereitschaft, und lassen Sie den Rest von Standard PayGo und Priority PayGo erledigen.
  • Längerfristigen bereitgestellten Durchsatz erwerben: Eine 1-jährige Zusicherung für bereitgestellten Durchsatz ist im Vergleich zu 1-monatigem bereitgestellten Durchsatz mit einem Rabatt von 26% erhältlich, was zu erheblichen Kosteneinsparungen führt. Sie können das Modell, das mit Ihren gekauften GSUs für bereitgestellten Durchsatz verknüpft ist, jederzeit ändern, um die neuesten Modellfunktionen zu nutzen.
  • Flex PayGo verwenden: Identifizieren Sie alle Teile Ihrer Pipeline, die nicht latenzempfindlich sind (z.B. Hintergrundzusammenfassung, Datenextraktion), und verschieben Sie sie zu Flex PayGo, um die Kosten um etwa 50 % zu senken.
  • Batchverarbeitung verwenden: Bei asynchronen Jobs wie der Verarbeitung großer Datasets ist die Batchverarbeitung deutlich günstiger (50%) als die sequenzielle Verarbeitung von Anfragen mit Standard PayGo.
  • Kontext-Caching verwenden: Das Kontext-Caching kann die Kosten und Latenz von Anfragen mit wiederholten Inhalten reduzieren. Sie können die Cache-Trefferraten erhöhen, indem Sie große und häufig verwendete Inhalte am Anfang Ihres Prompts platzieren und Anfragen mit einem ähnlichen Präfix innerhalb kurzer Zeit senden.
  • Modell mit niedrigerem Preis auswählen: Wenn Ihr Anwendungsfall dies zulässt, können Sie eines unserer kleineren Modelle wie Flash-Lite verwenden, das einen niedrigeren Preis pro Token hat als unsere leistungsstarken Modelle mit vollem Funktionsumfang.