Vertex AI-Nutzungsoptionen

Vertex AI bietet mehrere Optionen zum Abrufen und Verwenden von Computeressourcen bei der Verwendung generativer Modelle. Diese Verbrauchsoptionen sind für alle Arbeitslasten konzipiert, vom ersten Prototyping bis hin zu Produktionsbereitstellungen. Die Auswahl der richtigen Option ist entscheidend, um Leistung, Zuverlässigkeit und Kosten in Einklang zu bringen.

In diesem Leitfaden werden die verfügbaren Verbrauchsoptionen beschrieben. Außerdem wird erläutert, wie Sie sie Ihren spezifischen Anforderungen an die Arbeitslast zuordnen können, und es werden Strategien zur Optimierung von Latenz, Verfügbarkeit und Kosten vorgestellt.

Nutzungsoptionen

Vertex AI bietet fünf Verbrauchsoptionen, die auf unterschiedliche Traffic-Muster und Geschäftsanforderungen zugeschnitten sind:

Nutzungsoption Beschreibung Ideal für Preise
Bereitgestellter Durchsatz Bietet garantierten Durchsatz für einen Zusicherungszeitraum Kritische, stabile, immer aktive Arbeitslasten, für die ein SLA erforderlich ist Zusicherungsbasiert (verfügbar für Tarife mit 1 Woche, 1 Monat, 3 Monaten und 1 Jahr)
PayGo Standard Flexible Pay-per-use-Option ohne Vorabverpflichtung Standardoption für alltägliche Anwendungsfälle mit Flexibilität für variable Traffic-Anforderungen Pro Token (Premium-Dienst)
Priorität Höhere Zuverlässigkeit durch Prioritätsverarbeitung bei gleichzeitiger Pay-as-you-go-Flexibilität Wichtige Arbeitslasten, die eine höhere Zuverlässigkeit und höhere Limits als das Standardmodell „Pay-as-you-go“ erfordern Pro Token (Standardrate)
Flex Kostengünstige Option für latenztolerante Arbeitslasten Aufgaben, bei denen eine langsamere Reaktionszeit und ein höheres Drosseln toleriert werden können und die daher zu niedrigeren Preisen angeboten werden Pro Token (rabattierter Preis)
Batch-Inferenz Kostenoptimiert für die asynchrone Verarbeitung großer Mengen Große Aufträge, bei denen Ergebnisse innerhalb eines längeren Zeitraums benötigt werden Pro Token (rabattierter Preis)

Informationen zu den Preisen finden Sie auf der Preisseite.

Die richtige Option für Ihre Arbeitslast auswählen

Latenzempfindliche Arbeitslasten

Unternehmen müssen bei der Auswahl der richtigen Verbrauchsmodelle oft Kompromisse zwischen Zuverlässigkeit und Kosten eingehen. Der bereitgestellte Durchsatz bietet zwar die höchste Zuverlässigkeit, kann aber zu einer Unterauslastung führen, wenn Ihr Traffic Spitzen aufweist. Pay-as-you-go bietet zwar maximale Flexibilität, kann aber keine Servicequalität garantieren. Im folgenden Abschnitt wird beschrieben, wie Sie diese Mechanismen am besten kombinieren, um das optimale Ergebnis zu erzielen:

  1. Baseline-Traffic mit bereitgestelltem Durchsatz abdecken: So wird die Nutzung Ihrer reservierten Kapazität optimiert, was kostengünstig ist und gleichzeitig eine garantierte Zuverlässigkeit für den Großteil Ihres Traffics bietet. Gehen Sie dazu so vor:
    • Traffic-Muster auf Minuten- oder Sekundenebene analysieren
    • Bestimmen Sie die Menge des Traffics, der vom bereitgestellten Durchsatz abgedeckt werden soll. Sie sollte den Traffic mit der höchsten Priorität abdecken.
  2. Spillover-Traffic mit Standard- oder Priority-PayGo verwalten: Standardmäßig wird Traffic, der die Baseline für den bereitgestellten Durchsatz überschreitet (Spillover-Traffic), mit Standard-PayGo verarbeitet. Wenn Sie bei Anfragen über dem TPM-Limit eine höhere Varianz bei der Leistung feststellen, können Sie das durch Optimierung minimieren. Mit Priority PayGo können Sie zuverlässige Leistung zu einem Premium-Preis erzielen, sofern das Ramp-Limit eingehalten wird.

Asynchrone Arbeitslasten mit hohem Volumen

Wenn Sie eine große Anzahl von Anfragen haben (z. B. wenn Sie Millionen von Dokumenten zusammenfassen müssen) und die sofortige Latenz kein Problem darstellt, sollten Sie einen Batch-Job senden, indem Sie Anfragen in einer JSON-Datei oder Tabelle formulieren. Das ist nützlich für Anwendungsfälle wie die Bildkennzeichnung, die Verarbeitung von Massendokumenten oder die Sentimentanalyse von Verlaufsdaten.

Diese Option ist die kostengünstigste für die Inferenz mit hohem Volumen.

Latenztolerante, kostensensible Arbeitslasten

Wenn Sie Anfragen (z. B. Datenannotation oder Katalogerstellung) verarbeiten müssen, bei denen die Anwendung auf eine Antwort warten kann, die Kostenreduzierung jedoch Priorität hat, sollten Sie Flex PayGo verwenden. Mit Flex PayGo erhalten Sie einen niedrigeren Preis pro Token für Anfragen, die nicht sofort ausgeführt werden müssen. Diese Option ist für Anwendungsfälle wie Offline-Analysen, Datenannotationen, das Erstellen von Produktkatalogen oder Übersetzungen nützlich.

Optimierungsstrategien

Nachdem Sie Ihr Nutzungsmodell ausgewählt haben, können Sie mit den folgenden Strategien die Latenz, Verfügbarkeit und Kosten weiter optimieren.

Latenz

So optimieren Sie die Latenz:

  • Das richtige Modell für Ihren Anwendungsfall auswählen: Vertex AI bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Leistungsmerkmalen. Wählen Sie das Modell aus, das am besten zu Ihrem Anwendungsfall passt. Berücksichtigen Sie dabei Ihre Anforderungen an Geschwindigkeit und Ausgabequalität. Eine Liste der verfügbaren Modelle finden Sie unter Model Garden.
  • Prompt-Größe reduzieren: Erstellen Sie klare und prägnante Prompts, die Ihre Absicht effektiv vermitteln, ohne unnötige Details oder Redundanz. Kürzere Prompts verkürzen die Zeit bis zum ersten Token.
  • Ausgabetokens begrenzen:
    • Mit Systemanweisungen können Sie die Länge der Antwort steuern. Weisen Sie das Modell an, prägnante Antworten zu geben oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Mit dieser Strategie können Sie die Zeit bis zum letzten Token verkürzen.
    • Ausgabe durch Festlegen eines Limits einschränken Mit dem Parameter max_output_tokens können Sie eine maximale Länge für die generierte Antwort festlegen, um zu lange Ausgaben zu vermeiden. Die Latenz ist direkt proportional zur Anzahl der generierten Tokens. Wenn weniger Tokens generiert werden, sind die Antworten schneller. Seien Sie jedoch vorsichtig, da dadurch Antworten mitten im Satz abgeschnitten werden können.
  • Provisioned Throughput verwenden: Für eine möglichst konsistente Leistung sollten Sie Provisioned Throughput verwenden. Dadurch wird die Variabilität eliminiert, die durch „Kaltstarts“ oder Warteschlangen verursacht wird, die in Pay-as-you-go-Modellen bei hohem Traffic gelegentlich auftreten können.
  • Budget für Denkprozesse begrenzen: Wenn Sie ein Modell verwenden, das Denkprozesse unterstützt, können Sie die Latenz verringern, indem Sie das Budget für Denkprozesse reduzieren. Wenn Sie die Anzahl der internen Reasoning-Tokens begrenzen, die das Modell vor der Beantwortung generiert, verkürzen Sie die Gesamtverarbeitungszeit. Sie müssen jedoch darauf achten, dass das Budget für die Komplexität der Aufgabe ausreicht, um eine Beeinträchtigung der Antwortqualität zu vermeiden.

Verfügbarkeit

So optimieren Sie für Verfügbarkeit:

  • Wiederholungslogik implementieren: Implementieren Sie exponentiellen Backoff für 429-Fehler, insbesondere bei Verwendung von Standard PayGo.
  • Hybride Implementierung verwenden: Wie in vorherigen Abschnitten beschrieben, sollten Sie sich bei wichtigen Produktions-Apps nicht ausschließlich auf PayGo verlassen. Die Kombination aus bereitgestelltem Durchsatz und PayGo bietet die höchste Sicherheit gegen Ressourcenerschöpfung (429-Fehler).
  • Kontingent für bereitgestellten Durchsatz verwalten: Überwachen Sie regelmäßig Ihren TPM-Verbrauch und erhöhen Sie die PT-GSUs vor erwarteten Traffic-Ereignissen wie Produkteinführungen. Sie können eine Benachrichtigungsrichtlinie verwenden, um die Überwachung zu automatisieren.
  • Globalen Endpunkt verwenden: Verwenden Sie den globalen Endpunkt, um den globalen Kapazitätspool von Google zu nutzen und die Drosselung aufgrund regionaler Kapazitätsbeschränkungen zu minimieren.
  • Traffic glätten, um Spitzen zu vermeiden: Eine höhere Pay-as-you-go-Trafficrate (TPM) ist in der Regel mit höheren Drosselungsraten verbunden.
  • Traffic in Nebenzeiten verlagern: Die Modellnutzung folgt im Allgemeinen einem Tagesmuster. Wenn Sie Ihre Arbeitslast auf Zeiten außerhalb der Spitzenzeiten oder auf Wochenenden verlagern, kann sich die Verfügbarkeit erheblich verbessern.

Kosten

So optimieren Sie die Kosten:

  • Dimensionierung für bereitgestellten Durchsatz: In der Regel müssen Sie den bereitgestellten Durchsatz nicht für Spitzenzeiten bereitstellen. Dadurch wird die Gesamtauslastung des bereitgestellten Durchsatzes reduziert und die Gesamtkosten steigen. Legen Sie ein bestimmtes Perzentil des Traffics fest, das von der Risikobereitschaft abhängt, und lassen Sie den Rest von Standard PayGo und Priority PayGo verarbeiten.
  • Provisioned Throughput für einen längeren Zeitraum kaufen: Der Preis für Provisioned Throughput für ein Jahr ist 26% niedriger als der Preis für Provisioned Throughput für einen Monat. Das führt zu erheblichen Kosteneinsparungen. Sie können die gekauften GSUs für bereitgestellten Durchsatz jederzeit zwischen verschiedenen Modellen wechseln, um die neuesten Modellfunktionen zu nutzen.
  • Flex PayGo verwenden: Identifizieren Sie alle Teile Ihrer Pipeline, die nicht latenzempfindlich sind (z.B. Hintergrundzusammenfassung, Datenextraktion), und verschieben Sie sie zu Flex, um die Kosten um etwa 50 % zu senken.
  • Batchverarbeitung verwenden: Bei asynchronen Jobs wie der Verarbeitung großer Datasets ist die Batchverarbeitung deutlich günstiger (50%) als die sequenzielle Verarbeitung von Anfragen mit Standard PayGo.
  • Kontext-Caching verwenden: Mit Kontext-Caching lassen sich die Kosten und die Latenz von Anfragen mit wiederholten Inhalten reduzieren. Erhöhen Sie die Cache-Trefferrate, indem Sie große und häufig verwendete Inhalte an den Anfang Ihres Prompts setzen und Anfragen mit einem ähnlichen Präfix innerhalb kurzer Zeit senden.
  • Modell mit niedrigerem Preis auswählen: Wenn Ihr Anwendungsfall dies zulässt, können Sie eines unserer kleineren Modelle wie Flash-Lite verwenden, das einen niedrigeren Preis pro Token hat als unsere leistungsstarken Modelle mit vollem Funktionsumfang.