In diesem Leitfaden wird beschrieben, wie Sie Ihre Anwendung auf die neueste Gemini-Version aktualisieren. In diesem Leitfaden wird davon ausgegangen, dass Ihre Anwendung bereits eine ältere Gemini-Version verwendet. Informationen zu den ersten Schritten mit Gemini in Vertex AI finden Sie in der Kurzanleitung zur Gemini API in Vertex AI.
In dieser Anleitung wird nicht beschrieben, wie Sie Ihre Anwendung vom Vertex AI SDK zum aktuellen Google Gen AI SDK migrieren. Weitere Informationen finden Sie in unserem Migrationsleitfaden für das Vertex AI SDK.
Welche Änderungen sind zu erwarten?
Für die Aktualisierung der meisten generativen KI-Anwendungen auf die neueste Gemini-Version sind nur wenige Code- oder Prompt-Änderungen erforderlich. Bei einigen Anwendungen sind jedoch möglicherweise Anpassungen des Prompts erforderlich. Es ist schwierig, diese Änderungen vorherzusagen, ohne Ihre Prompts zuerst mit der neuen Version zu testen. Wir empfehlen, vor der vollständigen Migration gründliche Tests durchzuführen. Tipps zum Erstellen effektiver Prompts Mit unserer Checkliste für die Qualität von Prompts können Sie Probleme mit Prompts finden und beheben.
Größere Codeänderungen sind nur bei bestimmten Breaking Changes oder bei der Verwendung neuer Gemini-Funktionen erforderlich.
Zu welchem Gemini-Modell sollte ich migrieren?
Welches Gemini-Modell Sie verwenden, hängt von den Anforderungen Ihrer Anwendung ab. In der folgenden Tabelle werden die älteren Gemini 1.5-Modelle mit den neuesten Gemini-Modellen verglichen:
| Funktion | 1.5 Pro | 1.5 Flash | 2.0 Flash | 2.0 Flash-Lite | 2.5 Pro | 2.5 Flash | 2.5 Flash-Lite | 3 Pro |
|---|---|---|---|---|---|---|---|---|
| Startphase | Ich bin Rentner | Ich bin Rentner | Allgemein verfügbar | Allgemein verfügbar | Allgemein verfügbar | Allgemein verfügbar | Allgemein verfügbar | Vorschau |
| Eingabemodalitäten |
|
|
|
|
|
|
|
|
| Ausgabemodalitäten |
|
|
|
|
|
|
|
|
| Kontextfenster, Gesamttokenlimit | 2.097.152 | 1.048.576 | 1.048.576 | 1.048.576 | 1.048.576 | 1.048.576 | 1.048.576 | 1.048.576 |
| Länge des Ausgabekontexts | 8.192 (Standard) | 8.192 (Standard) | 8.192 (Standard) | 8.192 (Standard) | 65.535 (Standard) | 65.535 (Standard) | 65.535 (Standard) | 65.536 |
| Fundierung mit der Google Suche | ||||||||
| Funktionsaufrufe | ||||||||
| Codeausführung | ||||||||
| Implizites Kontext-Caching | ||||||||
| Explizites Kontext-Caching | ||||||||
| Batchvorhersage | ||||||||
| Live API* | ||||||||
| Feinabstimmung | ||||||||
| Latenz | ||||||||
| Empfohlenes SDK | Vertex AI SDK | Vertex AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK |
| Preiseinheiten | Zeichen | Zeichen | Token | Token | Token | Token | Token | Token |
| Einstellungsdatum | 24. September 2025 | 24. September 2025 | 5. Februar 2026 | 25. Februar 2026 | 17. Juni 2026 | 17. Juni 2026 | 22. Juli 2026 |
* Die Live API ist als Vorabversion im Rahmen von gemini-live-2.5-flash und gemini-live-2.5-flash-preview-native-audio verfügbar.
Vor der Migration
Bevor Sie mit der Migration beginnen, sollten Sie Folgendes beachten:
- Informationssicherheit (InfoSec), Governance und behördliche Genehmigungen
- Verfügbarkeit nach Standort
- Preisunterschiede aufgrund von Modalität und Tokenisierung
- Provisioned Throughput-Aufträge kaufen oder ändern
- Überwachte Feinabstimmung
- Regressionstests
InfoSec, Governance und behördliche Genehmigungen
Holen Sie frühzeitig die Genehmigungen von Ihren Informationssicherheits-, Risiko- und Compliance-Teams ein. Berücksichtigen Sie alle spezifischen Risiko- und Compliance-Regeln, insbesondere in regulierten Branchen wie dem Gesundheits- und Finanzwesen.
Standort-Verfügbarkeit
Google- und Partnermodelle sowie generative KI-Funktionen in Vertex AI sind über bestimmte regionale Endpunkte und einen globalen Endpunkt verfügbar. Globale Endpunkte decken die ganze Welt ab und bieten im Vergleich zu einzelnen Regionen eine höhere Verfügbarkeit und Zuverlässigkeit.
Die regionale Verfügbarkeit von Endpunkten variiert je nach Modell. Weitere Informationen zu den einzelnen Modellen finden Sie in unserem Leitfaden zu Standorten.
Preisunterschiede aufgrund von Modalität und Tokenisierung
Die Preise variieren je nach Gemini-Modell. Auf unserer Preisseite finden Sie die Kosten für alle Modalitäten (Text, Code, Bilder, Sprache usw.) pro Modell.
Provisioned Throughput-Bestellungen kaufen oder ändern
Bei Bedarf können Sie zusätzlichen bereitgestellten Durchsatz erwerben oder bestehende Bestellungen für bereitgestellten Durchsatz ändern.
Überwachte Feinabstimmung
Die neuesten Gemini-Modelle bieten eine bessere Ausgabequalität. Das kann bedeuten, dass für Ihre Anwendung kein feinabgestimmtes Modell mehr erforderlich ist. Wenn Ihre Anwendung überwachte Feinabstimmung mit einem älteren Gemini-Modell verwendet, testen Sie sie zuerst mit dem neuesten Modell ohne Feinabstimmung und bewerten Sie die Ergebnisse.
Wenn Sie die überwachte Feinabstimmung verwenden, können Sie Ihr vorhandenes optimiertes Modell nicht aus älteren Gemini-Versionen übertragen. Sie müssen einen neuen Abstimmungsjob für die neue Gemini-Version ausführen.
Beginnen Sie beim Abstimmen eines neuen Gemini-Modells mit den Standardeinstellungen für die Abstimmung. Verwenden Sie keine Hyperparameterwerte aus früheren Gemini-Versionen wieder, da der Abstimmungsdienst für die neuesten Versionen optimiert ist. Wenn Sie alte Einstellungen wiederverwenden, erzielen Sie wahrscheinlich keine optimalen Ergebnisse.
Regressionstests
Beim Upgrade auf die aktuelle Gemini-Version benötigen Sie drei Haupttypen von Regressionstests:
- Code-Regressionstests:Regressionstests aus der Sicht von Software-Engineering und Developer Operations (DevOps). Diese Art von Regressionstests ist immer erforderlich.
-
Regressionstests für die Modellleistung:Regressionstests aus Data-Science- oder Machine-Learning-Sicht. Das bedeutet, dass die neue Gemini-Modellversion Ausgaben liefern muss, die mindestens die gleiche Qualität wie die vorherige Version haben.
Regressionstests für die Modellleistung sind Modellbewertungen, die durchgeführt werden, wenn sich ein System oder das zugrunde liegende Modell ändert. Sie enthalten Folgendes:
- Offline-Leistungstests:Tests, mit denen die Qualität der Modellausgaben in einer dedizierten Testumgebung anhand verschiedener Qualitätsmesswerte für Modellausgaben überprüft wird.
- Onlinemodell-Leistungstests:Tests, die die Qualität der Modellausgaben in einer Live-Onlinebereitstellung auf der Grundlage von implizitem oder explizitem Nutzerfeedback bestätigen.
- Lasttests:Bei diesen Tests wird geprüft, wie gut die Anwendung mit vielen Anfragen gleichzeitig umgeht. Lasttests sind für Anwendungen erforderlich, die bereitgestellten Durchsatz verwenden.
Zur neuesten Version migrieren
In den folgenden Abschnitten werden die Schritte für die Migration zur neuesten Gemini-Version beschrieben. Für optimale Ergebnisse sollten Sie die folgenden Schritte in der angegebenen Reihenfolge ausführen.
1. Anforderungen an die Bewertung und das Testen von Dokumentmodellen
- Bereiten Sie sich darauf vor, alle relevanten Bewertungen zu wiederholen, die Sie bei der ersten Entwicklung Ihrer Anwendung durchgeführt haben, sowie alle Bewertungen, die seitdem durchgeführt wurden.
- Wenn Ihre aktuellen Bewertungen nicht alle Aufgaben abdecken oder messen, die Ihre Anwendung ausführt, sollten Sie weitere Bewertungen konzipieren und vorbereiten. Unser Evaluierungs-Playbook und unsere Evaluierungsrezepte können Ihnen den Einstieg erleichtern.
- Wenn Ihre Anwendung RAG, die Verwendung von Tools, komplexe Agent-Workflows oder Prompt-Ketten umfasst, müssen Sie dafür sorgen, dass Ihre vorhandenen Auswertungsdaten eine unabhängige Bewertung jeder Komponente ermöglichen. Wenn nicht, sammeln Sie Eingabe-Ausgabe-Beispiele für jede Komponente.
- Wenn Ihre Anwendung kritisch ist oder Teil eines größeren, nutzerorientierten Echtzeitsystems ist, sollten Sie eine Online-Auswertung einbeziehen.
2. Code aktualisieren und Tests ausführen
Für die Aktualisierung Ihres Codes sind drei Hauptänderungen erforderlich:
In den folgenden Abschnitten werden diese Änderungen näher erläutert.
Auf das Google Gen AI SDK aktualisieren
Wenn Ihre Gemini 1.x-Anwendung das Vertex AI SDK verwendet, wechseln Sie zum Gen AI SDK. Weitere Informationen, einschließlich Codebeispielen für ähnliche Aufrufe mit dem Gen AI SDK, finden Sie in unserem Migrationsleitfaden für das Vertex AI SDK. Vertex AI SDK-Releases nach Juni 2026 unterstützen Gemini nicht mehr und neue Gemini-Funktionen sind nur im Gen AI SDK verfügbar.
Wenn Sie das Gen AI SDK noch nicht kennen, sehen Sie sich das Notebook Erste Schritte mit der generativen KI von Google und dem Gen AI SDK an.
Gemini-Anrufe ändern
Aktualisieren Sie Ihren Vorhersagecode, um eines der neuesten Gemini-Modelle zu verwenden. Das bedeutet mindestens, dass Sie den Namen des Modellendpunkts ändern müssen.
Die genauen Codeänderungen hängen davon ab, wie Sie Ihre Anwendung erstellt haben, insbesondere davon, ob Sie das Gen AI SDK oder das Vertex AI SDK verwendet haben.
Führen Sie nach dem Ändern des Codes Code-Regressionstests und andere Softwaretests durch, um sicherzustellen, dass der Code wie erwartet funktioniert. In diesem Schritt wird geprüft, ob der Code funktioniert, aber nicht die Qualität der Modellantworten.
Fehlerhafte Codeänderungen beheben
- Dynamischer Abruf: Wechseln Sie zur Fundierung mit der Google Suche. Für diese Funktion ist das Gen AI SDK erforderlich. Sie wird vom Vertex AI SDK nicht unterstützt.
- Inhaltsfilter: Beachten Sie die Standardeinstellungen für Inhaltsfilter. Ändern Sie Ihren Code, wenn er auf einem Standardwert basiert, der sich geändert hat.
Top-K-Parameter für das Token-Sampling: Bei Modellen nachgemini-1.0-pro-visionwird das Ändern desTop-K-Parameters nicht unterstützt.- Thinking: Gemini 3 Pro und höhere Modelle verwenden den Parameter
thinking_levelanstelle vonthinking_budget. Weitere Informationen finden Sie unter Kontrollmodell. - Gedankensignaturen: Bei Gemini 3 Pro und späteren Modellen gibt das Modell einen Fehler anstelle einer Warnung zurück, wenn in einem Zug eine Gedankensignatur erwartet wird, aber nicht angegeben ist. Weitere Informationen finden Sie unter Gedankensignaturen.
- Media-Auflösung und Tokenisierung: Gemini 3 Pro und neuere Modelle verwenden für die Media-Tokenisierung eine variable Sequenzlänge anstelle von „Pan and Scan“ und haben neue Standardauflösungen und Tokenkosten für Bilder, PDFs und Videos. Weitere Informationen finden Sie unter Bildverständnis und Video-Verständnis.
- Nutzungsmetadaten: Bei Gemini 3 Pro und späteren Modellen werden PDF-Tokenanzahlen in
usage_metadataunter der ModalitätIMAGEanstelle vonDOCUMENTgemeldet. - Bildsegmentierung: Die Bildsegmentierung wird von Gemini 3 Pro und neueren Modellen nicht unterstützt.
- Multimodale Funktionsantworten: Bei Gemini 3 Pro und späteren Modellen können Sie Bild- und PDF-Daten in Funktionsantworten einfügen. Weitere Informationen
- PDF-Verarbeitung: Bei Gemini 3 Pro und späteren Modellen wird OCR bei der Verarbeitung gescannter PDFs nicht standardmäßig verwendet.
Konzentrieren Sie sich in diesem Schritt nur auf Codeänderungen. Möglicherweise müssen Sie später noch weitere Änderungen vornehmen. Warten Sie aber, bis Sie mit der Bewertung beginnen. Nach der Auswertung sollten Sie die folgenden Anpassungen auf Grundlage der Ergebnisse in Betracht ziehen:
- Wenn Sie von der dynamischen Abfrage wechseln, müssen Sie möglicherweise Ihre Systemanweisungen anpassen, um zu steuern, wann die Google Suche verwendet wird (z. B.
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Warten Sie jedoch mit dem Ändern von Prompts, bis Sie die Ergebnisse ausgewertet haben. - Wenn Sie den Parameter
Top-Kverwendet haben, passen Sie andere Parameter für das Token-Sampling an, z. B.Top-P, um ähnliche Ergebnisse zu erhalten.
3. Offline-Evaluierungen durchführen
Wiederholen Sie die Auswertungen, die Sie bei der ersten Entwicklung und Einführung Ihrer App durchgeführt haben, alle seitdem durchgeführten Offline-Auswertungen und alle zusätzlichen Auswertungen, die Sie in Schritt 1 ermittelt haben. Wenn Sie der Meinung sind, dass Ihre Bewertung den Anwendungsbereich Ihrer Anwendung nicht vollständig abdeckt, führen Sie weitere Bewertungen durch.
Wenn Sie keine automatisierte Methode zum Ausführen von Offlinebewertungen haben, sollten Sie den Gen AI Evaluation Service verwenden.
Wenn Ihre Anwendung die Feinabstimmung verwendet, führen Sie eine Offline-Bewertung durch, bevor Sie Ihr Modell mit der neuesten Version von Gemini neu abstimmen. Die neuesten Modelle bieten eine verbesserte Ausgabequalität. Das bedeutet, dass Ihre Anwendung möglicherweise kein feinabgestimmtes Modell mehr benötigt.
4. Bewertungsergebnisse analysieren und Prompts und Hyperparameter optimieren
Wenn bei der Offlinebewertung festgestellt wird, dass Ihre Anwendung weniger effektiv ist, sollten Sie sie optimieren, bis ihre Leistung dem alten Modell entspricht. So gehen Sie vor:
- Sie verfeinern Ihre Prompts iterativ, um die Leistung zu steigern („Hill Climbing“). Wenn Sie mit Hill Climbing noch nicht vertraut sind, lesen Sie den Onlinekurs zu Vertex Gemini Hill Climbing. Der Vertex AI Prompt-Optimierer (Beispielnotebook) kann ebenfalls hilfreich sein.
- Wenn Ihre Anwendung von den Breaking Changes für Dynamic Retrieval und Top-K betroffen ist, können Sie versuchen, die Parameter für Prompt und Token-Sampling anzupassen.
5. Lasttests ausführen
Wenn Ihre Anwendung einen bestimmten Mindestdurchsatz benötigt, führen Sie Lasttests durch, um sicherzustellen, dass die aktuelle Version Ihrer Anwendung die Durchsatzanforderungen erfüllt.
Lasttests müssen vor der Onlinebewertung erfolgen, da bei der Onlinebewertung das Modell dem Live-Traffic ausgesetzt wird. Verwenden Sie für diesen Schritt Ihre vorhandenen Lasttesttools und Instrumentierung.
Wenn Ihre Anwendung bereits die Anforderungen an den Durchsatz erfüllt, sollten Sie Provisioned Throughput verwenden. Sie benötigen zusätzlichen kurzfristigen bereitgestellten Durchsatz, um Lastentests durchzuführen, während mit Ihrer aktuellen Bestellung für bereitgestellten Durchsatz der Produktions-Traffic abgewickelt wird.
6. (Optional) Online-Bewertungen durchführen
Wechseln Sie nur dann zur Online-Bewertung, wenn Ihre Offline-Bewertung eine hohe Gemini-Ausgabequalität zeigt und Ihre Anwendung eine Online-Bewertung erfordert.
Die Onlinebewertung ist eine spezielle Art von Onlinetests. Verwenden Sie die vorhandenen Tools und Methoden Ihrer Organisation für die Onlinebewertung. Beispiel:
- Wenn in Ihrer Organisation regelmäßig A/B-Tests durchgeführt werden, führen Sie einen durch, um die aktuelle Version Ihrer Anwendung mit der neuesten Gemini-Version zu vergleichen.
- Wenn Ihre Organisation regelmäßig Canary-Bereitstellungen verwendet, sollten Sie sie mit den neuesten Modellen nutzen und Änderungen im Nutzerverhalten messen.
Sie können auch eine Online-Bewertung durchführen, indem Sie Ihrer Anwendung neue Feedback- und Messfunktionen hinzufügen. Für verschiedene Anwendungen sind unterschiedliche Feedbackmethoden erforderlich. Beispiel:
- Wir fügen neben den Modellausgaben Schaltflächen für „Mag ich“ und „Mag ich nicht“ hinzu und vergleichen die Raten zwischen einem älteren Modell und den neuesten Gemini-Modellen.
- Nutzern werden Ausgaben des älteren und der neuesten Modelle nebeneinander angezeigt und sie werden gebeten, ihren Favoriten auszuwählen.
- Wir erfassen, wie oft Nutzer Ausgaben des alten Modells im Vergleich zu den neuesten Modellen überschreiben oder manuell anpassen.
Für diese Feedbackmethoden ist es oft erforderlich, die aktuelle Gemini-Version neben Ihrer vorhandenen Version auszuführen. Diese parallele Bereitstellung wird manchmal als „Schattenmodus“ oder „Blue-Green-Bereitstellung“ bezeichnet.
Wenn sich die Ergebnisse der Online-Bewertung stark von den Ergebnissen der Offline-Bewertung unterscheiden, werden in Ihrer Offline-Bewertung wichtige Aspekte der Live-Umgebung oder der Nutzererfahrung nicht berücksichtigt. Wenden Sie die Ergebnisse der Online-Bewertung an, um eine neue Offline-Bewertung zu erstellen, die die Lücke abdeckt. Fahren Sie dann mit Schritt 3 fort.
Wenn Sie Provisioned Throughput verwenden, müssen Sie möglicherweise zusätzlichen kurzfristigen Provisioned Throughput erwerben, um weiterhin die Durchsatzanforderungen für Nutzer bei der Onlinebewertung zu erfüllen.
7. Für die Produktion bereitstellen
Wenn die Auswertung ergibt, dass das aktuelle Gemini-Modell genauso gut oder besser als ein älteres Modell funktioniert, ersetzen Sie die vorhandene Anwendungsversion durch die neue Version. Folgen Sie den Standardverfahren Ihrer Organisation für die Produktionsbereitstellung.
Wenn Sie Bereitgestellter Durchsatz verwenden, ändern Sie die Bestellung für den bereitgestellten Durchsatz in das von Ihnen ausgewählte Gemini-Modell. Wenn Sie Ihre Anwendung inkrementell einführen, können Sie kurzfristigen bereitgestellten Durchsatz verwenden, um den Durchsatzbedarf für zwei verschiedene Gemini-Modelle zu decken.
Modellleistung verbessern
Wenden Sie bei der Migration die folgenden Tipps an, um die optimale Leistung des ausgewählten Gemini-Modells zu erzielen:
- Für Gemini 3 Pro und neuere Modelle empfiehlt Google dringend, den Parameter
temperatureauf dem Standardwert1.0zu belassen. Bei früheren Modellen war es oft sinnvoll, die Temperatur anzupassen, um die Kreativität im Vergleich zum Determinismus zu steuern. Die Schlussfolgerungsfähigkeiten von Gemini 3 Pro und späteren Modellen sind jedoch für die Standardeinstellung optimiert. Wenn Sie die Temperatur ändern (auf einen Wert unter1.0), kann es zu unerwartetem Verhalten kommen, z. B. zu Schleifen oder einer schlechteren Leistung, insbesondere bei komplexen mathematischen oder logischen Aufgaben. - Prüfen Sie Ihre Systemanweisungen, Prompts und Beispiele für Few-Shot Learning auf Inkonsistenzen, Widersprüche oder irrelevante Anweisungen und Beispiele.
- Leistungsstärkeres Modell testen Wenn Sie beispielsweise Gemini 2.0 Flash-Lite getestet haben, probieren Sie Gemini 2.0 Flash aus.
- Überprüfen Sie die Ergebnisse der automatischen Bewertung, um sicherzustellen, dass sie mit der menschlichen Bewertung übereinstimmen, insbesondere Ergebnisse, die ein judge-Modell verwenden. Achten Sie darauf, dass die Anweisungen für Ihr Judge-Modell klar, konsistent und eindeutig sind.
- Um die Anweisungen für das Judge-Modell zu verbessern, sollten Sie sie von mehreren Personen testen lassen, die unabhängig voneinander arbeiten. Wenn Menschen die Anweisungen unterschiedlich interpretieren und unterschiedliche Bewertungen abgeben, sind die Anweisungen für Ihr Judge-Modell unklar.
- Modell-Feinabstimmung
- Untersuchen Sie die Ausgaben der Auswertung auf Muster, die auf bestimmte Arten von Fehlern hinweisen. Wenn Sie Fehler nach Modell, Typ oder Kategorie gruppieren, erhalten Sie gezieltere Auswertungsdaten, mit denen sich Prompts leichter anpassen lassen, um diese Fehler zu beheben.
- Achten Sie darauf, dass Sie verschiedene generative KI-Komponenten unabhängig voneinander bewerten.
- Experimentieren Sie mit der Anpassung der Token-Sampling-Parameter.
Hilfe
Wenn Sie Unterstützung benötigen, bietet Google Cloud Supportpakete für Ihre Anforderungen, etwa Rund-um-die-Uhr-Verfügbarkeit, Telefonsupport und Kontakt mit einem technischen Supportmanager. Weitere Informationen finden Sie unter Google Cloud Support.