Zur neuesten Version von Gemini migrieren

In diesem Leitfaden wird beschrieben, wie Sie Ihre Anwendung auf die neueste Gemini-Version aktualisieren. In diesem Leitfaden wird davon ausgegangen, dass Ihre Anwendung bereits eine ältere Gemini-Version verwendet. Informationen zu den ersten Schritten mit Gemini in Vertex AI finden Sie in der Kurzanleitung zur Gemini API in Vertex AI.

In dieser Anleitung wird nicht beschrieben, wie Sie Ihre Anwendung vom Vertex AI SDK zum aktuellen Google Gen AI SDK umstellen. Weitere Informationen finden Sie in unserem Migrationsleitfaden für das Vertex AI SDK.

Welche Änderungen sind zu erwarten?

Für die Aktualisierung der meisten generativen KI-Anwendungen auf die aktuelle Gemini-Version sind nur wenige Code- oder Prompt-Änderungen erforderlich. Bei einigen Anwendungen sind jedoch möglicherweise Anpassungen des Prompts erforderlich. Es ist schwierig, diese Änderungen vorherzusagen, ohne Ihre Prompts zuerst mit der neuen Version zu testen. Wir empfehlen, vor der vollständigen Migration gründliche Tests durchzuführen. Tipps zum Erstellen effektiver Prompts Mit unserer Checkliste für die Qualität von Prompts können Sie Probleme mit Prompts finden und beheben.

Größere Codeänderungen sind nur bei bestimmten Breaking Changes oder bei der Verwendung neuer Gemini-Funktionen erforderlich.

Zu welchem Gemini-Modell sollte ich migrieren?

Welches Gemini-Modell Sie verwenden, hängt von den Anforderungen Ihrer Anwendung ab. In der folgenden Tabelle werden die älteren Gemini 1.5-Modelle mit den neuesten Gemini-Modellen verglichen:

Funktion	1.5 Pro	1.5 Flash	2.0 Flash	2.0 Flash-Lite	2.5 Pro	2.5 Flash	2.5 Flash-Lite	3 Pro
Startphase	Nicht mehr unterstützt	Nicht mehr unterstützt	GA	GA	GA	GA	GA	Vorschau
Eingabemodalitäten	Text, Code, Bilder, Audio, Video	Text, Code, Bilder, Audio, Video	Text, Code, Bilder, Audio, Video	Text, Code, Bilder, Audio, Video	Text, Code, Bilder, Audio, Video	Text, Code, Bilder, Audio, Video	Text, Code, Bilder, Audio, Video	Text, Code, Bilder, Audio, Video, PDF
Ausgabemodalitäten	Text	Text	Text	Text	Text	Text	Text	Text
Kontextfenster, Gesamttokenlimit	2.097.152	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576
Länge des Ausgabekontexts	8.192 (Standard)	8.192 (Standard)	8.192 (Standard)	8.192 (Standard)	65.535 (Standard)	65.535 (Standard)	65.535 (Standard)	65.536
Fundierung mit der Google Suche
Funktionsaufrufe
Codeausführung
Implizites Kontext-Caching
Explizites Kontext-Caching
Batchvorhersage
Gemini Live API
Feinabstimmung
Latenz
Empfohlenes SDK	Vertex AI SDK	Vertex AI SDK	Gen AI SDK	Gen AI SDK	Gen AI SDK	Gen AI SDK	Gen AI SDK	Gen AI SDK
Preiseinheiten	Zeichen	Zeichen	Token	Token	Token	Token	Token	Token
Einstellungsdatum	24. September 2025	24. September 2025	3. März 2026	3. März 2026	17. Juni 2026	17. Juni 2026	22. Juli 2026

Vor der Migration

Bevor Sie mit der Migration beginnen, sollten Sie Folgendes beachten:

Informationssicherheit (InfoSec), Governance und behördliche Genehmigungen
Verfügbarkeit nach Standort
Preisunterschiede aufgrund von Modalität und Tokenisierung
Provisioned Throughput-Aufträge kaufen oder ändern
Überwachte Feinabstimmung
Regressionstests

InfoSec, Governance und behördliche Genehmigungen

Holen Sie frühzeitig die Genehmigungen von Ihren Informationssicherheits-, Risiko- und Compliance-Teams ein. Berücksichtigen Sie alle spezifischen Risiko- und Compliance-Regeln, insbesondere in regulierten Branchen wie dem Gesundheitswesen und dem Finanzwesen.

Standort-Verfügbarkeit

Google- und Partnermodelle sowie generative KI-Funktionen in Vertex AI sind über bestimmte regionale Endpunkte und einen globalen Endpunkt verfügbar. Globale Endpunkte decken die ganze Welt ab und bieten im Vergleich zu einzelnen Regionen eine höhere Verfügbarkeit und Zuverlässigkeit.

Die regionale Verfügbarkeit von Endpunkten variiert je nach Modell. Weitere Informationen zu den einzelnen Modellen finden Sie in unserem Leitfaden zu Standorten.

Preisunterschiede aufgrund von Modalität und Tokenisierung

Die Preise variieren je nach Gemini-Modell. Auf unserer Preisseite finden Sie die Kosten für alle Modalitäten (Text, Code, Bilder, Sprache usw.) pro Modell.

Provisioned Throughput-Bestellungen kaufen oder ändern

Bei Bedarf können Sie zusätzlichen bereitgestellten Durchsatz erwerben oder bestehende Bestellungen für bereitgestellten Durchsatz ändern.

Überwachte Feinabstimmung

Die neuesten Gemini-Modelle bieten eine bessere Ausgabequalität. Das kann bedeuten, dass für Ihre Anwendung kein feinabgestimmtes Modell mehr erforderlich ist. Wenn Ihre Anwendung überwachte Feinabstimmung mit einem älteren Gemini-Modell verwendet, testen Sie sie zuerst mit dem neuesten Modell ohne Feinabstimmung und bewerten Sie die Ergebnisse.

Wenn Sie die überwachte Feinabstimmung verwenden, können Sie Ihr vorhandenes optimiertes Modell nicht aus älteren Gemini-Versionen übertragen. Sie müssen einen neuen Abstimmungsjob für die neue Gemini-Version ausführen.

Beginnen Sie beim Abstimmen eines neuen Gemini-Modells mit den Standardeinstellungen für die Abstimmung. Verwenden Sie keine Hyperparameterwerte aus früheren Gemini-Versionen, da der Abstimmungsdienst für die neuesten Versionen optimiert ist. Wenn Sie alte Einstellungen wiederverwenden, erzielen Sie wahrscheinlich keine optimalen Ergebnisse.

Regressionstests

Beim Upgrade auf die aktuelle Gemini-Version benötigen Sie drei Haupttypen von Regressionstests:

Code-Regressionstests:Regressionstests aus der Perspektive von Softwareentwicklung und Developer Operations (DevOps). Diese Art von Regressionstests ist immer erforderlich.
Regressionstests für die Modellleistung:Regressionstests aus Data-Science- oder Machine-Learning-Sicht. Das bedeutet, dass die neue Gemini-Modellversion Ausgaben liefert, die mindestens die gleiche Qualität wie die vorherige Version haben.

Regressionstests für die Modellleistung sind Modellbewertungen, die durchgeführt werden, wenn sich ein System oder das zugrunde liegende Modell ändert. Sie enthalten Folgendes:
- Offline-Leistungstests:Tests, mit denen die Qualität der Modellausgaben in einer dedizierten Testumgebung anhand verschiedener Qualitätsmesswerte für Modellausgaben überprüft wird.
- Onlinemodell-Leistungstests:Tests, mit denen die Qualität der Modellausgaben in einer Live-Onlinebereitstellung auf der Grundlage von implizitem oder explizitem Nutzerfeedback überprüft wird.
Lasttests:Bei diesen Tests wird geprüft, wie gut die Anwendung mit vielen Anfragen gleichzeitig umgeht. Lasttests sind für Anwendungen erforderlich, die bereitgestellten Durchsatz verwenden.

Zur neuesten Version migrieren

In den folgenden Abschnitten werden die Schritte für die Migration zur neuesten Gemini-Version beschrieben. Für optimale Ergebnisse sollten Sie die folgenden Schritte in der angegebenen Reihenfolge ausführen.

1. Anforderungen an die Bewertung und das Testen von Dokumentmodellen

Bereiten Sie sich darauf vor, alle relevanten Bewertungen zu wiederholen, die Sie bei der ersten Entwicklung Ihrer Anwendung durchgeführt haben, sowie alle Bewertungen, die seitdem durchgeführt wurden.
Wenn Ihre aktuellen Bewertungen nicht alle Aufgaben abdecken oder messen, die Ihre Anwendung ausführt, sollten Sie weitere Bewertungen konzipieren und vorbereiten. Unser Evaluierungs-Playbook und unsere Evaluierungsrezepte können Ihnen den Einstieg erleichtern.
Wenn Ihre Anwendung RAG, die Verwendung von Tools, komplexe Agenten-Workflows oder Prompt-Ketten umfasst, müssen Sie dafür sorgen, dass Ihre vorhandenen Auswertungsdaten eine unabhängige Bewertung jeder Komponente ermöglichen. Wenn nicht, sammeln Sie Eingabe-Ausgabe-Beispiele für jede Komponente.
Wenn Ihre Anwendung kritisch ist oder Teil eines größeren, nutzerorientierten Echtzeitsystems ist, sollten Sie eine Online-Bewertung einbeziehen.

2. Code aktualisieren und Tests ausführen

Für die Aktualisierung Ihres Codes sind drei Hauptänderungen erforderlich:

Auf das Google Gen AI SDK umstellen
Gemini-Anrufe ändern
Fehlerhafte Codeänderungen beheben

In den folgenden Abschnitten werden diese Änderungen näher erläutert.

Auf das Google Gen AI SDK umstellen

Wenn Ihre Gemini 1.x-Anwendung das Vertex AI SDK verwendet, wechseln Sie zum Gen AI SDK. Weitere Informationen, einschließlich Codebeispielen für ähnliche Aufrufe mit dem Gen AI SDK, finden Sie in unserem Migrationsleitfaden für das Vertex AI SDK. Vertex AI SDK-Releases nach Juni 2026 unterstützen Gemini nicht mehr und neue Gemini-Funktionen sind nur im Gen AI SDK verfügbar.

Wenn Sie das Gen AI SDK noch nicht kennen, sehen Sie sich das Notebook Erste Schritte mit der generativen KI von Google und dem Gen AI SDK an.

Gemini-Anrufe ändern

Aktualisieren Sie Ihren Vorhersagecode, damit eines der neuesten Gemini-Modelle verwendet wird. Das bedeutet mindestens, dass Sie den Namen des Modellendpunkts ändern müssen.

Die genauen Codeänderungen hängen davon ab, wie Sie Ihre Anwendung erstellt haben, insbesondere davon, ob Sie das Gen AI SDK oder das Vertex AI SDK verwendet haben.

Führen Sie nach dem Ändern des Codes Code-Regressionstests und andere Softwaretests durch, um sicherzustellen, dass der Code wie erwartet funktioniert. In diesem Schritt wird geprüft, ob der Code funktioniert, aber nicht die Qualität der Modellantworten.

Fehlerhafte Codeänderungen beheben

Dynamischer Abruf: Wechseln Sie zur Fundierung mit der Google Suche. Für diese Funktion ist das Gen AI SDK erforderlich. Sie wird vom Vertex AI SDK nicht unterstützt.
Inhaltsfilter: Beachten Sie die Standardeinstellungen für Inhaltsfilter. Ändern Sie Ihren Code, wenn er auf einem Standard basiert, der sich geändert hat.
Top-K-Parameter für das Token-Sampling: Bei Modellen nach gemini-1.0-pro-vision wird das Ändern des Top-K-Parameters nicht unterstützt.
Thinking: Bei Gemini 3 Pro und neueren Modellen wird der Parameter thinking_level anstelle von thinking_budget verwendet. Weitere Informationen finden Sie unter Kontrollmodell.
Gedankensignaturen: Bei Gemini 3 Pro und späteren Modellen gibt das Modell einen Fehler anstelle einer Warnung zurück, wenn in einem Zug eine Gedankensignatur erwartet wird, aber nicht angegeben ist. Weitere Informationen finden Sie unter Gedankensignaturen.
Media-Auflösung und Tokenisierung: Gemini 3 Pro und neuere Modelle verwenden für die Media-Tokenisierung eine variable Sequenzlänge anstelle von „Pan and Scan“ und haben neue Standardauflösungen und Tokenkosten für Bilder, PDFs und Videos. Weitere Informationen finden Sie unter Bildverständnis und Video-Verständnis.
Nutzungsmetadaten: Bei Gemini 3 Pro und späteren Modellen werden PDF-Tokenanzahlen in usage_metadata unter der Modalität IMAGE anstelle von DOCUMENT gemeldet.
Bildsegmentierung: Die Bildsegmentierung wird von Gemini 3 Pro und neueren Modellen nicht unterstützt.
Multimodale Funktionsantworten: Bei Gemini 3 Pro und neueren Modellen können Sie Bild- und PDF-Daten in Funktionsantworten einfügen. Weitere Informationen
PDF-Verarbeitung: Bei Gemini 3 Pro und späteren Modellen wird OCR bei der Verarbeitung gescannter PDFs nicht standardmäßig verwendet.

Konzentrieren Sie sich in diesem Schritt nur auf Codeänderungen. Möglicherweise müssen Sie später noch weitere Änderungen vornehmen. Warten Sie aber, bis Sie mit der Bewertung beginnen. Nach der Auswertung sollten Sie die folgenden Anpassungen auf Grundlage der Ergebnisse in Betracht ziehen:

Wenn Sie von der dynamischen Abfrage wechseln, müssen Sie möglicherweise Ihre Systemanweisungen anpassen, um zu steuern, wann die Google Suche verwendet wird (z. B. "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Warten Sie jedoch mit dem Ändern von Prompts, bis Sie die Ergebnisse ausgewertet haben.
Wenn Sie den Parameter Top-K verwendet haben, passen Sie andere Parameter für das Token-Sampling an, z. B. Top-P, um ähnliche Ergebnisse zu erhalten.

3. Offline-Evaluierungen durchführen

Wiederholen Sie die Auswertungen, die Sie bei der ersten Entwicklung und Einführung Ihrer App durchgeführt haben, alle seitdem durchgeführten Offline-Auswertungen und alle zusätzlichen Auswertungen, die Sie in Schritt 1 ermittelt haben. Wenn Sie der Meinung sind, dass Ihre Bewertung den Anwendungsbereich Ihrer Anwendung nicht vollständig abdeckt, führen Sie weitere Bewertungen durch.

Wenn Sie keine automatisierte Methode zum Ausführen von Offlinebewertungen haben, sollten Sie den Gen AI Evaluation Service verwenden.

Wenn Ihre Anwendung die Feinabstimmung verwendet, führen Sie eine Offline-Bewertung durch, bevor Sie Ihr Modell mit der neuesten Version von Gemini neu abstimmen. Die neuesten Modelle bieten eine verbesserte Ausgabequalität. Das bedeutet, dass Ihre Anwendung möglicherweise kein feinabgestimmtes Modell mehr benötigt.

4. Bewertungsergebnisse analysieren und Prompts und Hyperparameter optimieren

Wenn die Offlinebewertung zeigt, dass Ihre Anwendung weniger effektiv ist, sollten Sie sie verbessern, bis ihre Leistung dem älteren Modell entspricht. So gehen Sie vor:

Sie verfeinern Ihre Prompts iterativ, um die Leistung zu steigern („Hill Climbing“). Wenn Sie mit Hill Climbing noch nicht vertraut sind, lesen Sie den Onlinekurs zu Vertex Gemini Hill Climbing. Der Vertex AI Prompt-Optimierer (Beispielnotebook) kann ebenfalls hilfreich sein.
Wenn Ihre Anwendung von den Breaking Changes für Dynamic Retrieval und Top-K betroffen ist, können Sie versuchen, die Parameter für Prompt und Token-Sampling anzupassen.

5. Lasttests ausführen

Wenn Ihre Anwendung einen bestimmten Mindestdurchsatz benötigt, führen Sie Lasttests durch, um sicherzustellen, dass die aktuelle Version Ihrer Anwendung die Durchsatzanforderungen erfüllt.

Lasttests müssen vor der Onlinebewertung erfolgen, da bei der Onlinebewertung das Modell Live-Traffic ausgesetzt wird. Verwenden Sie für diesen Schritt Ihre vorhandenen Lasttesttools und Instrumentierung.

Wenn Ihre Anwendung bereits die Anforderungen an den Durchsatz erfüllt, sollten Sie Provisioned Throughput verwenden. Sie benötigen zusätzlichen kurzfristigen bereitgestellten Durchsatz, um Lastentests durchzuführen, während mit Ihrer aktuellen Bestellung für bereitgestellten Durchsatz der Produktions-Traffic abgewickelt wird.

6. (Optional) Online-Bewertungen durchführen

Wechseln Sie erst dann zur Online-Bewertung, wenn Ihre Offline-Bewertung eine hohe Qualität der Gemini-Ausgabe zeigt und Ihre Anwendung eine Online-Bewertung erfordert.

Die Onlinebewertung ist eine spezielle Art von Onlinetests. Verwenden Sie die vorhandenen Tools und Methoden Ihrer Organisation für die Onlinebewertung. Beispiel:

Wenn in Ihrer Organisation regelmäßig A/B-Tests durchgeführt werden, führen Sie einen durch, um die aktuelle Version Ihrer Anwendung mit der neuesten Gemini-Version zu vergleichen.
Wenn Ihre Organisation regelmäßig Canary-Bereitstellungen verwendet, sollten Sie sie mit den neuesten Modellen nutzen und Änderungen im Nutzerverhalten messen.

Sie können auch eine Online-Bewertung durchführen, indem Sie Ihrer Anwendung neue Feedback- und Messfunktionen hinzufügen. Für verschiedene Anwendungen sind unterschiedliche Feedbackmethoden erforderlich. Beispiel:

Wir fügen neben den Modellausgaben Schaltflächen zum Geben von Upvotes und Downvotes hinzu und vergleichen die Raten zwischen einem älteren Modell und den neuesten Gemini-Modellen.
Nutzern werden Ausgaben des älteren und der neuesten Modelle nebeneinander angezeigt und sie werden gebeten, ihren Favoriten auszuwählen.
Wir erfassen, wie oft Nutzer Ausgaben des alten Modells im Vergleich zu den neuesten Modellen überschreiben oder manuell anpassen.

Für diese Feedbackmethoden ist es oft erforderlich, die aktuelle Gemini-Version neben Ihrer vorhandenen Version auszuführen. Diese parallele Bereitstellung wird manchmal auch als „Schattenmodus“ oder „Blau-Grün-Bereitstellung“ bezeichnet.

Wenn sich die Ergebnisse der Online- und Offline-Auswertung stark unterscheiden, werden bei der Offline-Auswertung wichtige Aspekte der Live-Umgebung oder der Nutzererfahrung nicht berücksichtigt. Wenden Sie die Ergebnisse der Online-Bewertung an, um eine neue Offline-Bewertung zu erstellen, die die Lücke abdeckt. Fahren Sie dann mit Schritt 3 fort.

Wenn Sie Provisioned Throughput verwenden, müssen Sie möglicherweise zusätzlichen kurzfristigen Provisioned Throughput erwerben, um weiterhin die Durchsatzanforderungen für Nutzer bei der Onlinebewertung zu erfüllen.

7. Für die Produktion bereitstellen

Wenn die Auswertung ergibt, dass das aktuelle Gemini-Modell genauso gut oder besser als ein älteres Modell funktioniert, ersetzen Sie die vorhandene Anwendungsversion durch die neue Version. Folgen Sie den Standardverfahren Ihrer Organisation für die Produktionsbereitstellung.

Wenn Sie Bereitgestellter Durchsatz verwenden, ändern Sie die Bestellung für den bereitgestellten Durchsatz in das von Ihnen ausgewählte Gemini-Modell. Wenn Sie Ihre Anwendung inkrementell bereitstellen, verwenden Sie kurzfristigen bereitgestellten Durchsatz, um den Durchsatzbedarf für zwei verschiedene Gemini-Modelle zu decken.

Modellleistung verbessern

Beachten Sie bei der Migration die folgenden Tipps, um die optimale Leistung des ausgewählten Gemini-Modells zu erzielen:

Für Gemini 3 Pro und neuere Modelle empfiehlt Google dringend, den Parameter temperature auf dem Standardwert 1.0 zu belassen. Bei früheren Modellen war es oft sinnvoll, die Temperatur anzupassen, um die Kreativität im Vergleich zum Determinismus zu steuern. Die Denkfähigkeiten von Gemini 3 Pro und späteren Modellen sind jedoch für die Standardeinstellung optimiert. Wenn Sie die Temperatur ändern (auf einen Wert unter 1.0), kann dies zu unerwartetem Verhalten führen, z. B. zu Schleifen oder einer schlechteren Leistung, insbesondere bei komplexen mathematischen oder logischen Aufgaben.
Prüfen Sie Ihre Systemanweisungen, Prompts und Beispiele für Few-Shot Learning auf Inkonsistenzen, Widersprüche oder irrelevante Anweisungen und Beispiele.
Leistungsstärkeres Modell testen Wenn Sie beispielsweise Gemini 2.0 Flash-Lite getestet haben, probieren Sie Gemini 2.0 Flash aus.
Überprüfen Sie die Ergebnisse der automatischen Bewertung, um sicherzustellen, dass sie mit der menschlichen Bewertung übereinstimmen, insbesondere Ergebnisse, die ein judge-Modell verwenden. Achten Sie darauf, dass die Anweisungen für Ihr Judge-Modell klar, konsistent und eindeutig sind.
Um die Anweisungen für das Judge-Modell zu verbessern, sollten Sie sie von mehreren Personen testen lassen, die unabhängig voneinander arbeiten. Wenn Menschen die Anweisungen unterschiedlich interpretieren und unterschiedliche Bewertungen abgeben, sind die Anweisungen für Ihr Judge-Modell unklar.
Modell-Feinabstimmung
Untersuchen Sie die Ausgaben der Auswertung auf Muster, die bestimmte Arten von Fehlern aufzeigen. Wenn Sie Fehler nach Modell, Typ oder Kategorie gruppieren, erhalten Sie gezieltere Auswertungsdaten, mit denen sich Prompts leichter anpassen lassen, um diese Fehler zu beheben.
Achten Sie darauf, dass Sie verschiedene generative KI-Komponenten unabhängig voneinander bewerten.
Experimentieren Sie mit der Anpassung der Token-Sampling-Parameter.

Hilfe

Wenn Sie Unterstützung benötigen, bietet Google Cloud Supportpakete für Ihre Anforderungen, etwa Rund-um-die-Uhr-Verfügbarkeit, Telefonsupport und Kontakt mit einem technischen Supportmanager. Weitere Informationen finden Sie unter Google Cloud Support.