このガイドでは、アプリケーションを最新の Gemini バージョンに更新する方法について説明します。このガイドは、すでに古いバージョンの Gemini を使用しているアプリケーションを前提にしています。Gemini Enterprise Agent Platform で Gemini の使用を開始する方法については、Gemini Enterprise Agent Platform の Gemini API のクイックスタートをご覧ください。
このガイドでは、アプリケーションを Agent Platform SDK から現在の Google Gen AI SDK に切り替える方法については説明しません。詳細については、Agent Platform SDK 移行ガイドをご覧ください。
予想される変化
ほとんどの生成 AI アプリケーションを最新の Gemini バージョンに更新する際に、コードやプロンプトの変更はほとんど必要ありません。ただし、一部のアプリケーションでは、プロンプトの調整が必要になる場合があります。新しいバージョンでプロンプトをテストせずに、これらの変更を予測することは困難です。完全に移行する前に、徹底的なテストを実施することをおすすめします。効果的なプロンプトを作成するためのヒントについては、プロンプト戦略のガイダンスをご覧ください。プロンプトの健全性チェックリストを使用して、プロンプトの問題を特定して解決します。
トークン数のレポートの更新
インフラストラクチャのアップグレードにより、以前のシステムではカウントされていなかったレスポンス スキーマや関数呼び出しなどの複雑なメタデータを含む、すべてのリクエスト コンポーネントが正確にキャプチャされるようになったため、報告されるトークン数の増加が予想されます。
大幅なコード変更が必要になるのは、特定の破壊的変更に対応する場合や、新しい Gemini 機能を使用する場合のみです。
どの Gemini モデルに移行すればよいか
使用する Gemini モデルは、アプリケーションのニーズによって異なります。
| 機能 | 2.5 Pro | 2.5 Flash | 2.5 Flash-Lite | 3 Flash | 3.1 Pro | 3.1 Flash-Lite | 3.5 Flash |
|---|---|---|---|---|---|---|---|
| リリース ステージ | 一般提供 | 一般提供 | 一般提供 | プレビュー | プレビュー | 一般提供 | GA |
| 入力モダリティ |
|
|
|
|
|
|
|
| 出力モダリティ |
|
|
|
|
|
|
|
| コンテキスト ウィンドウ、トークンの合計上限 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 |
| 出力コンテキストの長さ | 65,535(デフォルト) | 65,535(デフォルト) | 65,535(デフォルト) | 65,536 | 65,536 | 65,535(デフォルト) | 65,535(デフォルト) |
| Google 検索によるグラウンディング | |||||||
| 関数呼び出し | |||||||
| コードの実行 | |||||||
| 暗黙的なコンテキストのキャッシュ保存 | |||||||
| 明示的なコンテキストのキャッシュ保存 | |||||||
| バッチ予測 | |||||||
| Gemini Live API | |||||||
| ファインチューニング | |||||||
| レイテンシ | |||||||
| 推奨 SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK | Gen AI SDK |
| 料金単位 | トークン | トークン | トークン | トークン | トークン | トークン | トークン |
| 廃止日 | 2026 年 10 月 16 日以降 | 2026 年 10 月 16 日以降 | 2026 年 10 月 16 日以降 |
移行を開始する前に
移行プロセスを開始する前に、次の点を考慮する必要があります。
- 情報セキュリティ(InfoSec)、ガバナンス、規制当局の承認
- ロケーションの対応状況
- モダリティとトークン化に基づく価格差
- プロビジョンド スループットの注文を購入または変更する
- 教師ありファインチューニング
- 回帰テスト
情報セキュリティ、ガバナンス、規制当局の承認
情報セキュリティ(InfoSec)、リスク、コンプライアンスの各チームから早期に承認を得ます。特に医療や金融などの規制の厳しい業界では、特定のリスクとコンプライアンス ルールをすべて網羅します。
ロケーションの対応状況
Gemini Enterprise Agent Platform の Google モデルとパートナー モデル、生成 AI 機能は、特定のリージョン エンドポイントとグローバル エンドポイントで使用できます。グローバル エンドポイントは全世界を対象としており、単一リージョンと比較して可用性と信頼性が向上しています。
リージョン エンドポイントの可用性はモデルによって異なります。各モデルの詳細については、ロケーション ガイドをご覧ください。
モダリティとトークン化に基づく価格差
料金は Gemini モデルごとに異なります。料金ページには、モデルごとのすべてのモダリティ(テキスト、コード、画像、音声など)の費用が記載されています。
プロビジョンド スループットの注文を購入または変更する
必要に応じて、プロビジョンド スループットを追加購入するか、既存のプロビジョンド スループットの注文を変更します。
教師ありファインチューニング
最新の Gemini モデルは、出力の品質が向上しています。これは、アプリケーションでファインチューニング済みモデルが不要になったことを意味する場合があります。アプリケーションで古い Gemini モデルを使用して教師ありファインチューニングを使用している場合は、まずファインチューニングを行わずに最新のモデルでアプリケーションをテストし、結果を評価します。
教師ありファインチューニングを使用する場合、以前の Gemini バージョンから既存のチューニング済みモデルを移動することはできません。新しい Gemini バージョン用に新しいチューニング ジョブを実行する必要があります。
新しい Gemini モデルをチューニングする場合は、デフォルトのチューニング設定から始めます。チューニング サービスは最新バージョン用に最適化されているため、以前の Gemini バージョンのハイパーパラメータ値を再利用しないでください。古い設定を再利用しても、最適な結果が得られる可能性は低くなります。
回帰テスト
最新の Gemini バージョンにアップグレードする場合は、次の 3 種類の回帰テストが必要です。
- コード回帰テスト: ソフトウェア エンジニアリングとデベロッパー オペレーション(DevOps)の観点からの回帰テスト。このタイプのリグレッション テストは常に必要です。
-
モデル パフォーマンスの回帰テスト: データ サイエンスまたは ML の観点からの回帰テスト。つまり、新しい Gemini モデル バージョンが、少なくとも以前のバージョンと同じレベルの品質を維持する出力を提供するようにします。
モデル パフォーマンスの回帰テストは、システムまたはその基盤となるモデルが変更されたときに実行されるモデル評価です。次のようなものがあります。
- オフライン パフォーマンス テスト: さまざまなモデル出力品質指標に基づいて、専用のテスト環境でモデル出力の品質をアサートするテスト。
- オンライン モデルのパフォーマンス テスト: 暗黙的または明示的なユーザー フィードバックに基づいて、ライブのオンライン デプロイでのモデル出力の品質をアサートするテスト。
- 負荷テスト: アプリケーションが多数のリクエストを同時に処理できるかどうかをテストします。負荷テストは、プロビジョンド スループットを使用するアプリケーションに必要です。
最新バージョンに移行する方法
以降のセクションでは、最新の Gemini バージョンに移行する手順について説明します。最適な結果を得るには、次の手順を順番に実施してください。
1. ドキュメント モデルの評価とテストの要件
- アプリケーションを初めてビルドしたときに行った関連する評価と、それ以降に行った評価を繰り返す準備をします。
- 現在の評価でアプリケーションが実行するすべてのタスクを完全にカバーまたは測定できない場合は、評価を設計して準備します。開始にあたっては、Google の評価プレイブックと評価レシピをご参照ください。
- アプリケーションに RAG、ツール使用、複雑なエージェント ワークフロー、プロンプト チェーンが含まれている場合は、既存の評価データで各コンポーネントを個別に評価できることを確認してください。そうでない場合は、各コンポーネントの入出力の例を収集します。
- アプリケーションが重要である場合や、ユーザーが直接使うリアルタイムの大規模システムの一部である場合は、オンライン評価を実施します。
2. コードをアップグレードしてテストを実行する
コードをアップグレードするには、主に次の 3 つの変更が必要です。
以降のセクションでは、これらの変更について詳しく説明します。
Google Gen AI SDK にアップグレードする
Gemini 1.x アプリケーションで Vertex AI SDK を使用している場合は、Gen AI SDK に切り替えます。Gen AI SDK で同様の呼び出しを行うコード例など、詳細については、Vertex AI SDK 移行ガイドをご覧ください。2026 年 6 月以降の Vertex AI SDK のリリースでは Gemini がサポートされず、新しい Gemini 機能は Gen AI SDK でのみ使用できます。
Gemini 3.5 Flash 以降のモデルのすべての新機能を利用するには、google-genai SDK バージョン 2.0.0 以降に更新することを強くおすすめします。
Gen AI SDK を初めて使用する場合は、Gen AI SDK を使用した Google 生成 AI 活用のスタートガイドのノートブックをご覧ください。
Gemini の呼び出しを変更する
最新の Gemini モデルのいずれかを使用するように予測コードを更新します。少なくとも、モデル エンドポイント名を変更する必要があります。
具体的なコードの変更は、アプリケーションの構築方法(特に Gen AI SDK と Vertex AI SDK のどちらを使用したか)によって異なります。
コードを変更したら、コード回帰テストやその他のソフトウェア テストを実行して、コードが期待どおりに機能することを確認します。このステップでは、コードが機能するかどうかを確認しますが、モデルのレスポンスの品質は確認しません。
互換性を損なうコードの変更を修正する
- 動的取得: Google 検索によるグラウンディングの使用に切り替えます。この機能には Gen AI SDK が必要です。Vertex AI SDK ではサポートされていません。
- コンテンツ フィルタ: デフォルトのコンテンツ フィルタ設定に注意してください。変更されたデフォルトに依存している場合は、コードを変更します。
Top-Kトークン サンプリング パラメータ:gemini-1.0-pro-vision以降のモデルでは、Top-Kパラメータの変更はサポートされていません。- 思考モード: Gemini 3 Pro 以降のモデルでは、
thinking_budgetではなくthinking_levelパラメータを使用します。詳細については、モデルの思考モードを制御するをご覧ください。 - 思考署名: Gemini 3 Pro 以降のモデルでは、ターンで思考署名が想定されているにもかかわらず指定されていない場合、モデルは警告ではなくエラーを返します。思考署名をご覧ください。
- メディアの解像度とトークン化: Gemini 3 Pro 以降のモデルでは、メディアのトークン化にパン&スキャンではなく可変シーケンス長が使用され、画像、PDF、動画の新しいデフォルトの解像度とトークン費用が設定されています。画像理解と動画理解をご覧ください。
- 使用状況メタデータ: Gemini 3 Pro 以降のモデルでは、
usage_metadataの PDF トークン数はDOCUMENTではなくIMAGEモダリティで報告されます。 - 画像セグメンテーション: Gemini 3 Pro 以降のモデルでは、画像セグメンテーションはサポートされていません。
- マルチモーダル関数レスポンス: Gemini 3 Pro 以降のモデルでは、関数レスポンスに画像データと PDF データを含めることができます。マルチモーダル関数レスポンスをご覧ください。
- PDF 処理: Gemini 3 Pro 以降のモデルでは、スキャンされた PDF を処理する際に、デフォルトで OCR は使用されません。
このステップでは、コードの変更のみに注目します。後で他の変更が必要になることもありますが、評価を開始するまでお待ちください。評価後、評価結果に基づいて次の調整を検討します。
- 動的取得から切り替える場合は、Google 検索が使用されるタイミングを制御するために、システム指示の調整が必要になることがあります(例:
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic.")。ただし、プロンプトを変更する前に評価を行ってください。 Top-Kパラメータを使用した場合は、Top-Pなどの他のトークン サンプリング パラメータを調整して、同様の結果を取得します。
3. オフライン評価を実行する
アプリケーションを初めて開発してリリースしたときに行った評価、それ以降に行ったオフライン評価、ステップ 1 で特定した追加の評価を繰り返します。評価がアプリの範囲を十分にカバーしていないと思われる場合は、追加の評価を実施します。
オフライン評価を実行する自動化された方法がない場合は、Gen AI Evaluation Service の使用を検討してください。
アプリケーションでファインチューニングを使用している場合は、最新バージョンの Gemini でモデルを再チューニングする前に、オフライン評価を実施します。最新のモデルでは出力の品質が向上しているため、アプリケーションでファインチューニングされたモデルが不要になる可能性があります。
4. 評価結果を評価し、プロンプトとハイパーパラメータを調整する
オフライン評価でアプリケーションのパフォーマンスが低下していることが判明した場合は、パフォーマンスが以前のモデルと同程度になるまでアプリケーションを改善します。手順は次のとおりです。
- プロンプトを繰り返し調整してパフォーマンスを高める(「ヒルクライミング」)。ヒルクライミングを初めて使用する場合は、Vertex Gemini ヒルクライミング オンライン トレーニングをご覧ください。Gemini Enterprise Agent Platform プロンプト オプティマイザー(ノートブックの例)も役立ちます。
- アプリケーションが動的検索と Top-K の破壊的変更の影響を受けている場合は、プロンプトとトークン サンプリング パラメータの調整を試してください。
5. 負荷テストを実行する
アプリケーションに一定の最小スループットが必要な場合は、負荷テストを実施して、アプリケーションの最新バージョンがスループット要件を満たしていることを確認します。
オンライン評価ではモデルをライブ トラフィックに公開するため、オンライン評価の前にロードテストを行う必要があります。このステップでは、既存の負荷テストツールとインストルメンテーションを使用します。
アプリケーションがすでにスループットのニーズを満たしている場合は、プロビジョンド スループットの使用を検討してください。現在のプロビジョンド スループットの注文で本番環境のトラフィックを処理している間、負荷テストをカバーするために、短期のプロビジョンド スループットを追加で確保する必要があります。
6. (省略可)オンライン評価を実行する
オフライン評価で Gemini の出力品質が高いことが確認でき、アプリケーションでオンライン評価が必要な場合にのみ、オンライン評価へ移行してください。
オンライン評価は、オンライン テストの一種です。オンライン評価には、組織の既存のツールと方法を使用してください。例:
- 組織で A/B テストを定期的に実施している場合は、アプリケーションの現在のバージョンと最新の Gemini バージョンを比較するテストを実施します。
- 組織で カナリア デプロイを定期的に使用している場合は、最新のモデルでカナリア デプロイを使用し、ユーザーの行動の変化を測定します。
アプリケーションに新しいフィードバック機能と測定機能を追加して、オンライン評価を行うこともできます。アプリケーションごとに必要なフィードバック方法は異なります。例:
- モデル出力の横に高評価ボタンと低評価ボタンを追加し、古いモデルと最新の Gemini モデルのレートを比較します。
- 古いモデルと最新のモデルの両方の出力を並べて表示し、ユーザーに好きな方を選んでもらいます。
- 古いモデルと最新モデルの出力に対して、ユーザーがオーバーライドまたは手動で調整する頻度を追跡します。
これらのフィードバック方法では、多くの場合、既存のバージョンと並行して最新の Gemini バージョンを実行する必要があります。この並行デプロイは、「シャドーモード」または「Blue/Green デプロイ」と呼ばれることもあります。
オンライン評価の結果がオフライン評価の結果と大きく異なる場合は、オフライン評価でライブ環境やユーザー エクスペリエンスの重要な側面が捉えられていません。オンライン評価の結果を適用して、ギャップを埋める新しいオフライン評価を作成し、ステップ 3 に戻ります。
プロビジョンド スループットを使用している場合は、オンライン評価でユーザーのスループット要件を満たし続けるために、追加の短期プロビジョンド スループットを購入する必要が生じる場合があります。
7. 本番環境にデプロイする
評価で最新の Gemini モデルが古いモデルと同等以上のパフォーマンスを発揮することが確認できたら、既存のアプリケーション バージョンを新しいバージョンに置き換えます。組織の標準的な本番環境へのロールアウト手順に沿って対応します。
プロビジョンド スループットを使用している場合は、プロビジョンド スループットの注文を選択した Gemini モデルに変更します。アプリケーションを段階的にロールアウトする場合は、短期のプロビジョンド スループットを使用して、2 つの異なる Gemini モデルのスループットのニーズを満たします。
Gemini 3.x のパラメータの更新とベスト プラクティス
以下は、Gemini 3.5 Flash を含むすべての Gemini 3.x モデルに適用されます。これらは Gemini 3 で導入されたもので、参考としてここに記載します。
サンプリング パラメータ(非推奨)
temperature、top_p、top_k は、すべての Gemini 3.x モデルで推奨されなくなりました。モデルは、最適な結果を得るために独自のサンプリングを管理します。すべてのリクエストからこれらのパラメータを削除します。
決定性を最大化するには、特定のユースケースの明示的なルールを使用してシステム指示を定義することをおすすめします。
thinking_budget(非推奨)
Gemini 3.x モデル全体で、未加工の数値 thinking_budget パラメータは推奨されなくなりました。代わりに thinking_level 文字列列挙型を使用してください。
関数呼び出し: 厳密なレスポンス マッチング
API はまだエラーを返しませんが、レスポンスが一致しないと、ほとんどの場合、モデルは finish_reason: STOP を含む空のレスポンスを返します。次の規則に必ず従ってください。
idを含める: すべてのFunctionResponseに、対応するFunctionCallのidを含める必要があります。nameを照合: レスポンスのnameは、呼び出しのnameと一致する必要があります。- 一致数: 受信した
FunctionCallごとに 1 つのFunctionResponseを返します。
マルチモーダル関数レスポンス
関数呼び出しへのレスポンスでマルチモーダル コンテンツ(画像など)を提供する場合は、コンテンツを関数レスポンス部分の内側に含めます。外側には含めないでください。これにより、思考の漏洩などの予期しないモデルの動作を防ぐことができます。
関数レスポンスのインライン指示
関数レスポンスとともにプラットフォームの手順を提供する必要がある場合は、別々の部分としてではなく、2 つの改行で区切って関数レスポンス テキストの末尾に追加します。
不要なツール呼び出しを減らす
ツール呼び出しの過剰な使用が発生した場合:
1. 思考レベルを下げる(medium、low、minimal)。
2. システム指示を追加して、ツールの使用を制限します(例: "You have a
limited action budget of <n> tool calls. Use them efficiently.")。
移行チェックリスト
Gemini 3 Flash プレビュー
- モデル名を
gemini-3-flash-previewからgemini-3.5-flashに更新。 - 料金を確認します。Gemini 3.5 Flash は Gemini 3 Flash プレビューよりも高価です。
- 構成から
temperature、top_p、top_kを削除します。 thinking_budgetをthinking_levelに置き換えます。- すべての
FunctionResponseパーツにidと一致するnameを追加しました。 - プロンプトをテストします。デフォルトの労力が
high→mediumに変更されました。 - 思考の保存がデフォルトでオンになりました。推論コンテキストはターンをまたいで引き継がれます。
- 思考レベルを調整するか、システム指示を追加して、不要なツール呼び出しを減らします。
- 現時点では、Gemini 3.5 Flash でのパソコンの使用はサポートされていません。
- 追従を軽減する:
gemini-3.5-flashが追従の兆候を示し始めた場合は、次のコードを追加して、システム指示でこの動作を軽減することを試すことができます。- Keep your responses concise. - Provide a summary of your work when you end your turn. Ground your response in the work you did. Keep your tone professional and avoid overconfident language, bragging, or overclaiming success. - AVOID using superlatives such as "perfectly", "flawlessly", "100% correct", "Summary of Accomplishments" etc. to summarize your work for the user. Be humble. - AVOID over-the-top politeness or complimenting the user excessively. - Format your responses in github-style markdown.
Gemini 2.5 で生成
- PDF とドキュメントのワークロードをテストします。PDF のトークン使用量が増加する可能性があります。
- プロンプトを簡素化します。複雑な Chain-of-Thought プロンプトではなく、よりシンプルなプロンプトで
thinking_level: "medium"または"high"を試してください。 - ツール(検索、URL コンテキスト、コード実行、関数)の組み合わせを最大限に活用します。
- 関数レスポンス部分内のマルチモーダル コンテンツを移動します。
- 関数レスポンス テキストにインライン指示を追加します。
モデルの性能を高める
移行する際は、次のヒントを適用して、選択した Gemini モデルから最適なパフォーマンスを得てください。
- すべての
Gemini 3モデルで、サンプリング パラメータ(temperature、top_p、top_k)は非推奨になりました。モデルは、最適な結果を得るために独自のサンプリングを管理します。Google では、すべてのリクエストからこれらのパラメータを削除することをおすすめします。 - システム指示、プロンプト、少数ショット学習の例に、矛盾や無関係な指示や例がないか確認します。
- より強力なモデルをテストします。たとえば、Gemini 2.0 Flash-Lite を評価した場合は、Gemini 2.0 Flash を試してください。
- 自動評価の結果が人間の判断と一致していることを確認します。特に、判定モデルを使用した結果を確認します。判定モデルの指示が明確で一貫性があり、曖昧でないことを確認します。
- 判定モデルの指示を改善するには、複数の人間が個別に作業する状況で指示をテストします。人によって指示の解釈が異なり、判断が食い違うようであれば、判定モデルの指示が不明確です。
- モデルをファインチューニングします。
- 特定のタイプの障害を示すパターンについて、評価出力を調べます。モデル、タイプ、カテゴリ別にエラーをグループ化すると、より的を絞った評価データが得られ、プロンプトを調整してこれらのエラーを修正しやすくなります。
- さまざまな生成 AI コンポーネントを個別に評価していることを確認します。
- トークン サンプリング パラメータの調整を試します。
困ったときは
サポートが必要な場合は、 Google Cloud でニーズに合ったサポート パッケージをご利用ください。たとえば、24 時間 365 日の対応や電話サポート、テクニカル サポート マネージャーへのお問い合わせなどがあります。詳細については、Google Cloud サポートをご覧ください。