Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

GKE クラスタのアップグレードに関するベストプラクティス

Autopilot Standard

このドキュメントでは、プラットフォーム管理者が Google Kubernetes Engine（GKE）クラスタのアップグレードを管理するためのベストプラクティスについて説明します。デフォルトでは、GKE はクラスタのコントロールプレーンとノードのバージョンを自動的にアップグレードし、新機能、バグの修正、セキュリティパッチを提供して、環境のパフォーマンスとセキュリティを維持します。

これらの自動アップグレードが運用ニーズに沿って行われ、ワークロードの中断を最小限に抑えるために、GKE は最大限の制御を可能にするツールを提供しています。このガイドでは、これらのツールを効果的に使用して、高いパフォーマンスと可用性を維持する方法について説明します。基本的な理解については、GKE クラスタのアップグレードについてをご覧ください。

クラスタのアップグレード（コントロールプレーンとノードの GKE バージョンの更新のみ）に加えて、GKE はクラスタに対して追加の更新を定期的に実行します。このドキュメントのベストプラクティスを実装することで、これらの変更の一部に対応できます。詳細については、クラスタのライフサイクルの変更を管理して中断を最小限に抑えるをご覧ください。

すべての GKE ベストプラクティスの概要については、GKE のベストプラクティスをご覧ください。

チェックリスト

次の表は、以降のセクションで詳しく説明するタスクをまとめたものです。クラスタのアップグレード用に環境を準備するときに、これらのタスクを行うことをおすすめします。

ベストプラクティス	ToDo リスト
リリースチャンネルを使用して、機能のリリース速度とアップグレードの安定性のバランスを選択する	デフォルトの Regular チャンネルがクラスタに適しているかどうかを評価します。クラスタで Extended チャンネルの長期サポートが必要かどうかを評価します。
メンテナンスポリシーを使用してアップグレードのタイミングを選択する	メンテナンスの時間枠を使用して、週のどのタイミングでアップグレードを行うかを選択します。メンテナンスの除外を使用して、アップグレードを実行できない期間を選択するか、クラスタのアップグレードを一時的に停止します。高度なユースケースでは、クラスタ中断バジェットのカスタマイズを検討してください。
クラスタ間のアップグレードのロールアウトを制御する	少なくとも本番環境と本番前環境を含む、ロールアウト環境を構成します。ロールアウトシーケンスを使用して、環境が自動的にアップグレードされる順序を選択します。クラスタのアップグレード前にチェックを実行します。
アップグレードのトリガー方法を制御する	必要に応じて、手動アップグレードを使用してクラスタを事前にアップグレードします。
クラスタのアップグレードをモニタリングする	クラスタのアップグレードのステータスを常に把握します。
ノードのアップグレード中に既存のワークロードの中断を最小限に抑える	クラスタアップグレードの準備時に追加の考慮事項が必要となるワークロードのタイプを理解します。 Standard ノードプールのノードアップグレード戦略を選択します。 Pod 停止予算（PDB）を構成します。正常終了を構成します。

リリースチャンネルを使用して、機能のリリース速度とアップグレードの安定性のバランスを選択する

リリースチャンネルを使用すると、機能のリリース速度とアップグレードの安定性のバランスを選択できます。デフォルトでは、GKE クラスタは Regular リリースチャンネルに登録されます。GKE がクラスタのコントロールプレーンとノードをアップグレードして、セキュリティパッチを適用し、既知の問題を修正し、新機能を導入する場合、リリースチャンネルによってクラスタで実行される GKE バージョンが決まります。たとえば、新機能をいち早く利用したい場合は Rapid チャンネルを選択し、安定性が実証されているバージョンを利用したい場合は Stable チャンネルを選択します。特定のチャンネルの選択について詳しくは、利用可能なチャンネルをご覧ください。

クラスタを手動でアップグレードする場合でも、新しいバージョンを選択する前に、チャンネルで利用可能なバージョンと自動アップグレードのターゲットを確認することで、リリースチャンネルの選択のメリットを享受できます。

また、リリースチャンネルでパッチバージョンをできるだけ早く取得する場合（たとえば、重要なセキュリティパッチを受け取る場合）は、以前のパッチバージョンの取得についてをご覧ください。

マイナーバージョンに必要なサポートのレベルを選択する

GKE では、マイナーバージョンが Regular チャンネルで利用可能になった後、そのバージョンに対して合計で最長 24 か月間のサポートを提供します。このサポートには、14 か月間の標準サポートと、Extended チャンネルで利用できる約 10 か月間の拡張サポートが含まれます。GKE がマイナーバージョンをサポートする方法の詳細については、マイナーバージョンのサポートをご覧ください。

標準サポートの終了日を過ぎてもセキュリティパッチを受け取り、クラスタを長期間マイナーバージョンで維持する必要がある場合や、標準サポートの終了の適用を回避する場合は、Extended チャンネルを使用することもできます。詳細については、後述の長期サポートが必要な場合に Extended チャンネルを使用するをご覧ください。

マイナーバージョンのサポートが終了すると、クラスタが登録されているリリースチャンネルに応じて、GKE はクラスタを自動的にアップグレードし、クラスタのパフォーマンスとセキュリティを維持します。詳細については、セキュリティと互換性を確保するための自動クラスタアップグレードをご覧ください。このドキュメントで説明するツールを使用してクラスタの自動アップグレードを阻止または遅延させている場合は、クラスタが実行しているマイナーバージョンのサポートが終了する前に、クラスタを手動でアップグレードすることをおすすめします。それ以外の場合、GKE はクラスタを自動的にアップグレードします。

メンテナンスポリシーを使用してアップグレードのタイミングを選択する

アップグレードの実行可否を制御するには、次のものを使用します。

メンテナンスの時間枠: GKE がクラスタをアップグレードできる繰り返しの時間枠（ビジネスのオフピーク時など）を選択します。アップグレードプロセスがメンテナンスの時間枠を超えて実行されると、GKE はオペレーションを一時停止し、次のメンテナンスの時間枠の間に再開を試みます。
メンテナンスの除外: GKE がクラスタをアップグレードできない特定の期間（小売業の主要な販売イベントなど）を選択します。また、メンテナンスの除外を使用して、クラスタの自動アップグレードを一時的に延期することもできます。たとえば、他のクラスタが新しいバージョンにアップグレードされたときに問題が発生した場合などです。
- 高度なユースケースでは、GKE が実行するのではなく、特定のタイプのアップグレードを手動で実行する必要がある場合があります。メンテナンスの除外を使用して、これらのタイプの自動アップグレードを無効にできます。たとえば、「マイナーアップグレードまたはノードアップグレードなし」のスコープを使用して、すべてのマイナーアップグレードとすべてのノードアップグレードを無効にできます。これらのアップグレードは手動で行う必要があります。または、GKE がマイナーバージョンのサポート終了時にクラスタをアップグレードします。
メンテナンス頻度: 高度なユースケースでは、クラスタ中断予算を使用して、連続する 2 つの自動アップグレード間の最小間隔を制御します。

メンテナンスポリシーを構成することで、アップグレードの予測可能性を高め、ワークロードにとって最も都合のよいタイミングでアップグレードが行われるようにすることができます。

クラスタ間のアップグレードのロールアウトを制御する

複数の環境を用意し、本番環境とは別の環境でソフトウェアとインフラストラクチャの変更をテストすることで、リスクや不要なダウンタイムを最小限に抑えることをおすすめします。少なくとも、本番環境と本番前環境またはテスト環境を用意することをおすすめします。

次の推奨環境を検討してください。

環境	説明
本番環境	ミッションクリティカルなビジネスアプリケーションのエンドユーザーにライブトラフィックを提供します。
カナリア	すべてのクラスタがアップグレードされる前に、本番環境の小規模な部分をテストします。
ステージング	本番環境にデプロイする前に、以前の環境で行ったすべての変更が意図したとおりに機能していることを確認します。
テスト	本番環境で使用する GKE バージョンでワークロードのベンチマーク、テスト、品質保証（QA）を実施します。
開発	本番環境で実行されているバージョンと同じバージョンで開発を行います。この環境では、本番環境にデプロイする修正と増分変更を作成します。

GKE には、次のセクションで説明するように、ロールアウトの順序付けなどの機能が用意されており、これらのさまざまな環境にアップグレードをデプロイする方法を制御できます。

ロールアウトシーケンスを使用して環境全体にロールアウトする

これらの環境内で新しい GKE バージョンを段階的にロールアウトするには、ロールアウトシーケンスを使用することをおすすめします。ロールアウトシーケンスでは、すべてのクラスタがデプロイのステージ全体で同じリリースチャンネルとマイナーバージョンを使用します。GKE は、構成した順序で新しいバージョンを段階的にロールアウトします。GKE が新しいバージョンを環境全体にロールアウトしたら、クラスタ環境とワークロードが新しいバージョンで期待どおりに実行されていることを確認できます。

新しい環境を構成する場合は、カスタムステージを使用したロールアウトシーケンスを使用します。この新しいバージョンのロールアウトシーケンスでは、新しいバージョンのフリートへのロールアウトを複数のステージに分割できます。このアプローチにより、GKE は、たとえば、本番環境の残りの部分をアップグレードする前に、本番環境のカナリア環境をアップグレードできます。

新しい環境にはおすすめしませんが、以前のバージョンの機能であるフリートベースのロールアウトシーケンスを使用することもできます。このバージョンの機能は、Google Cloud コンソールでサポートされている唯一のバージョンですが、機能はより限定的です。

GKE パッチとマイナーアップグレードのテスト

GKE は、クラスタを新しいパッチに毎週自動的にアップグレードします。ただし、マイナーバージョンのアップグレードは年に約 3 回しか行われません。新しい Kubernetes マイナーバージョンでは、同じマイナーバージョンのパッチと比較して、変更の量が多くなります。新しいマイナーバージョンがクラスタとワークロードで想定どおりに動作することを確認するため、環境全体でマイナーバージョンのアップグレードをロールアウトする際は、追加の精査を行うことをおすすめします。

クラスタをアップグレードする前にチェックを実行する

GKE は、クラスタの自動アップグレードを実行する前に、リリースチャンネルに応じて新しいバージョンを一定期間検証し、クラスタの準備状況を確認します。

クラスタをアップグレードする前に、次のことを行うことをおすすめします。

パッチアップグレードやマイナーアップグレードを含むすべてのアップグレードの場合:
- 問題については GKE リリースノートを確認し、新しいマイナーバージョンとパッチバージョンの変更ログを確認します。
- GKE の既知の問題で、クラスタ環境と新しいバージョンに関連する問題がないか確認します。
マイナーアップグレードの場合は、次の点も確認してください。
- API の非推奨を確認します。詳細については、新しいバージョンの GKE リリースノート、Kubernetes の変更ログ、機能と API の非推奨をご覧ください。
- コントロールプレーンとノード間のバージョンスキューがサポートされていることを確認します。GKE は、コントロールプレーンの 2 つ前までのマイナーバージョンのノードの実行をサポートしています。詳細については、 GKE バージョンのスキューポリシーをご覧ください。
ノードのアップグレードの場合:
- ノードで使用するノードアップグレード戦略に十分なリソースがあることを確認します。詳細については、ノードのアップグレード用のリソースを確保するをご覧ください。

アップグレードのトリガー方法を制御する

GKE は、デフォルトでクラスタを新しいバージョンに定期的に自動アップグレードします。ただし、手動アップグレードを使用すると、クラスタを必要なタイミングでアップグレードし、クラスタが実行するバージョンを制御することもできます。

以下の操作を行うことができます。

クラスタを手動でアップグレードします。
進行中の自動または手動のノードアップグレードに対して、次の操作を行います。
- アップグレードをキャンセルします。
- アップグレードを再開します。
- アップグレードをロールバックします。
- 進行中のアップグレードを完了します。

アップグレードプロセスをより細かく制御する場合は、メンテナンス除外を構成し、必要に応じて手動アップグレードを実行することをおすすめします。手動アップグレードと、進行中のアップグレードに対して実行できるその他のアクションの詳細については、クラスタまたはノードプールの手動アップグレードをご覧ください。

クラスタのアップグレードをモニタリングする

GKE アップグレードが想定どおりに進行し、クラスタ環境のパフォーマンスと可用性が維持されるように、次のツールを使用してクラスタのアップグレードをモニタリングします。クラスタのステータスを把握するには、通知、分析情報と推奨事項、ログなどのツールを使用します。特に、サポート終了通知、アップグレード開始通知、マイナーバージョンアップグレードのオプトインスケジュールアップグレード通知に注意することをおすすめします。アラートポリシーを設定して、これらの通知を確実に受け取れるようにします。

現在のアップグレードについて詳しくは、次のリソースをご覧ください。

現在の自動アップグレードターゲットなど、特定のクラスタのアップグレードについては、クラスタのアップグレードの可視性を高めるをご覧ください。
一般的な自動アップグレードターゲットを取得するには、現在のバージョンの表をご覧ください。クラスタのマイナーバージョンへの特定のマッピングについては、バージョンアップデートのリリースノートをご覧ください。
GKE リリーススケジュールで、マイナーバージョンがアップグレード可能になり、サポート終了になるおおよその日付をご確認ください。
クラスタ通知を使用して、Cloud Logging または Pub/Sub によりクラスタのアップグレードイベント（スケジュール設定されたクラスタアップグレード（プレビュー）など）に関する最新情報を入手します。
分析情報と推奨事項を使用して、次のクラスタ固有の推奨事項を取得します。

ノードのアップグレード中に既存のワークロードの中断を最小限に抑える

前のセクションで説明した一般的なベストプラクティスに加えて、クラスタ環境とワークロードのニーズに合わせてアップグレードプロセスをさらにカスタマイズするために、高度な構成を検討することをおすすめします。

特定のワークロードプロファイルに関するその他の考慮事項

特定のタイプのワークロードとクラスタ環境では、クラスタのアップグレードに追加の準備が必要です。ワークロードが次のカテゴリの 1 つ以上に該当する場合は、次の追加の考慮事項を検討してください。

ライブマイグレーションされないマシンで実行されるワークロード: GKE がユーザーに代わって作成する Compute Engine インスタンスである GKE ノードでは、基盤となるインフラストラクチャのメンテナンスが定期的に必要になります。ほとんどの Compute Engine インスタンスはライブマイグレーションできます。つまり、このメンテナンスが発生しても、実行中のワークロードが中断されることはありません。ただし、一部のマシンタイプではライブマイグレーションを実行できないため、GKE ノードで実行されているワークロードが中断される可能性があります。重要な点として、AI/ML ワークロード用の GPU や TPU などのアクセラレータはライブマイグレーションできません。詳細については、ライブマイグレーションが行われない GKE ノードの停止を管理するをご覧ください。
容量が制約されたワークロード: ワークロードで容量が制約されたマシンタイプを使用している場合は、クラスタのアップグレードを行う際に、追加の考慮事項が必要になります。詳細については、ノードのアップグレード用のリソースを確保するをご覧ください。
ステートフルワークロード: ワークロードがステートフルで、正常なシャットダウンと再起動に関する特定の要件がある場合は、クラスタのアップグレードを実行する際に、追加の考慮事項が必要です。詳細については、ワークロードが停止可能な状態であることを確認するをご覧ください。

以降のセクションで、使用可能なツールを使用してこれらのタイプのワークロードをアップグレードする方法を確認してください。

ノードのアップグレード戦略を選択する

GKE Standard モードでは、ノードプール内の個々のノードのアップグレード方法を決定するさまざまなノードアップグレード戦略が用意されています。Standard ノードプールのアップグレード戦略を選択すると、速度、ワークロードの中断、リスクの軽減、費用の最適化のバランスを取ったプロセスを選択できます。ニーズに合わせて戦略のパラメータを構成することもできます。GKE Autopilot モードでは、GKE がノードのアップグレードを管理するため、使用する特定の戦略を選択する必要はありません。詳細については、ノードのアップグレード戦略についてをご覧ください。

中断の許容範囲を設定する

Pod 停止予算（PDB）を使用すると、アップグレード中に GKE がノードを再作成するときに、ワークロードのレプリカ数が一時的に減少する可能性がある場合でも、ワークロードに十分な冗長性を維持できます。

PDB が設定されている場合、Pod の数が構成された上限以下であれば、GKE はアプリケーション内の Pod をシャットダウンしません。GKE アップグレードでは、PDB が最大 60 分間適用されます。また、ノードのドレインが PDB によってブロックされている場合や、PDB のタイムアウトに達し、PDB の違反にもかかわらず Pod が強制削除される場合は、GKE から通知が届きます。詳細については、ノードプールのアップグレード中の破壊的イベントをご覧ください。

正常な終了を使用してアプリケーションをシャットダウンする

正常な終了を構成すると、ワークロードがシャットダウンの準備に十分な時間を確保できます。ノードのアップグレード中、GKE はデフォルトのサージアップグレードで最大 60 分、Blue/Green アップグレードと自動スケーリングされる Blue/Green アップグレード（プレビュー）で最大 24 時間、正常終了設定を適用します。

正常終了の設定の詳細については、ワークロードを正常に終了するように GKE を構成するをご覧ください。

長期サポートが必要な場合に Extended チャンネルを使用する

クラスタをマイナーバージョンで長期間維持する場合は、ベストプラクティスに従って、クラスタを Extended チャンネルに登録します。このチャネルでは、GKE はマイナーバージョンを約 24 か月間サポートします。Extended チャンネルでは、マイナーバージョンのアップグレードを制御できます。GKE は、ユーザーがアップグレードを開始しない場合にのみ、サポート終了時の自動アップグレードを実行します。詳細については、Extended チャンネルで長期サポートを利用するをご覧ください。

標準のサポート期間よりも長くマイナーバージョンを維持する必要はないが、マイナーバージョンのアップグレードを制御したい場合は、「マイナーアップグレードなし」のスコープでメンテナンスの除外を使用します。

チャンネルを最大限に活用するには、次のベストプラクティスに従うことをおすすめします。これらのベストプラクティスの一部では、クラスタを手動でアップグレードする、クラスタのリリースチャンネルを変更するなど、手動での操作が必要になります。サポートされているシナリオと Extended チャネルを使用すべきでない場合を確認してください。

一時的にマイナーバージョンを長期間維持する

次のマイナーバージョンで削除される非推奨の API の使用を軽減するため、14 か月の標準サポート期間よりも長くクラスタをマイナーバージョンにしておく必要がある場合は、次の操作を行います。別のリリースチャンネルから Extended チャンネルにクラスタを一時的に移動することで、次のマイナーバージョンへのアップグレードの準備を進めながら、セキュリティパッチを引き続き受け取ることができます。次のマイナーバージョンにアップグレードする準備ができたら、クラスタを手動でアップグレードしてから、クラスタを元のリリースチャンネルに戻します。

マイナーバージョンのアップグレード（年に 1 ～ 2 回）

クラスタを新しいマイナーバージョンにアップグレードする準備が整ったときに、クラスタの機能停止を最小限に抑えながら新しい機能を利用できるようにするには、次の操作を行います。

クラスタを Extended チャンネルに登録します。
年に 1 ～ 2 回、2 回連続してマイナーバージョンのアップグレードを行います。たとえば、1.33 から 1.34 にアップグレードして、さらに 1.35 にアップグレードします。

このプロセスにより、クラスタは利用可能なマイナーバージョンを維持しながら、新しいマイナーバージョンの機能を受け取ることができますが、クラスタの準備が整ったと判断した場合にのみ、マイナーバージョンのアップグレードを受け取ります。

Extended チャネルを使用すべきでない場合

Extended チャンネルを本来の目的で使用するには、手動での操作が必要です。次のシナリオは、クラスタのマイナーバージョンを積極的に管理せずに Extended チャンネルを使用した場合の結果を示しています。

何もせずに同じ頻度でマイナーアップグレードを受け取る

クラスタをマイナーバージョンで維持するため、クラスタを Extended チャンネルに登録しますが、それ以上の操作は行いません。すべてのマイナーバージョンは最終的にサポートされなくなり、GKE はサポートされていないマイナーバージョンのクラスタを自動的にアップグレードします。そのため、GKE は、サポート対象外のマイナーバージョンからサポートが終了するマイナーバージョンにクラスタをアップグレードします。平均すると、約 4 か月ごとにアップグレードが行われます。このアプローチでは、クラスタは他のリリースチャンネルと同じ頻度でマイナーバージョンのアップグレードを受け取りますが、新機能は後で受け取ることになります。

次のステップ

GKE のさまざまなモードの詳細については、Autopilot クラスタと Standard クラスタの機能を比較するをご覧ください。