Google Distributed Cloud コネクテッドのモニタリングとメンテナンスは、Google とお客様の共同責任です。このドキュメントの情報を使用して、オンプレミス ワークロードの最適なデプロイと管理方法を決定します。
Google の責任
マネージド ハードウェア サービスとソフトウェア サービスとして、Google はビジネス アプリケーションのデプロイに使用するインフラストラクチャの管理とモニタリングを行います。
Google は、Distributed Cloud コネクテッド システムの次の側面を担当します。
- コントロール プレーン Google Cloud
- Kubernetes コントロール プレーン、ワーカーノード、組み込みシステム サービス
- Google 提供のソフトウェア アドオンとプロダクト
- サーバーなどの提供されたハードウェア
Google は、Google が責任を負う機能のモニタリングを行い、問題が検出された場合は Google のエンジニアにアラートを送信して調査を依頼します。
お客様の責任
Distributed Cloud コネクテッド システムの次の側面については、お客様の責任となります。
- ローカル ネットワーク(お客様が提供したスイッチを含む)
- インターネット接続
- 電源
- 環境(冷却など)
- お客様のアプリケーションと、お客様がインストールした Google Distributed Cloud または Kubernetes アドオン
- お客様が所有する踏み台ホスト インスタンスと境界プロキシのデプロイ(これらの機能を使用している場合)
Google は、お客様の責任範囲に該当する問題を直接モニタリングしません。たとえば、Google は、お客様の VM が正しく起動していないかどうかや、お客様のアプリケーションが実行されていないかどうかをモニタリングしません。このような動作がプラットフォームの問題によるものと思われる場合は、Google が調査できるように、 Google Cloud サポート チケットを開く必要があります。
責任の共有
場合によっては、Google がサイトの障害を検出し、その原因がサイト固有の問題であると判断することがあります。たとえば、サイト上のすべてのノードで時間の経過とともに温度が上昇し、その後接続が切断された場合、ローカル冷却の障害が問題である可能性があります。このようなシナリオでは、Google はお客様と共同でトラブルシューティングを開始し、問題がサイト固有のお客様の責任によるものかどうかを確認し、ハードウェアの障害を検証します。
問題を解決して根本原因を特定するために、Google からお客様に情報の提供をお願いする場合があります。たとえば、Google は停電の発生時刻や、電力やネットワークが復旧した時刻を知る必要がある場合があります。この情報を提供できない場合、Google は詳細な根本原因分析を実施できない可能性があります。
接続障害
インターネット接続が切断された場合、この製品は最大 7 日間サバイバビリティ モードをサポートします。この期間中は、サービスへのローカル アクセスが可能です。ただし、ネットワーク接続が復元されるまで、Google はオンサイト システムの問題をモニタリング、軽減、診断できません。
Google は Google テレメトリー システムからサイトの切断をモニタリングしていますが、根本原因が電力、ISP 接続、火災や洪水などの壊滅的なサイト障害であるかどうかをリモートで判断することはできません。
サイトのすべてのハードウェアが同時にデータのレポートを停止した場合、原因はローカルの電源またはネットワークの問題である可能性が高くなります。誤報を避けるため、Google は、問題が ISP のメンテナンスなどによって自動的に解決されないこと、および仮想的に解決できないことを確認するまで、問題を通知しない場合があります。その場合は、さらなるトラブルシューティングが必要です。
要塞ホストと境界プロキシ(BH/BP)用に構成されている場合、Google は BH/BP と Distributed Cloud 接続デバイスを BH/BP 経由で定期的なテスト リクエストを使用して接続性をモニタリングします。Google は、リソース使用量の追跡など、BH/BP インスタンスの全体的な健全性をモニタリングすることを想定しています。BH/BP または Distributed Cloud 接続デバイスへの接続の問題が検出され、その問題がお客様所有のコンポーネントに起因する可能性があると思われる場合は、問題の診断とデバッグをお客様にお願いすることがあります。
デバッグ
デバッグを支援するため、Google は次のデータを求めることがあります。
- スイッチ、ルーター、ファイアウォールなどの Google 以外のマネージド ネットワーク機器に適用された構成変更(タイムスタンプを含む。秒単位で切り上げ)
- タイムスタンプと詳細を含むファイアウォール拒否ログ
- デバイスの再起動の日時と理由。理由としては、ソフトウェアのアップグレード、停電、ソフトウェア エラーなどが考えられます。
- 停電の時刻(建物の管理やデータセンターの管理などから把握できる場合や、他の機器の最後のログメッセージから推測できる場合など)
- ネットワーク プロバイダまたはルーターやファイアウォールのログメッセージに基づく、ネットワーク停止時間
相互運用性の問題については、デバイスのログファイルの共有やデバッグ オプションの有効化など、ベンダーとの共同デバッグが必要になる場合もあります。可能な場合は、お客様のラボ環境で問題を再現します。
場合によっては、Google が管理対象の機器から情報を取得できますが、その情報が不完全である可能性があります。たとえば、停電後、ISP 接続の起動に Distributed Cloud 接続サーバーよりも時間がかかることがあります。
責任の分担
次の表を使用して、一般的なタスクの担当者を決定します。
| タスク | 顧客 | |
|---|---|---|
| デプロイの切断に関する問題を特定し、調査のためにお客様に通知する | X | |
| 電源に関する問題を解決する | X | |
| お客様が提供したスイッチを含むネットワークの問題を解決します。 | X | X |
| 冷却などの環境問題を解決する | X | |
| お客様が所有する踏み台ホスト インスタンスと境界プロキシのデプロイ(デプロイされている場合)を解決する | X | |
| API 管理プレーンをモニタリングする | X | |
| Kubernetes コントロール プレーン、ワーカーノード、組み込みシステム サービスをモニタリングする | X | |
| Symcloud Storage などの Google 提供のソフトウェア アドオンとプロダクトをモニタリングする | X | |
| 提供されたハードウェア(サーバー、一部のデプロイではネットワーク機器など)をモニタリングする | X | |
| お客様が提供したネットワーク機器をモニタリングする | X | |
| アップストリーム ネットワーク接続をモニタリングする | X | |
| ネットワークまたは環境の問題について共同デバッグ サポートを提供する | X | |
| 指標やログなどのプラットフォームのオブザーバビリティ | X | |
| 指標やログなどのアプリケーションの可観測性 | X | |
| お客様の責任範囲にあると思われる問題の調査リクエストに対応する | X |