Probleme mit dem verwalteten Cloud Service Mesh beheben
In diesem Dokument werden häufig auftretende Probleme bei Cloud Service Mesh und deren Behebung beschrieben. Beispiel: Ein Pod wird mit istio.istio-system eingefügt und das Installationstool generiert Fehler wie HTTP--Statuscodes (400) und Fehler bei der Clustermitgliedschaft.
Weitere Informationen zur Fehlerbehebung bei Cloud Service Mesh finden Sie unter Support.
Fehler „Revision(s) reporting as unhealthy“
Möglicherweise wird ein allgemeiner Fehler Revision(s) reporting unhealthy angezeigt, wenn der Dienst-Agent für verwaltetes Cloud Service Mesh nicht die erforderliche Identity and Access Management-Rolle (IAM) hat. Typischerweise tritt dies auf, wenn die Rolle über eine Terraform-, Puppet- oder CI/CD-Neukonfiguration widerrufen wurde.
Die Schritte zur Fehlerbehebung bei diesem Fehler hängen davon ab, ob Sie die Google Cloud Console oder die Google Cloud CLI verwenden.
Google Cloud Console
Rufen Sie in der Google Cloud Console IAM & Verwaltung > IAM auf.
Wählen Sie Von Google bereitgestellte Rollenzuweisungen einschließen aus.
Prüfen Sie die Liste Hauptkonto.
Wird der Dienst-Agent mit der erforderlichen IAM-Rolle in der Liste angezeigt, so ist er korrekt konfiguriert.
Wenn der Dienst-Agent und die erforderliche Rolle nicht in der Liste enthalten sind, fahren Sie mit dem nächsten Schritt fort.
Weisen Sie dem Cloud Service Mesh-Dienst-Agent im Projekt die Rolle „Anthos Service Mesh Service Agent“ (
roles/anthosservicemesh.serviceAgent) zu. Eine Anleitung finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Google Cloud CLI
Führen Sie in der Google Cloud CLI folgenden Befehl aus, um zu prüfen, ob die erforderliche IAM-Rolle zugewiesen wurde:
gcloud projects get-iam-policy PROJECT_ID \ --flatten="bindings[].members" \ --filter="bindings.members:serviceAccount:service-PROJECT_NUMBER@gcp-sa-servicemesh.iam.gserviceaccount.com AND bindings.role:roles/anthosservicemesh.serviceAgent" \ --format='table(bindings.role)'Prüfen Sie die Liste
ROLE.Wenn in der Liste Rollen angezeigt werden, ist alles korrekt konfiguriert.
Wenn in der Liste keine Rollen angezeigt werden, wurde die erforderliche Rolle widerrufen.
Führen Sie den folgenden Befehl aus, um dem Dienst-Agent die erforderliche Rolle zuzuweisen:
gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-servicemesh.iam.gserviceaccount.com" \ --role="roles/anthosservicemesh.serviceAgent"
Das Installationstool generiert HTTP-400-Fehler
Das Installationstool generiert möglicherweise HTTP-400-Fehler wie diese:
HealthCheckContainerError, message: Cloud Run error: Container failed to start.
Failed to start and then listen on the port defined by the PORT environment
variable. Logs for this revision might contain more information.
Dieser Fehler kann auftreten, wenn Sie Workload Identity nicht in Ihrem Kubernetes-Cluster aktiviert haben. Zum Aktivieren können Sie den folgenden Befehl verwenden:
export CLUSTER_NAME=...
export PROJECT_ID=...
export LOCATION=...
gcloud container clusters update $CLUSTER_NAME --zone $LOCATION \
--workload-pool=$PROJECT_ID.svc.id.goog
Status der verwalteten Datenebene
Der folgende Befehl zeigt den Status der verwalteten Datenebene an:
gcloud container fleet mesh describe --project PROJECT_ID
In der folgenden Tabelle sind alle möglichen Status der verwalteten Datenebene aufgeführt:
| Status | Code | Beschreibung |
|---|---|---|
ACTIVE |
OK |
Die verwaltete Datenebene wird normal ausgeführt. |
DISABLED |
DISABLED |
Die verwaltete Datenebene hat diesen Status, wenn kein Namespace oder keine Überarbeitung
für deren Verwendung konfiguriert ist. Folgen Sie der Anleitung, um
verwaltetes Cloud Service Mesh über die Fleet API zu aktivieren, oder
aktivieren Sie die verwaltete Datenebene nach der Bereitstellung des verwalteten Cloud Service Mesh mit asmcli.
Beachten Sie, dass die Statusberichte zu verwalteten Datenebenen nur verfügbar sind, wenn Sie die verwaltete Datenebene durch Annotierung eines Namespace oder einer Überarbeitung aktiviert haben.
Das Annotieren einzelner Pods führt dazu, dass diese Pods verwaltet werden, aber mit dem
Featurestatus DISABLED wenn keine Namespaces oder Überarbeitungen
annotiert sind. |
FAILED_PRECONDITION |
MANAGED_CONTROL_PLANE_REQUIRED |
Die verwaltete Datenebene erfordert eine aktive verwaltete Cloud Service Mesh-Steuerung ebene. |
PROVISIONING |
PROVISIONING |
Die verwaltete Datenebene wird bereitgestellt. Wenn der Status länger als zehn Minuten andauert, ist wahrscheinlich ein Fehler aufgetreten und Sie sollten den Support kontaktieren. |
STALLED |
INTERNAL_ERROR |
Die verwaltete Datenebene ist aufgrund eines internen Fehlerzustands für den Betrieb blockiert. Sollte das Problem weiterhin auftreten, wenden Sie sich bitte an den Support. |
NEEDS_ATTENTION |
UPGRADE_FAILURES |
Die verwaltete Datenebene erfordert manuelle Eingriffe, um den Dienst wieder in den normalen Status zu versetzen. Weitere Informationen und Hinweise zur Behebung dieses Problems finden Sie unter dem NEEDS_ATTENTION-Status. |
NEEDS_ATTENTION-Status
Wenn der Befehl gcloud container fleet mesh describe anzeigt, dass der Status der verwalteten Datenebene den Status NEEDS_ATTENTION und der Code UPGRADE_FAILURES hat, konnte die verwaltete Datenebene bestimmte Arbeitslasten nicht aktualisieren. finden Sie weitere Informationen. Diese Arbeitslasten werden vom weiteren Dienst der verwalteten Datenebene zur weiteren Analyse mit dataplane-upgrade: failed gekennzeichnet. Die Proxys müssen manuell neu gestartet werden, um ein Upgrade durchzuführen. Führen Sie den folgenden Befehl aus, um die Liste der Pods abzurufen, die Ihre Aufmerksamkeit erfordern:
kubectl get pods --all-namespaces -l dataplane-upgrade=failed
Fehler bei der Clustermitgliedschaft (kein Identitätsanbieter angegeben)
Das Installationstool kann mit folgenden Fehlern bei der Clustermitgliedschaft fehlschlagen:
asmcli: [ERROR]: Cluster has memberships.hub.gke.io CRD but no identity
provider specified. Please ensure that an identity provider is available for the
registered cluster.
Der Fehler kann auftreten, wenn Sie vor der Registrierung des Clusters
GKE-Workload Identity nicht aktiviert haben. Sie können den Cluster in der Befehls
zeile mit dem
gcloud container fleet memberships register --enable-workload-identity Befehl noch einmal registrieren.
Status der verwalteten Steuerungsebene prüfen
Führen Sie
gcloud container fleet mesh describe --project FLEET_PROJECT_ID aus, um den Status der verwalteten Steuerungsebene zu prüfen.
Im Feld membershipStates[].servicemesh.controlPlaneManagement.details der Antwort wird möglicherweise der spezifische Fehler erläutert.
Wenn Sie weitere Informationen benötigen, prüfen Sie die benutzerdefinierte Ressource ControlPlaneRevision im Cluster. Sie wird aktualisiert, wenn die verwaltete Steuerungsebene bereitgestellt wird oder wenn die Bereitstellung fehlschlägt.
Ersetzen Sie NAME durch den Wert
des jeweiligen Kanals, um den Status der Ressource zu prüfen: asm-managed, asm-managed-stable oder
asm-managed-rapid.
kubectl describe controlplanerevision NAME -n istio-system
Die Ausgabe sieht etwa so aus:
Name: asm-managed
…
Status:
Conditions:
Last Transition Time: 2021-08-05T18:56:32Z
Message: The provisioning process has completed successfully
Reason: Provisioned
Status: True
Type: Reconciled
Last Transition Time: 2021-08-05T18:56:32Z
Message: Provisioning has finished
Reason: ProvisioningFinished
Status: True
Type: ProvisioningFinished
Last Transition Time: 2021-08-05T18:56:32Z
Message: Provisioning has not stalled
Reason: NotStalled
Status: False
Type: Stalled
Die Bedingung Reconciled ermittelt, ob die verwaltete Steuerungsebene ordnungsgemäß ausgeführt wird. Wenn true gilt, wird die Steuerungsebene erfolgreich ausgeführt.
Stalled gibt an, ob bei der Bereitstellung der verwalteten Steuerungsebene ein Fehler festgestellt wurde. Bei Stalled enthält das Feld Message weitere Informationen zum jeweiligen Fehler. Weitere Informationen zu möglichen Fehlern finden Sie unter
Fehlercodes.
Stalled-Codes von ControlPlaneRevision
Es gibt mehrere Gründe, warum die Bedingung Stalled im Status ControlPlaneRevisions erfüllt sein kann.
| Grund | Meldung | Beschreibung |
|---|---|---|
| PreconditionFailed | Es werden nur GKE-Mitgliedschaften unterstützt, wobei ${CLUSTER_NAME} kein GKE-Cluster ist. | Der aktuelle Cluster scheint kein GKE-Cluster zu sein. Eine verwaltete Steuerungsebene funktioniert nur in GKE-Clustern. |
| Nicht unterstützter ControlPlaneRevision-Name: ${NAME}. | Der Name von ControlPlaneRevision muss einer der folgenden sein:
|
|
| Nicht unterstützter ControlPlaneRevision-Namespace: ${NAMESPACE}. | Der Namespace von ControlPlaneRevision muss istio-system sein. |
|
| Nicht unterstützter Kanal ${CHANNEL} für ControlPlaneRevision mit dem Namen ${NAME}. Erwartet wird ${OTHER_CHANNEL}. | Der Name von ControlPlaneRevision muss mit dem Kanal von ControlPlaneRevision übereinstimmen:
|
|
| Der Kanal darf nicht weggelassen werden oder leer sein. | Channel ist ein Pflichtfeld für ControlPlaneRevision. Es fehlt in der benutzerdefinierten Ressource oder ist leer. |
|
| Nicht unterstützter Überarbeitungstyp der Steuerungsebene: ${TYPE}. | managed_service ist das einzige zulässige Feld für das Feld ControlPlaneRevisionType. |
|
| Nicht unterstützte Kubernetes-Version: ${VERSION}. | Kubernetes-Versionen ab 1.15 werden unterstützt. | |
| Workload Identity ist nicht aktiviert. | Aktivieren Sie Workload Identity in Ihrem Cluster. | |
| Nicht unterstützter Arbeitslastpool: ${POOL}. | Der Arbeitslastpool muss das Format ${PROJECT_ID}.svc.id.goog haben. |
|
| ProvisioningFailed | Beim Aktualisieren von Clusterressourcen ist ein Fehler aufgetreten. | Google konnte Ihre clusterinternen Ressourcen wie CRDs und Webhooks nicht aktualisieren. |
| „istioistiod-asm-managed“ von MutatingWebhookConfiguration enthält einen Webhook mit der URL ${EXISTING_URL}. Es wird aber ${EXPECTED_URL} erwartet. | Google überschreibt keine vorhandenen Webhooks, damit die Installation nicht geändert wird. Aktualisieren Sie diesen manuell, wenn es erforderlich ist. | |
| ValidatingWebhookConfiguration ${NAME} enthält einen Webhook mit der URL ${EXISTING_URL}. Es wird aber ${EXPECTED_URL} erwartet. | Google überschreibt keine vorhandenen Webhooks, damit die Installation nicht geändert wird. Aktualisieren Sie diesen manuell, wenn es erforderlich ist. |
Verwaltetes Cloud Service Mesh kann keine Verbindung zum GKE-Cluster herstellen
Zwischen Juni 2022 und September 2022, hat Google Sicherheitsarbeiten im Zusammenhang mit autorisierten Netzwerken, Cloud Run und Cloud Run Functions in der Google Kubernetes Engine (GKE) abgeschlossen. Projekte, in denen zuvor verwaltetes Cloud Service Mesh verwendet wurde, die es aber vor der Migration nicht mehr verwendet haben, haben nicht die API, die für die Kommunikation zwischen Cloud Run und GKE erforderlich ist.
In diesem Szenario schlägt die Bereitstellung von verwaltetem Cloud Service Mesh fehl und in Cloud Logging wird die folgende Fehlermeldung angezeigt:
Connect Gateway API has not been used in project [*PROJECT_NUMBER*] before or it is disabled.
Enable it by visiting https://console.developers.google.com/apis/api/connectgateway.googleapis.com/overview?project=[*PROJECT_NUMBER*] then retry.
If you enabled this API recently, wait a few minutes for the action to propagate to our systems and retry.
Filtern Sie diese Meldung mit der folgenden Abfrage:
resource.type="istio_control_plane"
resource.labels.project_id=[*PROJECT_ID*]
resource.labels.location=[*REGION*]
severity=ERROR
jsonPayload.message=~"Connect Gateway API has not been used in project"
In der Zwischenzeit schlagen auch die Sidecar-Einfügung und die Bereitstellung von benutzerdefinierten Kubernetes-Ressourcen im Zusammenhang mit Cloud Service Mesh fehl und in Cloud Logging wird die folgende Warnmeldung angezeigt:
Error creating: Internal error occurred: failed calling webhook
"rev.namespace.sidecar-injector.istio.io": failed to call webhook: an error on
the server ("unknown") has prevented the request from succeeding.
Filtern Sie diese Meldung mit der folgenden Abfrage:
resource.type="k8s_cluster"
resource.labels.project_id=[*PROJECT_ID*]
resource.labels.location=[*REGION*]
resource.labels.cluster_name=[*CLUSTER_NAME*]
severity=WARNING
jsonPayload.message=~"Internal error occurred: failed calling webhook"
So beheben Sie das Problem:
Aktivieren Sie die erforderliche
connectgatewayAPI:gcloud services enable connectgateway.googleapis.com --project=[*PROJECT_ID*]Führen Sie einen rollierenden Neustart der Arbeitslasten durch.
Google Cloud APIs sind nicht aktiviert
Wenn Ihre verwaltete Cloud Service Mesh-Flotte die TRAFFIC_DIRECTOR
Implementierung der Steuerungsebene verwendet,
müssen bestimmte APIs aktiviert sein.
Aktivieren Sie alle erforderlichen APIs, einschließlich der APIs, die als "Kann deaktiviert werden" aufgeführt sind, wenn Sie kein verwaltetes Cloud Service Mesh verwenden.
gcloud services enable --project=[*PROJECT_ID*] \ trafficdirector.googleapis.com \ networkservices.googleapis.com \ networksecurity.googleapis.comAchten Sie darauf, dass Sie keine automatisierten Tools nutzen, die diese Änderung rückgängig machen. Tritt der Fehler wieder auf, aktualisieren Sie alle relevanten Konfigurationen oder Zulassungslisten.