In diesem Dokument werden Best Practices für die Erstellung einer sicheren und stabilen Netzwerkumgebung für AI Hypercomputer-Arbeitslasten beschrieben. Diese Empfehlungen richten sich an Netzwerkarchitekten, Netzwerktechniker und Entwickler, die Arbeitslasten für künstliche Intelligenz (KI) und maschinelles Lernen (ML) auf AI Hypercomputer konfigurieren und bereitstellen möchten.
Klare und eingeschränkte IAM-Rollen einrichten
Wenn Sie IAM richtig konfigurieren, können Sie die Sicherheit und den Erfolg Ihrer AI Hypercomputer-Bereitstellungen verbessern. In Produktionsumgebungen können unzureichende oder falsch konfigurierte Berechtigungen zu Bereitstellungsfehlern führen. AI Hypercomputer-Bereitstellungen, insbesondere solche, die Cluster Toolkit verwenden, schlagen häufig in Umgebungen mit erhöhten Sicherheitsanforderungen fehl, in denen das Compute Engine-Standarddienstkonto nicht die umfassende Rolle Editor hat.
Um Bereitstellungsprobleme zu vermeiden, die aufgrund von Berechtigungsproblemen auftreten können, sollten Sie die Best Practices in diesem Abschnitt befolgen.
Dedizierte Dienstkonten verwenden
Aus Sicherheits- und Kontrollgründen sollten Sie das Compute Engine-Standarddienstkonto nicht verwenden. Erstellen Sie stattdessen ein dediziertes Dienstkonto für Ihre AI Hypercomputer-Bereitstellung.
Erforderliche IAM-Rollen zuweisen
Weisen Sie dem von Ihnen erstellten dedizierten Dienstkonto die folgenden IAM-Rollen zu:
- Compute-Administrator (
roles/compute.admin): Bietet vollständige Kontrolle über Compute Engine-Ressourcen. - Dienstkontonutzer (
roles/iam.serviceAccountUser): Ermöglicht das Anhängen des Dienstkontos an andere Ressourcen, was für Tools wie Packer beim Erstellen benutzerdefinierter Images unerlässlich ist. - Storage-Administrator (
roles/storage.admin): Erfordert Zugriff auf und Verwaltung von Cloud Storage-Buckets, z. B. zum Speichern von Packer-Images oder anderen Artefakten. - Logging Admin (
roles/logging.admin): Ermöglicht dem Dienstkonto, das Logging zu konfigurieren und Logs anzusehen, was für das Debugging unerlässlich ist.
Berechtigungen vor der Bereitstellung prüfen
Prüfen Sie vor Beginn der Bereitstellung, ob Ihr Dienstkonto die erforderlichen Berechtigungen hat. Führen Sie den Befehl gcloud projects get-iam-policy aus:
gcloud projects get-iam-policy PROJECT_ID \
--flatten="bindings[].members" \ format='table(bindings.role)' \
--filter="bindings.members:serviceAccount:SERVICE_ACCOUNT_EMAIL"
Ersetzen Sie Folgendes:
PROJECT_ID: Die ID Ihres Google Cloud -Projekts.SERVICE_ACCOUNT_EMAIL: Die E-Mail-Adresse des Dienstkontos, das Sie bestätigen möchten.
Mit diesem Befehl werden alle Rollen aufgelistet, die Ihrem Dienstkonto für das angegebene Projekt zugewiesen sind. Prüfen Sie, ob die in Erforderliche IAM-Rollen zuweisen aufgeführten Rollen in der Ausgabe angezeigt werden.
Zugriff auf öffentliche Netzwerke einschränken und Firewallkonfigurationen härten
Schränken Sie den öffentlichen Netzwerkzugriff ein und härten Sie die Firewallkonfigurationen, um die Sicherheit zu verbessern. Diese grundlegende Sicherheitsmaßnahme verringert das Risiko von Standardfirewallregeln, die übermäßige Berechtigungen gewähren.
Fehler bei der Einrichtung virtueller Maschinen (VMs) können in Produktionsumgebungen aufgrund restriktiver Firewallkonfigurationen auftreten, die bei internen Tests nicht vorhanden sind. Ohne Kenntnis bestimmter Firewallregeln haben Techniker möglicherweise Schwierigkeiten, diese Fehler zu diagnostizieren.
Prüfen und aktualisieren Sie Ihre Firewallregeln, um die direkte Gefährdung durch das Internet zu minimieren. Weitere Informationen zu VPC-Firewallregeln finden Sie unter VPC-Firewallregeln.
Standardeinstellungen für interne Netzwerke standardisieren
Standardisieren Sie die internen Netzwerkstandardeinstellungen, um Risiken und Konfigurationsherausforderungen zu reduzieren. Standardmäßiges Netzwerkverhalten kann in komplexen oder sicherheitsoptimierten Umgebungen Risiken oder Konfigurationsherausforderungen mit sich bringen. Google empfiehlt die folgenden Konfigurationen:
- Zonales DNS verwenden:Legen Sie für neue Projekte das interne Domain Name System (DNS) auf „Nur zonales DNS“ fest. Dieser Ansatz trägt dazu bei, die Auswirkungen eines potenziellen globalen DNS-Ausfalls zu reduzieren. Weitere Informationen zur Verwendung von zonalen DNS-Namen finden Sie unter Übersicht zur Verwendung von zonalen DNS-Namen.
- Externe IP-Adressen deaktivieren:Deaktivieren Sie externe IP-Adressen, sofern möglich. Bevor Sie die IP-Adressen deaktivieren, müssen Sie sorgfältig planen und in einer Staging-Umgebung testen, da einige Dienste wie verwaltete Instanzgruppen (MIGs) oder GKE-Cluster mit öffentlichen Knoten darauf angewiesen sind. Weitere Informationen zum Einschränken öffentlicher IP-Adressen finden Sie unter Öffentliche IP-Adressen in Google Cloud einschränken.
Zusammenfassung der Best Practices
In der folgenden Tabelle sind die Best Practices zusammengefasst, die in diesem Dokument empfohlen werden:
| Thema | Aufgabe |
|---|---|
| IAM | Klare und eingeschränkte IAM-Rollen einrichten |
| Firewall | Öffentlichen Netzwerkzugriff einschränken und Firewallkonfigurationen härten |
| Netzwerkstandardeinstellungen | Standardeinstellungen für interne Netzwerke standardisieren |
Nächste Schritte
- Weitere Informationen zu Best Practices für die Verwendung von Dienstkonten
- Weitere Informationen zu VPC-Firewallregeln
- Weitere Informationen zur Netzwerkarchitektur des AI Hypercomputer