Best Practices für die Sicherheit von Dataproc

Das Sichern Ihrer Dataproc-Umgebung ist entscheidend, um sensible Daten zu schützen und unbefugten Zugriff zu verhindern. In diesem Dokument werden wichtige Best Practices zur Verbesserung Ihrer Dataproc-Sicherheit beschrieben, einschließlich Empfehlungen für Netzwerksicherheit, Identity and Access Management, Verschlüsselung und sichere Clusterkonfiguration.

Netzwerksicherheit

  • Dataproc in einer privaten VPC bereitstellen. Erstellen Sie eine dedizierte Virtual Private Cloud für Ihre Dataproc-Cluster, um sie von anderen Netzwerken und dem öffentlichen Internet zu isolieren.

  • Private IPs verwenden. Um Ihre Dataproc-Cluster vor dem öffentlichen Internet zu schützen, verwenden Sie private IP-Adressen für mehr Sicherheit und Isolation.

  • Firewallregeln konfigurieren. Implementieren Sie strenge Firewallregeln, um den Traffic zu und von Ihren Dataproc-Clustern zu steuern. Lassen Sie nur die erforderlichen Ports und Protokolle zu.

  • Netzwerk-Peering verwenden. Für eine bessere Isolation richten Sie VPC-Netzwerk-Peering zwischen Ihrer Dataproc-VPC und anderen sensiblen VPCs ein, um die gesteuerte Kommunikation zu ermöglichen.

  • Component Gateway aktivieren. Aktivieren Sie beim Erstellen von Clustern das Dataproc Component Gateway, um sicher auf UIs des Hadoop-Ökosystems zuzugreifen, z. B. auf die YARN, HDFS oder Spark-Server-UI, anstatt die Firewallports zu öffnen.

Identity and Access Management

  • Berechtigungen isolieren. Verwenden Sie für verschiedene Cluster unterschiedliche Dienstkonten für die Datenebene. Weisen Sie Dienstkonten nur die Berechtigungen zu, die Cluster zum Ausführen ihrer Arbeitslasten benötigen.

  • Nicht auf das standardmäßige Dienstkonto von Google Compute Engine (GCE) verlassen. Verwenden Sie nicht das standardmäßige Dienstkonto für Ihre Cluster.

  • Das Prinzip der geringsten Berechtigung einhalten. Gewähren Sie Dataproc-Dienstkonten und -Nutzern nur die minimal erforderlichen Berechtigungen.

  • Rollenbasierte Zugriffssteuerung (RBAC) erzwingen. Erwägen Sie, für jeden Cluster IAM-Berechtigungen festzulegen.

  • Benutzerdefinierte Rollen verwenden. Erstellen Sie detaillierte benutzerdefinierte IAM-Rollen, die auf bestimmte Aufgaben in Ihrer Dataproc-Umgebung zugeschnitten sind.

  • Regelmäßig überprüfen. Prüfen Sie regelmäßig IAM-Berechtigungen und -Rollen, um übermäßige oder nicht verwendete Berechtigungen zu ermitteln und zu entfernen.

Verschlüsselung

  • Inaktive Daten verschlüsseln. Verwenden Sie für die Verschlüsselung inaktiver Daten den Cloud Key Management Service (KMS) oder vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK). Verwenden Sie außerdem Organisationsrichtlinien, um die Verschlüsselung inaktiver Daten bei der Clustererstellung zu erzwingen.

  • Daten bei der Übertragung verschlüsseln. Aktivieren Sie SSL/TLS für die Kommunikation zwischen Dataproc-Komponenten (durch Aktivieren des sicheren Hadoop-Modus) und externen Diensten. Dadurch werden Daten bei der Übertragung geschützt.

  • Sensible Daten beachten. Seien Sie vorsichtig beim Speichern und Übertragen sensibler Daten wie personenbezogener Daten oder Passwörter. Verwenden Sie bei Bedarf Verschlüsselungs- und Secrets-Verwaltungslösungen.

Sichere Clusterkonfiguration

  • Mit Kerberos authentifizieren. Um unbefugten Zugriff auf Cluster Ressourcen zu verhindern, implementieren Sie den sicheren Hadoop-Modus mit Kerberos Authentifizierung. Weitere Informationen finden Sie unter Sichere Mandantenfähigkeit mit Kerberos.

  • Ein starkes Hauptkennwort verwenden und KMS-basierten Speicher sichern. Bei Clustern, die Kerberos verwenden, konfiguriert Dataproc automatisch Sicherheitsfunktionen für alle Open-Source-Komponenten, die im Cluster ausgeführt werden.

  • OS Login aktivieren. Aktivieren Sie OS Login für zusätzliche Sicherheit beim Verwalten von Clusterknoten mit SSH.

  • Staging- und temporäre Buckets in Google Cloud Storage (GCS) trennen. Um die Berechtigungsisolation zu gewährleisten, trennen Sie Staging- und temporäre Buckets für jeden Dataproc-Cluster.

  • Secret Manager zum Speichern von Anmeldedaten verwenden. Mit Secret Manager können Sie Ihre sensiblen Daten wie API-Schlüssel, Passwörter und Zertifikate schützen. Verwenden Sie den Secret Manager, um Ihre Secrets in der gesamten Google Cloudzu verwalten, darauf zuzugreifen und sie zu prüfen.

  • Benutzerdefinierte Organisationseinschränkungen verwenden. Mit einer benutzerdefinierten Organisations richtlinie können Sie bestimmte Vorgänge für Dataproc-Cluster zulassen oder ablehnen. Wenn beispielsweise eine Anfrage zum Erstellen oder Aktualisieren eines Clusters die benutzerdefinierte Beschränkungsvalidierung, die durch Ihre Organisationsrichtlinie festgelegt wurde, nicht erfüllt, schlägt die Anfrage fehl und dem Aufrufer wird ein Fehler zurückgegeben.

Nächste Schritte

Weitere Informationen zu anderen Dataproc-Sicherheitsfunktionen: