Questo documento descrive le best practice per la creazione di un ambiente di rete sicuro e resiliente per i workload di AI Hypercomputer. Questi consigli sono destinati ad architetti di rete, ingegneri di rete e sviluppatori che vogliono configurare ed eseguire il deployment di workload di intelligenza artificiale (AI) e machine learning (ML) su AI Hypercomputer.
Stabilire ruoli IAM chiari e limitati
La configurazione corretta di IAM contribuisce a migliorare la sicurezza e
l'esito positivo dei deployment di AI Hypercomputer. Negli ambienti di produzione, autorizzazioni inadeguate o configurate in modo errato possono causare errori di deployment. I deployment di AI Hypercomputer, in particolare quelli che utilizzano
Cluster Toolkit, spesso non riescono
in ambienti con misure di sicurezza avanzate in cui iaccount di serviziont Compute Engine
predefinito non dispone del ruolo Editor.
Per contribuire a ridurre i problemi di deployment che potrebbero verificarsi a causa di problemi di autorizzazione, segui le best practice elencate in questa sezione.
Utilizza service account dedicati
Per una maggiore sicurezza e controllo, evita di utilizzare il account di servizio predefinito di Compute Engine. Crea invece un account di servizio dedicato per il deployment di AI Hypercomputer.
Concedi i ruoli IAM necessari
Concedi i seguenti ruoli IAM al account di servizio dedicato che hai creato:
- Compute Admin (
roles/compute.admin): fornisce il controllo completo delle risorse di Compute Engine. - Utente service account (
roles/iam.serviceAccountUser): consente di collegare il account di servizio ad altre risorse, il che è fondamentale per strumenti come Packer durante la creazione di immagini personalizzate. - Amministratore storage (
roles/storage.admin): richiede l'accesso e la gestione dei bucket Cloud Storage, ad esempio per archiviare immagini Packer o altri artefatti. - Amministratore di logging (
roles/logging.admin): consente al account di servizio di configurare la registrazione e visualizzare i log, il che è essenziale per il debug.
Verifica le autorizzazioni prima del deployment
Prima di iniziare un deployment, verifica che il account di servizio disponga delle autorizzazioni necessarie. Esegui il comando gcloud projects get-iam-policy:
gcloud projects get-iam-policy PROJECT_ID \
--flatten="bindings[].members" \ format='table(bindings.role)' \
--filter="bindings.members:serviceAccount:SERVICE_ACCOUNT_EMAIL"
Sostituisci quanto segue:
PROJECT_ID: l'ID del tuo Google Cloud progetto.SERVICE_ACCOUNT_EMAIL: l'indirizzo email del account di servizio che vuoi verificare.
Questo comando elenca tutti i ruoli concessi al tuo account di servizio nel progetto specificato. Assicurati che i ruoli elencati in Concedere i ruoli IAM necessari siano visualizzati nell'output.
Limitare l'accesso alla rete pubblica e rafforzare le configurazioni del firewall
Limita l'accesso alla rete pubblica e rafforza le configurazioni del firewall per migliorare la sicurezza. Questa pratica di sicurezza fondamentale riduce il rischio di regole firewall predefinite troppo permissive.
Gli errori di configurazione della macchina virtuale (VM) possono verificarsi negli ambienti di produzione a causa di configurazioni firewall restrittive non presenti nei test interni. Gli ingegneri potrebbero avere difficoltà a diagnosticare questi errori senza conoscere regole firewall specifiche.
Rivedi e aggiorna le regole firewall per ridurre al minimo l'esposizione diretta a internet. Per saperne di più sulle regole firewall VPC, consulta Regole firewall VPC.
Standardizzare i valori predefiniti del networking interno
Standardizza le impostazioni predefinite di rete interna per ridurre i rischi e le difficoltà di configurazione. I comportamenti di rete predefiniti possono creare rischi o problemi di configurazione in ambienti complessi o con sicurezza avanzata. Google consiglia le seguenti configurazioni:
- Utilizza il DNS di zona:per i nuovi progetti, imposta il DNS (Domain Name System) interno su solo DNS di zona. Questo approccio contribuisce a ridurre l'impatto di un potenziale interruzione del DNS globale. Per saperne di più sull'utilizzo del DNS di zona, consulta Panoramica dell'utilizzo del DNS di zona.
- Disattiva gli indirizzi IP esterni:se possibile, disattiva gli indirizzi IP esterni. Prima di disattivare gli indirizzi IP, devi pianificare e testare attentamente in un ambiente di gestione temporanea, poiché alcuni servizi come i gruppi di istanze gestite (MIG) o i cluster GKE con nodi pubblici si basano su di essi. Per saperne di più sulla limitazione degli indirizzi IP pubblici, consulta Limitazione degli indirizzi IP pubblici su Google Cloud.
Riepilogo delle best practice
La tabella seguente riassume le best practice consigliate in questo documento:
| Argomento | Attività |
|---|---|
| IAM | Stabilire ruoli IAM chiari e limitati |
| Firewall | Limitare l'accesso alla rete pubblica e rafforzare le configurazioni del firewall |
| Rete predefinita | Standardizzare le impostazioni predefinite di rete interna |
Passaggi successivi
- Scopri di più sulle best practice per l'utilizzo dei service account.
- Scopri di più sulle regole firewall VPC.
- Scopri di più sull'architettura di rete di AI Hypercomputer.