Servizi di archiviazione

Questo documento descrive i casi d'uso e i consigli per i servizi di archiviazione nei carichi di lavoro di intelligenza artificiale (AI) e machine learning (ML).

Casi d'uso di Storage

I servizi di archiviazione possono essere utilizzati nei seguenti carichi di lavoro di AI e ML:

  • Preparazione e caricamento dei dati per l'addestramento
  • Caricamento dei pesi del modello per l'inferenza
  • Salvataggio e ripristino dei checkpoint del modello
  • Caricamento delle immagini VM
  • Dati di logging
  • Home directory
  • Caricamento di librerie, pacchetti e dipendenze dell'applicazione

Suggerimenti per lo spazio di archiviazione

Per ottimizzare le prestazioni del sistema AI e ML, ti consigliamo le seguenti soluzioni di archiviazione:

Servizio di archiviazione Funzionalità Casi d'uso
Cloud Storage

Panoramica: un archivio di oggetti a elevata scalabilità, elevata durabilità e basso costo. È adatto per archiviare i vasti set di dati necessari per l'addestramento e i checkpoint del modello, nonché per ospitare i modelli addestrati finali. Cloud Storage con Cloud Storage FUSE è la soluzione di archiviazione consigliata per la maggior parte dei casi d'uso di AI e ML perché ti consente di scalare l'archiviazione dei dati in modo più conveniente rispetto ai servizi di file system.

  • Supporta dati di addestramento su larga scala (fino a EB) per cluster GPU e TPU.
  • Supporta velocità effettiva elevata (larghezza di banda fino a 1,25 TB/s o superiore). Per massimizzare la velocità effettiva in Cloud Storage, richiedi una larghezza di banda maggiore.
  • Grazie all'integrazione con Cloud Storage FUSE, i bucket Cloud Storage possono essere montati come file system locali. Il driver CSI di Cloud Storage FUSE ti consente inoltre di montare i bucket come file system locali in Google Kubernetes Engine (GKE) per i workload AI e ML scalati.
  • Utilizza Anywhere Cache per collocare lo spazio di archiviazione nella stessa zona dei workload di calcolo, fornendo throughput più elevato (fino a 2,5 TB/s), latenza inferiore e flessibilità della posizione se utilizzato con un bucket multiregionale.
  • Per saperne di più sull'utilizzo di Cloud Storage FUSE per i carichi di lavoro di AI e ML, consulta Ottimizzare i carichi di lavoro di AI e ML con Cloud Storage FUSE.

Consigliato per:

  • Efficienza in termini di costi
  • Elaborazione e preparazione dei dati
  • Addestramento e inferenza del modello
  • Salvataggio e ripristino dei checkpoint del modello

Non consigliato per:

  • Applicazioni che richiedono la piena conformità a POSIX
  • Home directory
Google Cloud Managed Lustre

Panoramica: un file system parallelo ad alte prestazioni completamente gestito ottimizzato per applicazioni di AI e high performance computing (HPC). Adatto ad ambienti in cui più nodi di calcolo devono accedere in modo rapido e coerente a dati condivisi per simulazioni, modellazione e analisi.

  • Scalabilità fino a 8 PB di capacità e fino a 1 TB/s di throughput.
  • Supporta migliaia di IOPS/TiB.
  • Offre una latenza molto bassa inferiore a 1 ms.
  • Supporta completamente POSIX, il che consente la migrazione immediata dei workload AI on-premise a Google Cloud.
  • Per saperne di più sull'utilizzo di Managed Lustre per i workload AI e ML, consulta Ottimizzare i workload AI e ML con Google Cloud Managed Lustre.

Consigliato per:

  • Migrazione dei carichi di lavoro AI e ML al cloud
  • Simulazioni di modelli
  • Addestramento e inferenza del modello
  • Salvataggio e ripristino dei checkpoint del modello
  • Workload con letture e scritture piccole e frequenti
  • Home directory

Non consigliato per:

  • Workload che richiedono più di 8 PB di dati

Passaggi successivi