Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Informazioni sui servizi di archiviazione per i workload AI e ML

I servizi di archiviazione forniscono l'architettura dei dati essenziale che contribuisce a consentire l'addestramento, l'inferenza e l'ottimizzazione dei modelli ad alte prestazioni nell'ecosistema AI Hypercomputer. Sebbene siano disponibili più servizi di archiviazione in Google Cloud, la scelta più adatta dipende dai requisiti di I/O, throughput, scalabilità e latenza per i casi d'uso all'interno del ciclo di vita dell'intelligenza artificiale (AI) e del machine learning (ML).

Questo documento introduce e confronta i servizi di archiviazione in Google Cloud grado di aiutarti a ottimizzare le prestazioni della GPU o della TPU. Fornisce inoltre consigli sul servizio ideale per casi d'uso specifici di AI e ML.

Introduzione ai servizi di archiviazione

Google Cloud offre diverse soluzioni di archiviazione ottimizzate per i casi d'uso di AI e ML:

Cloud Storage è un sistema di archiviazione di oggetti progettato per l'elaborazione e l'archiviazione di set di dati di grandi dimensioni, come quelli necessari per l'addestramento o l'inferenza collettiva. Cloud Storage offre diverse funzionalità per aiutarti a ottimizzare l'archiviazione dei dati per le attività di AI e ML.
Google Cloud Managed Lustre è un file system parallelo completamente gestito e conforme a POSIX progettato per le prestazioni di metadati specializzate, a bassa latenza e ad alta concorrenza richieste per i workload di addestramento e inferenza.

Le sezioni seguenti forniscono ulteriori informazioni su ciascun servizio di archiviazione.

Cloud Storage

Cloud Storage è un archivio di oggetti di base progettato per offrire scalabilità globale, durabilità ed efficienza in termini di costi. Quando utilizzi Cloud Storage, i dati vengono archiviati come oggetti in container chiamati bucket. Cloud Storage offre diverse funzionalità per i bucket che contribuiscono a ottimizzare le prestazioni dei workload di AI e ML:

I prodotti della famiglia Cloud Storage Rapid sono progettati per eliminare i colli di bottiglia dei dati per i workload di AI e ML avvicinando i dati alle risorse di computing. Questi prodotti ti consentono di collocare i dati nelle stesse zone dei workload di computing e di scalare l'archiviazione dei dati in modo efficiente in termini di costi e prestazioni per i cluster di GPU o TPU. I prodotti Cloud Storage Rapid includono:
- Rapid Bucket offre le prestazioni di lettura e scrittura più veloci in Cloud Storage per i bucket di zona. Gli oggetti nei bucket di zona vengono archiviati nella classe di archiviazione Rapid, una classe di archiviazione ad alte prestazioni ottimizzata per i workload con uso intensivo di I/O. Oltre a una latenza inferiore, Rapid Bucket offre un throughput significativamente più elevato (fino a 15 TB/s) rispetto ad altri prodotti e località di bucket in Cloud Storage.
- Rapid Cache accelera le letture dei dati nei bucket esistenti senza richiedere modifiche al codice. Rapid Cache è una cache di lettura di zona basata su SSD per i bucket Cloud Storage che viene utilizzata per gestire i dati per le richieste di lettura dei dati. Il prodotto offre un throughput più elevato (fino a 2,5 TB/s) e una latenza inferiore rispetto ai bucket senza cache.
  
  Rapid Cache viene spesso configurato per i bucket multi-regionali, dove la capacità dell'acceleratore è frammentata tra le Google Cloud regioni. I dati letti dalla cache comportano tariffe di trasferimento dei dati ridotte rispetto ai dati letti direttamente da un bucket multi-regionale.
Cloud Storage FUSE è un adattatore FUSE open source che ti consente di montare i bucket come file system locali, consentendo alle applicazioni di interagire con l'archiviazione di oggetti utilizzando la semantica standard del file system. Questa funzionalità ti consente di sfruttare la scalabilità globale, la durabilità e l'efficienza in termini di costi di Cloud Storage con l'accesso ai file locali. Cloud Storage FUSE è gestito e supportato attivamente da Google.

Cloud Storage FUSE offre diversi parametri di memorizzazione nella cache e ottimizzazione lato client, come i download paralleli. Queste funzionalità possono astrarre le complessità di sviluppo e contribuire a ottenere prestazioni ottimali mediante lo sharding o la parallelizzazione degli stream.
Lo spazio dei nomi gerarchico consente una vera struttura di file system nei bucket e fornisce funzionalità di gestione dei dati efficienti, tra cui la ridenominazione delle cartelle a livello atomico e ricerche di file più rapide quando il bucket viene montato con Cloud Storage FUSE. Lo spazio dei nomi gerarchico offre 8 volte più query al secondo (QPS) per le letture e le scritture di oggetti rispetto ai bucket senza spazio dei nomi gerarchico. Per ulteriori informazioni sui vantaggi dell'utilizzo dello spazio dei nomi gerarchico, consulta Vantaggi in termini di prestazioni e gestione.

L'abilitazione dello spazio dei nomi gerarchico è vivamente consigliata quando hai workload che richiedono il caricamento di dati con throughput elevato e il checkpointing frequente dei modelli. L'abilitazione dello spazio dei nomi gerarchico è obbligatoria quando crei bucket di zona con Rapid Bucket.

Managed Lustre

Google Cloud Managed Lustre è un file system parallelo ad alte prestazioni, conforme a POSIX e completamente gestito, ottimizzato per le applicazioni di AI e ML. L'architettura di Managed Lustre è ideale per i workload di AI/ML con throughput elevato, bassa latenza e alta concorrenza di metadati, come il checkpointing, la propagazione rapida dei pesi nel reinforcement learning e la memorizzazione nella cache di valori chiave (KV).

Per ulteriori informazioni sui casi d'uso comuni di Managed Lustre, consulta Casi aziendali.

Confronto tra i servizi di archiviazione

La tabella seguente fornisce un confronto di alto livello tra Cloud Storage e Managed Lustre in base alle caratteristiche principali:

Caratteristiche	Cloud Storage	Managed Lustre
Architettura	Archivio di oggetti Per impostazione predefinita, i dati vengono archiviati in bucket semplici. Tutti i tipi di bucket (di zona, di regione, a due regioni e multi-regionali) offrono opzioni di ridondanza geografica che possono essere accelerate con le funzionalità di Cloud Storage Rapid. Facoltativamente, puoi abilitare lo spazio dei nomi gerarchico per creare bucket che supportano l'archiviazione dei dati in una struttura di file system. Facoltativamente, puoi abilitare Cloud Storage FUSE per montare i bucket come file system locali.	File system parallelo I dati vengono archiviati come file in istanze di Managed Lustre e montati come file system locali nei cluster di acceleratori senza ulteriori esigenze di ottimizzazione.
Capacità dello spazio di archiviazione	Scalabilità fino a EB di capacità.	Scalabilità fino a 80 PB di capacità, a seconda del livello di prestazioni dell'istanza.
Prestazioni	Supporta quanto segue: Latenza inferiore al millisecondo per i file aperti con Rapid Bucket Decine di milioni di IOP/TiB con Rapid Bucket Fino a 2,5 TB/s di larghezza di banda con Rapid Cache Fino a 15 TB/s di larghezza di banda con Rapid Bucket Richieste di aumento della larghezza di banda	Supporta quanto segue: Latenza inferiore al millisecondo Decine di milioni di IOP/TiB Fino a 10 TB/s di larghezza di banda
Prezzi	Per i dettagli, consulta Prezzi di Cloud Storage.	Per i dettagli, consulta Prezzi di Managed Lustre.
Consigli in base ai requisiti	Consigliato per le applicazioni che richiedono un archivio di oggetti scalabile ed efficienza in termini di costi generali per i set di dati di addestramento, il checkpointing asincrono a più livelli e l'archiviazione dei pesi dei modelli. In particolare, Cloud Storage Rapid è consigliato per la scalabilità dei dati ad alte prestazioni ed economicamente vantaggiosa.	Consigliato per le applicazioni che richiedono un file system parallelo completamente conforme a POSIX o directory home. Consigliato anche per i workload sensibili alla latenza o con elevata concorrenza di metadati, come gli offload della memorizzazione nella cache di valori chiave, il checkpointing sincrono e la propagazione rapida dei pesi per il reinforcement learning.

Consigli sui servizi di archiviazione in base al caso d'uso

Caso d'uso	Consiglio sul servizio di archiviazione	Motivo del consiglio
Addestramento e preparazione dei set di dati	Consiglio principale: Cloud Storage bucket Rapid	I bucket Cloud Storage forniscono la capacità, la scalabilità del throughput, efficienza in termini di costi e la durabilità spesso necessari per volumi enormi di set di dati di addestramento e inferenza. Quando utilizzi Rapid Bucket per creare un bucket di zona, quest'ultimo beneficia di un throughput molto elevato e di una latenza inferiore al millisecondo per i file aperti a un costo ottimale.
Addestramento e preparazione dei set di dati	Consiglio secondario: Managed Lustre	Managed Lustre offre una latenza inferiore al millisecondo. È utile come spazio di lavoro dedicato e ultraveloce per le attività di addestramento e preparazione dei set di dati più intensive, in cui le prestazioni di bassa latenza e concorrenza dei metadati sono una priorità elevata.
Spostamento o salvataggio dei pesi dei modelli per il checkpointing o trasferimenti di pesi	Consiglio principale: Managed Lustre	Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, consentendo a migliaia di worker di implementazione di estrarre contemporaneamente lo stesso file di pesi senza rallentare.
	Consiglio secondario: Cloud Storage bucket Cloud Storage Rapid	Rapid Bucket è adatto per il checkpointing asincrono a più livelli o distribuito quando viene utilizzato con GCSFS tramite `fsspec` o Cloud Storage FUSE con l'ottimizzazione delle prestazioni lato client.
Archiviazione e download di modelli per l'inferenza	Consiglio principale: Cloud Storage Rapid Cache o Rapid Bucket	Rapid Cache funge da booster che contribuisce a ridurre l'avvio a freddo dell'inferenza. Con Rapid Cache, i pesi dei modelli possono essere pre-riscaldati nella stessa zona dei nodi di inferenza, consentendo a una nuova istanza di inferenza di scaricare rapidamente i pesi dei modelli ed elaborare la prima richiesta. Rapid Bucket funge da motore di archiviazione di zona accelerato e ad alte prestazioni, consentendoti di individuare i pesi dei modelli nella stessa zona della flotta di inferenza. Per l'erogazione del modello, ti consigliamo di utilizzare il Run:ai Model Streamer per vLLM per ottenere prestazioni di download ottimali. Per altri stack di inferenza, l'ottimizzazione dei parametri di download parallelo di Cloud Storage FUSE può ridurre significativamente la latenza di avvio a freddo durante i download dei pesi dei modelli.
Archiviazione e download di modelli per l'inferenza	Consiglio secondario: Managed Lustre	Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, a vantaggio dei modelli sensibili alle prestazioni e della scalabilità delle GPU simultanee che scaricano contemporaneamente lo stesso modello simultaneamente.
Offload della cache di valori chiave	Consiglio principale: Managed Lustre	Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, consentendo a nodi diversi di "estrarre" la cache di valori chiave e riprendere le chat senza rielaborare l'intera cronologia della chat.

Passaggi successivi

Scopri di più su Cloud Storage Rapid, una famiglia di prodotti di Cloud Storage progettati per l'AI, il ML e l'analisi con uso intensivo dei dati.
Scopri come ottimizzare le prestazioni quando utilizzi Cloud Storage FUSE o il driver CSI di Cloud Storage FUSE per scaricare i set di dati.
Scopri come accelerare il caricamento dei modelli su Google Kubernetes Engine.

Informazioni sui servizi di archiviazione per i workload AI e ML Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.