Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Panoramica dei servizi di archiviazione per i carichi di lavoro AI e ML in AI Hypercomputer

I servizi di archiviazione forniscono l'architettura dei dati essenziale che contribuisce a consentire l'addestramento, l'inferenza e l'ottimizzazione dei modelli ad alte prestazioni nell'ecosistema AI Hypercomputer. Sebbene in Google Cloudsiano disponibili più servizi di archiviazione, la scelta più adatta dipende dai tuoi requisiti di I/O, throughput, scalabilità e latenza per i casi d'uso all'interno del ciclo di vita dell'intelligenza artificiale (AI) e del machine learning (ML).

Questo documento introduce e confronta i servizi di archiviazione in Google Cloud che possono aiutarti a ottimizzare al meglio le prestazioni di GPU o TPU. Fornisce inoltre consigli sul servizio ideale per casi d'uso specifici di AI e ML.

Introduzione ai servizi di archiviazione

Google Cloud offre più soluzioni di archiviazione ottimizzate per l'AI e i casi d'uso di ML:

Cloud Storage è un sistema di archiviazione di oggetti progettato per l'elaborazione e l'archiviazione di set di dati di grandi dimensioni, come quelli necessari per l'addestramento o l'inferenza collettiva. Cloud Storage offre diverse funzionalità per aiutarti a ottimizzare l'archiviazione dei dati per le attività di AI e ML.
Google Cloud Managed Lustre è un file system parallelo completamente gestito e conforme a POSIX progettato per le prestazioni dei metadati specializzate, a bassa latenza e ad alta concorrenza richieste per i workload di addestramento e inferenza.

Le sezioni seguenti forniscono ulteriori informazioni su ciascun servizio di archiviazione.

Cloud Storage

Cloud Storage è un archivio di oggetti di base progettato per offrire scalabilità globale, durabilità ed efficienza dei costi. Quando utilizzi Cloud Storage, memorizzi i dati come oggetti in container chiamati bucket. Cloud Storage offre diverse funzionalità per i bucket che aiutano a ottimizzare le prestazioni dei carichi di lavoro di AI e ML:

I prodotti della famiglia Cloud Storage Rapid sono progettati per eliminare i colli di bottiglia dei dati per i carichi di lavoro di AI e ML avvicinando i dati alle risorse di computing. Questi prodotti ti consentono di collocare i dati nelle stesse zone dei carichi di lavoro di computing e di scalare l'archiviazione dei dati in modo efficiente in termini di costi e con prestazioni elevate per i cluster GPU o TPU. I prodotti Cloud Storage Rapid includono quanto segue:
- Rapid Bucket offre le prestazioni di lettura e scrittura più veloci in Cloud Storage per i bucket di zona. Gli oggetti nei bucket di zona vengono archiviati nella classe di archiviazione Rapid, una classe di archiviazione ad alte prestazioni ottimizzata per i workload con uso intensivo di I/O. Oltre a una latenza inferiore, Rapid Bucket offre un throughput significativamente più elevato (fino a 15 TB/s) rispetto ad altri prodotti e posizioni dei bucket in Cloud Storage.
- Rapid Cache accelera le letture dei dati nei bucket esistenti senza richiedere modifiche al codice. Rapid Cache è una cache di lettura zonale basata su SSD per i bucket Cloud Storage che viene utilizzata per pubblicare i dati per le richieste di lettura dei dati. Il prodotto offre un throughput più elevato (fino a 2,5 TB/s) e una latenza inferiore rispetto ai bucket senza cache.
  
  Rapid Cache viene spesso configurato per i bucket multiregionali, dove la capacità dell'acceleratore è frammentata in Google Cloud regioni. I dati letti dalla cache comportano tariffe di trasferimento dei dati ridotte rispetto ai dati letti direttamente da un bucket multiregionale.
Cloud Storage FUSE è un adattatore FUSE open source che consente di montare i bucket come file system locali, consentendo alle applicazioni di interagire con l'archiviazione di oggetti utilizzando la semantica standard del file system. Questa funzionalità ti consente di sfruttare la scalabilità globale, la durabilità e l'efficienza in termini di costi di Cloud Storage con l'accesso ai file locali. Cloud Storage FUSE è gestito e supportato attivamente da Google.

Cloud Storage FUSE offre più parametri di memorizzazione nella cache e ottimizzazione lato client, ad esempio download paralleli. Queste funzionalità possono astrarre le complessità dello sviluppo e contribuire a ottenere il massimo rendimento mediante lo sharding o la parallelizzazione dei flussi.
Lo spazio dei nomi gerarchico consente una vera e propria struttura del file system nei bucket e fornisce funzionalità di gestione dei dati efficienti, tra cui la ridenominazione delle cartelle a livello atomico e ricerche di file più rapide quando il bucket è montato con Cloud Storage FUSE. Lo spazio dei nomi gerarchico offre un numero di query al secondo (QPS) 8 volte superiore per le letture e le scritture di oggetti rispetto ai bucket senza spazio dei nomi gerarchico. Per saperne di più sui vantaggi dell'utilizzo dello spazio dei nomi gerarchico, consulta Vantaggi in termini di prestazioni e gestione.

L'abilitazione dello spazio dei nomi gerarchico è consigliata quando hai carichi di lavoro che richiedono il caricamento di dati ad alta velocità effettiva e il checkpointing frequente dei modelli. L'abilitazione dello spazio dei nomi gerarchico è obbligatoria quando si creano bucket zonali con Rapid Bucket.

Managed Lustre

Google Cloud Managed Lustre è un file system parallelo completamente gestito, ad alte prestazioni e conforme a POSIX, ottimizzato per applicazioni di AI e ML. L'architettura Managed Lustre è ideale per workload AI/ML ad alta velocità effettiva, bassa latenza e alta concorrenza di metadati, come il checkpointing, la propagazione di pesi ad alta velocità nel reinforcement learning e la memorizzazione nella cache di coppie chiave-valore (KV).

Per maggiori informazioni sui casi d'uso comuni di Managed Lustre, consulta Scenari aziendali.

Confronto dei servizi di archiviazione

La tabella seguente fornisce un confronto di alto livello tra Cloud Storage e Managed Lustre in base alle caratteristiche principali:

Caratteristiche	Cloud Storage	Managed Lustre
Architettura	Archivio di oggetti Per impostazione predefinita, i dati vengono archiviati in bucket flat. Tutti i tipi di bucket (zonale, regionale, a due regioni e multiregionale) offrono opzioni di ridondanza geografica che possono essere accelerate con le funzionalità di Cloud Storage Rapid. Se vuoi, puoi attivare lo spazio dei nomi gerarchico per creare bucket che supportano l'archiviazione dei dati in una struttura di file system. Se vuoi, puoi attivare Cloud Storage FUSE per montare i bucket come file system locali.	File system parallelo I dati vengono archiviati come file nelle istanze Managed Lustre e montati come file system locali nei cluster di acceleratori senza necessità di ulteriori modifiche.
Capacità dello spazio di archiviazione	Scalabilità fino a EB di capacità.	Scalabile fino a 80 PB di capacità, a seconda del livello di prestazioni dell'istanza.
Prestazioni	Supporta quanto segue: Latenza inferiore al millisecondo per i file aperti con Rapid Bucket Decine di milioni di IOP/TiB con Rapid Bucket Fino a 2,5 TB/s di larghezza di banda con Rapid Cache Fino a 15 TB/s di larghezza di banda con Rapid Bucket Richieste di aumento della larghezza di banda	Supporta quanto segue: Latenza inferiore al millisecondo Decine di milioni di IOP/TiB Fino a 10 TB/s di larghezza di banda
Prezzi	Per i dettagli, consulta la pagina Prezzi di Cloud Storage.	Per i dettagli, consulta Prezzi di Managed Lustre.
Consigli in base ai requisiti	Consigliato per le applicazioni che necessitano di un archivio di oggetti scalabile e di un'efficienza dei costi generale per i set di dati di addestramento, il checkpointing asincrono a più livelli e l'archiviazione dei pesi del modello. In particolare, Cloud Storage Rapid è consigliato per la scalabilità dei dati ad alte prestazioni ed economicamente vantaggiosa.	Consigliato per le applicazioni che richiedono un file system parallelo o directory home completamente conformi a POSIX. Consigliato anche per carichi di lavoro sensibili alla latenza o con concorrenza di metadati elevata, come scaricamenti della memorizzazione nella cache KV, checkpointing sincrono e propagazione dei pesi ad alta velocità per l'apprendimento per rinforzo.

Consigli sul servizio di archiviazione per caso d'uso

Caso d'uso	Suggerimento per il servizio di archiviazione	Motivo del consiglio
Addestramento e preparazione dei set di dati	Suggerimento principale: Cloud Storage Rapid Bucket	I bucket Cloud Storage offrono la capacità, la scalabilità della velocità effettiva, l'efficienza dei costi e la durabilità spesso necessari per volumi massicci di set di dati di addestramento e inferenza. Quando utilizzi Rapid Bucket per creare un bucket zonale, quest'ultimo beneficia di una velocità effettiva molto elevata (fino a 15 TB/s) e di una latenza inferiore al millisecondo per i file aperti a un costo ottimale.
Addestramento e preparazione dei set di dati	Consiglio secondario: Managed Lustre	Managed Lustre offre una latenza inferiore al millisecondo. È utile come spazio di lavoro dedicato e ultraveloce per le attività di addestramento e preparazione dei set di dati più intensive, in cui la bassa latenza e le prestazioni di concorrenza dei metadati sono una priorità elevata.
Spostamento o salvataggio dei pesi del modello per il checkpoint o i trasferimenti di peso	Consiglio principale: Managed Lustre	Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, consentendo a migliaia di lavoratori di implementazione di estrarre contemporaneamente lo stesso file di peso senza rallentare.
	Suggerimento secondario: Cloud Storage Rapid Bucket	Rapid Bucket è ideale per il checkpointing asincrono a più livelli o distribuito quando viene utilizzato con GCSFS tramite `fsspec` o Cloud Storage FUSE con ottimizzazione delle prestazioni lato client.
Archiviazione e download dei modelli per l'inferenza	Consiglio principale: Cloud Storage Rapid Cache o Rapid Bucket	Rapid Cache funge da booster che aiuta a ridurre l'avvio a freddo dell'inferenza. Con Rapid Cache, i pesi del modello possono essere precaricati nella stessa zona dei nodi di inferenza, consentendo a una nuova istanza di inferenza di scaricare rapidamente i pesi del modello ed elaborare la prima richiesta. Rapid Bucket funge da motore di archiviazione zonale ad alte prestazioni e accelerato, consentendoti di individuare i pesi del modello nella stessa zona del parco di macchine di inferenza. Per l'erogazione del modello, consigliamo di utilizzare Run:ai Model Streamer per vLLM per prestazioni di download ottimali. Per altri stack di inferenza, l'ottimizzazione dei parametri di download parallelo di Cloud Storage FUSE può ridurre significativamente la latenza di avvio a freddo durante i download dei pesi del modello.
Archiviazione e download dei modelli per l'inferenza	Consiglio secondario: Managed Lustre	Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, a vantaggio dei modelli sensibili alle prestazioni e della scalabilità delle GPU simultanee che scaricano lo stesso modello contemporaneamente.
Offload della KV cache	Consiglio principale: Managed Lustre	Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, consentendo a nodi diversi di "eseguire il pull" della cache KV e riprendere le chat senza rielaborare l'intera cronologia della chat.

Passaggi successivi

Scopri di più su Cloud Storage Rapid, una famiglia di prodotti in Cloud Storage progettati per l'AI, il ML e l'analisi a uso intensivo di dati.
Scopri come ottimizzare le prestazioni quando utilizzi Cloud Storage FUSE o il driver CSI di Cloud Storage FUSE per scaricare i set di dati.
Scopri come accelerare il caricamento dei modelli su Google Kubernetes Engine.

Panoramica dei servizi di archiviazione per i carichi di lavoro AI e ML in AI Hypercomputer Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.