I servizi di archiviazione forniscono l'architettura dei dati essenziale che contribuisce a consentire l'addestramento, l'inferenza e l'ottimizzazione dei modelli ad alte prestazioni nell'ecosistema AI Hypercomputer. Sebbene in Google Cloudsiano disponibili più servizi di archiviazione, la scelta più adatta dipende dai tuoi requisiti di I/O, throughput, scalabilità e latenza per i casi d'uso all'interno del ciclo di vita dell'intelligenza artificiale (AI) e del machine learning (ML).
Questo documento introduce e confronta i servizi di archiviazione in Google Cloud che possono aiutarti a ottimizzare al meglio le prestazioni di GPU o TPU. Fornisce inoltre consigli sul servizio ideale per casi d'uso specifici di AI e ML.
Introduzione ai servizi di archiviazione
Google Cloud offre più soluzioni di archiviazione ottimizzate per l'AI e i casi d'uso di ML:
Cloud Storage è un sistema di archiviazione di oggetti progettato per l'elaborazione e l'archiviazione di set di dati di grandi dimensioni, come quelli necessari per l'addestramento o l'inferenza collettiva. Cloud Storage offre diverse funzionalità per aiutarti a ottimizzare l'archiviazione dei dati per le attività di AI e ML.
Google Cloud Managed Lustre è un file system parallelo completamente gestito e conforme a POSIX progettato per le prestazioni dei metadati specializzate, a bassa latenza e ad alta concorrenza richieste per i workload di addestramento e inferenza.
Le sezioni seguenti forniscono ulteriori informazioni su ciascun servizio di archiviazione.
Cloud Storage
Cloud Storage è un archivio di oggetti di base progettato per offrire scalabilità globale, durabilità ed efficienza dei costi. Quando utilizzi Cloud Storage, memorizzi i dati come oggetti in container chiamati bucket. Cloud Storage offre diverse funzionalità per i bucket che aiutano a ottimizzare le prestazioni dei carichi di lavoro di AI e ML:
I prodotti della famiglia Cloud Storage Rapid sono progettati per eliminare i colli di bottiglia dei dati per i carichi di lavoro di AI e ML avvicinando i dati alle risorse di computing. Questi prodotti ti consentono di collocare i dati nelle stesse zone dei carichi di lavoro di computing e di scalare l'archiviazione dei dati in modo efficiente in termini di costi e con prestazioni elevate per i cluster GPU o TPU. I prodotti Cloud Storage Rapid includono quanto segue:
Rapid Bucket offre le prestazioni di lettura e scrittura più veloci in Cloud Storage per i bucket di zona. Gli oggetti nei bucket di zona vengono archiviati nella classe di archiviazione Rapid, una classe di archiviazione ad alte prestazioni ottimizzata per i workload con uso intensivo di I/O. Oltre a una latenza inferiore, Rapid Bucket offre un throughput significativamente più elevato (fino a 15 TB/s) rispetto ad altri prodotti e posizioni dei bucket in Cloud Storage.
Rapid Cache accelera le letture dei dati nei bucket esistenti senza richiedere modifiche al codice. Rapid Cache è una cache di lettura zonale basata su SSD per i bucket Cloud Storage che viene utilizzata per pubblicare i dati per le richieste di lettura dei dati. Il prodotto offre un throughput più elevato (fino a 2,5 TB/s) e una latenza inferiore rispetto ai bucket senza cache.
Rapid Cache viene spesso configurato per i bucket multiregionali, dove la capacità dell'acceleratore è frammentata in Google Cloud regioni. I dati letti dalla cache comportano tariffe di trasferimento dei dati ridotte rispetto ai dati letti direttamente da un bucket multiregionale.
Cloud Storage FUSE è un adattatore FUSE open source che consente di montare i bucket come file system locali, consentendo alle applicazioni di interagire con l'archiviazione di oggetti utilizzando la semantica standard del file system. Questa funzionalità ti consente di sfruttare la scalabilità globale, la durabilità e l'efficienza in termini di costi di Cloud Storage con l'accesso ai file locali. Cloud Storage FUSE è gestito e supportato attivamente da Google.
Cloud Storage FUSE offre più parametri di memorizzazione nella cache e ottimizzazione lato client, ad esempio download paralleli. Queste funzionalità possono astrarre le complessità dello sviluppo e contribuire a ottenere il massimo rendimento mediante lo sharding o la parallelizzazione dei flussi.
Lo spazio dei nomi gerarchico consente una vera e propria struttura del file system nei bucket e fornisce funzionalità di gestione dei dati efficienti, tra cui la ridenominazione delle cartelle a livello atomico e ricerche di file più rapide quando il bucket è montato con Cloud Storage FUSE. Lo spazio dei nomi gerarchico offre un numero di query al secondo (QPS) 8 volte superiore per le letture e le scritture di oggetti rispetto ai bucket senza spazio dei nomi gerarchico. Per saperne di più sui vantaggi dell'utilizzo dello spazio dei nomi gerarchico, consulta Vantaggi in termini di prestazioni e gestione.
L'abilitazione dello spazio dei nomi gerarchico è consigliata quando hai carichi di lavoro che richiedono il caricamento di dati ad alta velocità effettiva e il checkpointing frequente dei modelli. L'abilitazione dello spazio dei nomi gerarchico è obbligatoria quando si creano bucket zonali con Rapid Bucket.
Managed Lustre
Google Cloud Managed Lustre è un file system parallelo completamente gestito, ad alte prestazioni e conforme a POSIX, ottimizzato per applicazioni di AI e ML. L'architettura Managed Lustre è ideale per workload AI/ML ad alta velocità effettiva, bassa latenza e alta concorrenza di metadati, come il checkpointing, la propagazione di pesi ad alta velocità nel reinforcement learning e la memorizzazione nella cache di coppie chiave-valore (KV).
Per maggiori informazioni sui casi d'uso comuni di Managed Lustre, consulta Scenari aziendali.
Confronto dei servizi di archiviazione
La tabella seguente fornisce un confronto di alto livello tra Cloud Storage e Managed Lustre in base alle caratteristiche principali:
| Caratteristiche | Cloud Storage | Managed Lustre |
|---|---|---|
| Architettura | Archivio di oggetti
|
File system parallelo
|
| Capacità dello spazio di archiviazione | Scalabilità fino a EB di capacità. |
Scalabile fino a 80 PB di capacità, a seconda del livello di prestazioni dell'istanza. |
| Prestazioni | Supporta quanto segue:
|
Supporta quanto segue:
|
| Prezzi |
Per i dettagli, consulta la pagina Prezzi di Cloud Storage. |
Per i dettagli, consulta Prezzi di Managed Lustre. |
| Consigli in base ai requisiti | Consigliato per le applicazioni che necessitano di un archivio di oggetti scalabile e di un'efficienza dei costi generale per i set di dati di addestramento, il checkpointing asincrono a più livelli e l'archiviazione dei pesi del modello. In particolare, Cloud Storage Rapid è consigliato per la scalabilità dei dati ad alte prestazioni ed economicamente vantaggiosa. |
Consigliato per le applicazioni che richiedono un file system parallelo o directory home completamente conformi a POSIX. Consigliato anche per carichi di lavoro sensibili alla latenza o con concorrenza di metadati elevata, come scaricamenti della memorizzazione nella cache KV, checkpointing sincrono e propagazione dei pesi ad alta velocità per l'apprendimento per rinforzo. |
Consigli sul servizio di archiviazione per caso d'uso
| Caso d'uso | Suggerimento per il servizio di archiviazione | Motivo del consiglio |
|---|---|---|
| Addestramento e preparazione dei set di dati | Suggerimento principale: Cloud Storage Rapid Bucket | I bucket Cloud Storage offrono la capacità, la scalabilità della velocità effettiva, l'efficienza dei costi e la durabilità spesso necessari per volumi massicci di set di dati di addestramento e inferenza. Quando utilizzi Rapid Bucket per creare un bucket zonale, quest'ultimo beneficia di una velocità effettiva molto elevata (fino a 15 TB/s) e di una latenza inferiore al millisecondo per i file aperti a un costo ottimale. |
| Consiglio secondario: Managed Lustre | Managed Lustre offre una latenza inferiore al millisecondo. È utile come spazio di lavoro dedicato e ultraveloce per le attività di addestramento e preparazione dei set di dati più intensive, in cui la bassa latenza e le prestazioni di concorrenza dei metadati sono una priorità elevata. | |
| Spostamento o salvataggio dei pesi del modello per il checkpoint o i trasferimenti di peso | Consiglio principale: Managed Lustre | Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, consentendo a migliaia di lavoratori di implementazione di estrarre contemporaneamente lo stesso file di peso senza rallentare. |
| Suggerimento secondario: Cloud Storage Rapid Bucket | Rapid Bucket è ideale per il checkpointing asincrono a più livelli o distribuito quando viene utilizzato con GCSFS tramite fsspec o Cloud Storage FUSE con ottimizzazione delle prestazioni lato client.
|
|
| Archiviazione e download dei modelli per l'inferenza | Consiglio principale: Cloud Storage Rapid Cache o Rapid Bucket | Rapid Cache funge da booster che aiuta a ridurre l'avvio a freddo dell'inferenza. Con Rapid Cache, i pesi del modello possono essere precaricati nella stessa zona dei nodi di inferenza, consentendo a una nuova istanza di inferenza di scaricare rapidamente i pesi del modello ed elaborare la prima richiesta. Rapid Bucket funge da motore di archiviazione zonale ad alte prestazioni e accelerato, consentendoti di individuare i pesi del modello nella stessa zona del parco di macchine di inferenza. Per l'erogazione del modello, consigliamo di utilizzare Run:ai Model Streamer per vLLM per prestazioni di download ottimali. Per altri stack di inferenza, l'ottimizzazione dei parametri di download parallelo di Cloud Storage FUSE può ridurre significativamente la latenza di avvio a freddo durante i download dei pesi del modello. |
| Consiglio secondario: Managed Lustre | Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, a vantaggio dei modelli sensibili alle prestazioni e della scalabilità delle GPU simultanee che scaricano lo stesso modello contemporaneamente. | |
| Offload della KV cache | Consiglio principale: Managed Lustre | Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, consentendo a nodi diversi di "eseguire il pull" della cache KV e riprendere le chat senza rielaborare l'intera cronologia della chat. |
Passaggi successivi
Scopri di più su Cloud Storage Rapid, una famiglia di prodotti in Cloud Storage progettati per l'AI, il ML e l'analisi a uso intensivo di dati.
Scopri come ottimizzare le prestazioni quando utilizzi Cloud Storage FUSE o il driver CSI di Cloud Storage FUSE per scaricare i set di dati.
Scopri come accelerare il caricamento dei modelli su Google Kubernetes Engine.