I servizi di archiviazione forniscono l'architettura dei dati essenziale che contribuisce a consentire l'addestramento, l'inferenza e l'ottimizzazione dei modelli ad alte prestazioni nell'ecosistema AI Hypercomputer. Sebbene siano disponibili più servizi di archiviazione in Google Cloud, la scelta più adatta dipende dai requisiti di I/O, throughput, scalabilità e latenza per i casi d'uso all'interno del ciclo di vita dell'intelligenza artificiale (AI) e del machine learning (ML).
Questo documento introduce e confronta i servizi di archiviazione in Google Cloud grado di aiutarti a ottimizzare le prestazioni della GPU o della TPU. Fornisce inoltre consigli sul servizio ideale per casi d'uso specifici di AI e ML.
Introduzione ai servizi di archiviazione
Google Cloud offre più soluzioni di archiviazione ottimizzate per i casi d'uso di AI e ML:
Cloud Storage è un sistema di archiviazione di oggetti progettato per l'elaborazione e l'archiviazione di set di dati di grandi dimensioni, come quelli necessari per l'addestramento o l'inferenza collettiva. Cloud Storage offre diverse funzionalità per aiutarti a ottimizzare l'archiviazione dei dati per le attività di AI e ML.
Google Cloud Managed Lustre è un file system parallelo completamente gestito e conforme a POSIX progettato per le prestazioni dei metadati specializzate, a bassa latenza e ad alta concorrenza richieste per i workload di addestramento e inferenza.
Le sezioni seguenti forniscono ulteriori informazioni su ciascun servizio di archiviazione.
Cloud Storage
Cloud Storage è un archivio di oggetti di base progettato per offrire scalabilità globale, durabilità ed efficienza in termini di costi. Quando utilizzi Cloud Storage, i dati vengono archiviati come oggetti in container chiamati bucket. Cloud Storage offre più funzionalità per i bucket che aiutano a ottimizzare le prestazioni dei workload di AI e ML:
I prodotti della famiglia Cloud Storage Rapid sono progettati per eliminare i colli di bottiglia dei dati per i workload di AI e ML avvicinando i dati alle risorse di computing. Questi prodotti ti consentono di collocare i dati nelle stesse zone dei workload di computing e di scalare l'archiviazione dei dati in modo efficiente in termini di costi e prestazioni per i cluster di GPU o TPU. I prodotti Cloud Storage Rapid includono:
Rapid Bucket offre le prestazioni di lettura e scrittura più veloci in Cloud Storage per i bucket di zona. Gli oggetti nei bucket di zona vengono archiviati nella classe di archiviazione Rapid, una classe di archiviazione ad alte prestazioni ottimizzata per i workload con uso intensivo di I/O. Oltre a una latenza inferiore, Rapid Bucket offre un throughput significativamente più elevato (fino a 15 TB/s) rispetto ad altri prodotti e località dei bucket in Cloud Storage.
Rapid Cache accelera le letture dei dati nei bucket esistenti senza richiedere modifiche al codice. Rapid Cache è una cache di lettura di zona basata su SSD per i bucket Cloud Storage che viene utilizzata per gestire i dati per le richieste di lettura dei dati. Il prodotto offre un throughput più elevato (fino a 2,5 TB/s) e una latenza inferiore rispetto ai bucket senza cache.
Rapid Cache viene spesso configurato per i bucket multi-regione, dove la capacità dell'acceleratore è frammentata tra le Google Cloud regioni. La lettura dei dati dalla cache comporta costi di trasferimento dei dati ridotti rispetto ai dati letti direttamente da un bucket multi-regione.
Cloud Storage FUSE è un adattatore FUSE open source che ti consente di montare i bucket come file system locali, consentendo alle applicazioni di interagire con l'archiviazione di oggetti utilizzando la semantica standard del file system. Questa funzionalità ti consente di sfruttare la scalabilità globale, la durabilità e l'efficienza in termini di costi di Cloud Storage con l'accesso ai file locali. Cloud Storage FUSE è gestito e supportato attivamente da Google.
Cloud Storage FUSE offre più parametri di memorizzazione nella cache e ottimizzazione lato client, come i download paralleli. Queste funzionalità possono astrarre le complessità di sviluppo e contribuire a ottenere prestazioni ottimali mediante lo sharding o la parallelizzazione degli stream.
Lo spazio dei nomi gerarchico consente una vera struttura di file system nei bucket e fornisce funzionalità di gestione dei dati efficienti, tra cui la ridenominazione delle cartelle a livello atomico e ricerche di file più rapide quando il bucket viene montato con Cloud Storage FUSE. Lo spazio dei nomi gerarchico offre 8 volte più query al secondo (QPS) per le letture e le scritture di oggetti rispetto ai bucket senza spazio dei nomi gerarchico. Per ulteriori informazioni sui vantaggi dell'utilizzo dello spazio dei nomi gerarchico, consulta Vantaggi in termini di prestazioni e gestione.
L'abilitazione dello spazio dei nomi gerarchico è vivamente consigliata quando hai workload che richiedono il caricamento di dati con throughput elevato e il checkpointing frequente dei modelli. L'abilitazione dello spazio dei nomi gerarchico è obbligatoria quando crei bucket di zona con Rapid Bucket.
Managed Lustre
Google Cloud Managed Lustre è un file system parallelo ad alte prestazioni, conforme a POSIX e completamente gestito, ottimizzato per le applicazioni di AI e ML. L'architettura di Managed Lustre è ideale per i workload di AI/ML con throughput elevato, bassa latenza e alta concorrenza dei metadati, come il checkpointing, la propagazione dei pesi ad alta velocità nel reinforcement learning e la memorizzazione nella cache di coppie chiave-valore (KV).
Per ulteriori informazioni sui casi d'uso comuni di Managed Lustre, consulta Casi aziendali.
Confronto tra i servizi di archiviazione
La tabella seguente fornisce un confronto di alto livello tra Cloud Storage e Managed Lustre in base alle caratteristiche principali:
| Caratteristiche | Cloud Storage | Managed Lustre |
|---|---|---|
| Architettura | Archivio di oggetti
|
File system parallelo
|
| Capacità dello spazio di archiviazione | Scalabilità fino a EB di capacità. |
Scalabilità fino a 80 PB di capacità, a seconda del livello di prestazioni dell'istanza. |
| Prestazioni | Supporta quanto segue:
|
Supporta quanto segue:
|
| Prezzi |
Per i dettagli, consulta Prezzi di Cloud Storage. |
Per i dettagli, consulta Prezzi di Managed Lustre. |
| Consigli in base ai requisiti | Consigliato per le applicazioni che richiedono un archivio di oggetti scalabile ed efficienza in termini di costi generali per i set di dati di addestramento, il checkpointing asincrono a più livelli e l'archiviazione dei pesi dei modelli. In particolare, Cloud Storage Rapid è consigliato per la scalabilità dei dati ad alte prestazioni ed economicamente vantaggiosa. |
Consigliato per le applicazioni che richiedono un file system parallelo completamente conforme a POSIX o directory home. Consigliato anche per i workload sensibili alla latenza o con alta concorrenza dei metadati, come gli offload della memorizzazione nella cache di coppie chiave-valore, il checkpointing sincrono e la propagazione dei pesi ad alta velocità per il reinforcement learning. |
Consigli sui servizi di archiviazione in base al caso d'uso
| Caso d'uso | Consiglio sul servizio di archiviazione | Motivo del consiglio |
|---|---|---|
| Addestramento e preparazione dei set di dati | Consiglio principale: Cloud Storage Rapid Bucket | I bucket Cloud Storage forniscono la capacità, la scalabilità del throughput, efficienza in termini di costi e la durabilità spesso necessari per volumi enormi di set di dati di addestramento e inferenza. Quando utilizzi Rapid Bucket per creare un bucket di zona, quest'ultimo beneficia di un throughput molto elevato e di una latenza inferiore al millisecondo per i file aperti a un costo ottimale. |
| Consiglio secondario: Managed Lustre | Managed Lustre offre una latenza inferiore al millisecondo. È utile come spazio di lavoro dedicato e ultraveloce per le attività di addestramento e preparazione dei set di dati più intensive, in cui le prestazioni di bassa latenza e concorrenza dei metadati sono una priorità elevata. | |
| Spostamento o salvataggio dei pesi dei modelli per il checkpointing o trasferimenti dei pesi | Consiglio principale: Managed Lustre | Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, consentendo a migliaia di worker di implementazione di estrarre contemporaneamente lo stesso file di pesi senza rallentare. |
| Consiglio secondario: Cloud Storage Rapid Bucket | Rapid Bucket è adatto per il checkpointing asincrono a più livelli o
distribuito quando viene utilizzato con GCSFS
tramite fsspec o
Cloud Storage FUSE con l'ottimizzazione delle prestazioni lato client.
|
|
| Archiviazione e download dei modelli per l'inferenza | Consiglio principale: Cloud Storage Rapid Cache o Rapid Bucket | Rapid Cache funge da booster che aiuta a ridurre l'avvio a freddo dell'inferenza. Con Rapid Cache, i pesi dei modelli possono essere pre-riscaldati nella stessa zona dei nodi di inferenza, consentendo a una nuova istanza di inferenza di scaricare rapidamente i pesi dei modelli ed elaborare la prima richiesta. Rapid Bucket funge da motore di archiviazione di zona accelerato e ad alte prestazioni, consentendoti di individuare i pesi dei modelli nella stessa zona della flotta di inferenza. Per l'erogazione del modello, ti consigliamo di utilizzare il Run:ai Model Streamer per vLLM per ottenere prestazioni di download ottimali. Per altri stack di inferenza, l'ottimizzazione dei parametri di download parallelo di Cloud Storage FUSE può ridurre significativamente la latenza di avvio a freddo durante i download dei pesi dei modelli. |
| Consiglio secondario: Managed Lustre | Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, a vantaggio dei modelli sensibili alle prestazioni e della scalabilità delle GPU simultanee che scaricano contemporaneamente lo stesso modello simultaneamente. | |
| Offload della cache KV | Consiglio principale: Managed Lustre | Managed Lustre offre una latenza inferiore al millisecondo e accesso parallelo ai dati, consentendo a nodi diversi di "estrarre" la cache KV e riprendere le chat senza rielaborare l'intera cronologia della chat. |
Passaggi successivi
Scopri di più su Cloud Storage Rapid, una famiglia di prodotti in Cloud Storage progettati per l'AI, il ML e l'analisi con uso intensivo dei dati.
Scopri come ottimizzare le prestazioni quando utilizzi Cloud Storage FUSE o il driver CSI di Cloud Storage FUSE per scaricare i set di dati.
Scopri come accelerare il caricamento dei modelli su Google Kubernetes Engine.