Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Utilizzare Cloud Storage come file system montato

Cloud Storage FUSE ti consente di caricare i dati di addestramento in un bucket Cloud Storage e di accedervi dal job di addestramento serverless di Gemini Enterprise Agent Platform come se fosse un file system montato. L'utilizzo di Cloud Storage FUSE offre i seguenti vantaggi:

I dati di addestramento vengono trasmessi in streaming al job di addestramento anziché scaricati nelle repliche, il che può velocizzare le attività di caricamento e configurazione dei dati all'avvio del job.
I job di addestramento possono gestire input e output su larga scala senza effettuare chiamate API, gestire risposte o integrarsi con le librerie lato client.
Cloud Storage FUSE offre un throughput elevato per le letture sequenziali di file di grandi dimensioni e negli scenari di addestramento distribuito.

Casi d'uso

Ti consigliamo di utilizzare Cloud Storage per archiviare i dati di addestramento nelle seguenti situazioni:

I dati di addestramento sono dati non strutturati, come immagini, testo e video.
I dati di addestramento sono dati strutturati in un formato come TFRecord.
I dati di addestramento contengono file di grandi dimensioni, come video non elaborati.
Utilizzi l'addestramento distribuito.

Come funziona

I job di addestramento serverless possono accedere ai bucket Cloud Storage come sottodirectory della directory root /gcs. Ad esempio, se i dati di addestramento si trovano in gs://example-bucket/data.csv, puoi leggere e scrivere nel bucket dall'applicazione di addestramento Python nel seguente modo:

Lettura dal bucket

with open('/gcs/example-bucket/data.csv', 'r') as f:
  lines = f.readlines()

Scrittura nel bucket

with open('/gcs/example-bucket/epoch3.log', 'a') as f:
  f.write('success!\n')

Autorizzazioni di accesso ai bucket

Per impostazione predefinita, un job di addestramento serverless può accedere a qualsiasi bucket Cloud Storage all'interno dello stesso Google Cloud progetto utilizzando il service agent del servizio di codice personalizzato di Gemini Enterprise Agent Platform. Per controllare l'accesso ai bucket, puoi assegnare un service account personalizzato al job. In questo caso, l'accesso a un bucket Cloud Storage viene concesso in base alle autorizzazioni associate ai ruoli Cloud Storage del account di servizio personalizzato.

Ad esempio, se vuoi concedere al job di addestramento serverless l'accesso in lettura e scrittura al bucket A, ma solo l'accesso in lettura al bucket B, puoi assegnare un service account personalizzato con i seguenti ruoli al job:

roles/storage.objectAdmin per il bucket A
roles/storage.objectViewer per il bucket B

Se il job di addestramento tenta di scrivere nel bucket B, viene restituito un errore "Autorizzazione negata".

Per saperne di più sui ruoli Cloud Storage, consulta Ruoli IAM per Cloud Storage.

Best practice

Evita di rinominare le directory. Un'operazione di ridenominazione non è atomica in Cloud Storage FUSE. Se l'operazione viene interrotta, alcuni file rimangono nella vecchia directory.
Evita di chiudere (close()) o scaricare i file (flush()) inutilmente. La chiusura o lo scaricamento dei file li invia a Cloud Storage, il che comporta un costo.

Linee guida per l'ottimizzazione delle prestazioni

Per ottenere un throughput di lettura ottimale quando utilizzi Cloud Storage come file system, ti consigliamo di implementare le seguenti linee guida:

Per ridurre la latenza introdotta dalla ricerca e dall'apertura degli oggetti in un bucket, archivia i dati in file più grandi e meno numerosi.
Utilizza l'addestramento distribuito per massimizzare l'utilizzo della larghezza di banda.
Memorizza nella cache i file a cui accedi di frequente per migliorare le prestazioni di lettura. Per maggiori dettagli, consulta Panoramica della memorizzazione nella cache in Cloud Storage FUSE.
Utilizza l'archiviazione locale per i checkpoint e i log anziché Cloud Storage.

Limitazioni

Per scoprire di più sulle limitazioni di Cloud Storage FUSE, incluse le differenze tra Cloud Storage FUSE e i file system POSIX, consulta Limitazioni e differenze rispetto ai file system POSIX.

Utilizzare Cloud Storage FUSE

Per utilizzare Cloud Storage FUSE per l'addestramento serverless:

Crea un bucket Cloud Storage. Tieni presente che i bucket a due regioni e multiregionali non sono supportati per l'addestramento serverless.
Carica i dati di addestramento nel bucket. Per maggiori dettagli, consulta Informazioni sui caricamenti di oggetti.

Per scoprire di più su altre opzioni per il trasferimento dei dati a Cloud Storage, consulta Opzioni di trasferimento dei dati.
Installa Cloud Storage FUSE.
Utilizza il file system Cloud Storage.

Passaggi successivi

Consulta la documentazione di Cloud Storage FUSE.
Scopri di più sui prezzi di Cloud Storage FUSE.
Prepara l'applicazione di addestramento per l'utilizzo su Gemini Enterprise Agent Platform.

Utilizzare Cloud Storage come file system montato Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.