Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per il fine-tuning dei modelli Gemini sui dati delle immagini utilizzando l'apprendimento supervisionato.
Casi d'uso
Il fine-tuning ti consente di adattare i modelli Gemini di base per attività specializzate. Ecco alcuni casi d'uso delle immagini:
- Miglioramento del catalogo prodotti: estrai gli attributi chiave dalle immagini (ad es. brand, colore, taglia) per creare e arricchire automaticamente il catalogo prodotti.
- Moderazione delle immagini: esegui il fine-tuning di un modello per rilevare e contrassegnare contenuti dannosi o inappropriati nelle immagini, garantendo un'esperienza online più sicura.
- Ispezione visiva: addestra un modello per identificare oggetti o difetti specifici all'interno delle immagini, automatizzando i processi di controllo qualità o ispezione.
- Classificazione delle immagini: migliora l'accuratezza della classificazione delle immagini per domini specifici, come l'analisi di immagini mediche o immagini satellitari.
- Consigli basati sulle immagini: analizza le immagini per fornire consigli personalizzati ad esempio suggerendo prodotti simili o articoli complementari.
- Estrazione dei contenuti delle tabelle: estrai i dati dalle tabelle all'interno delle immagini e converti li in formati strutturati come fogli di lavoro o database.
Limitazioni
- Numero massimo di immagini per esempio: 30
- Dimensione massima del file immagine: 20 MB
Per saperne di più sui requisiti degli esempi di immagini, consulta la pagina Comprensione delle immagini.
Formato del set di dati
Il fileUri del set di dati può essere l'URI di un file in un bucket Cloud Storage oppure un URL HTTP o HTTPS disponibile pubblicamente.
Il campo mediaResolution dell'GenerationConfig
oggetto viene
utilizzato per controllare il compromesso tra la qualità del file multimediale inviato
per l'ottimizzazione e il numero di token utilizzati per rappresentare i contenuti multimediali. Una risoluzione più alta consente al modello di percepire più dettagli, il che può portare a un comportamento del modello ottimizzato più sfumato, ma utilizzerà anche più token. Questo non influisce sulle dimensioni dell'immagine inviate al modello. Se non specificata, la risoluzione predefinita è MEDIA_RESOLUTION_HIGH.
Di seguito sono riportati i valori mediaResolution supportati per il fine-tuning dei dati delle immagini per le versioni di Gemini precedenti alla 3:
MEDIA_RESOLUTION_LOW: 64 tokenMEDIA_RESOLUTION_MEDIUM: 256 tokenMEDIA_RESOLUTION_HIGH: 256 token + (256 token * numero di immagini panoramiche e di scansione)
Per vedere l'esempio di formato generico, consulta Esempio di set di dati per Gemini.
Di seguito è riportato un esempio di set di dati di immagini:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
}
},
{
"text": "Describe this image in detail that captures the essence of it."
}
]
},
{
"role": "model",
"parts": [
{
"text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
(Solo modelli Gemini 3 e versioni successive) A partire dai modelli Gemini 3
puoi anche impostare la risoluzione dei contenuti multimediali per ogni Part multimediale.
In questo modo puoi combinare le risoluzioni nel set di dati (ad esempio, impostando MEDIA_RESOLUTION_HIGH per un elemento e MEDIA_RESOLUTION_LOW per un altro).
Per saperne di più sulla risoluzione a livello di parte e sui conteggi dei token
corrispondenti, consulta Risoluzione dei contenuti multimediali.
Le impostazioni di risoluzione dei contenuti multimediali a livello di Part hanno la precedenza sulle impostazioni globali.
Di seguito è riportato un esempio di set di dati che imposta la risoluzione dei contenuti multimediali sia a livello di Part sia a livello globale:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://image.jpeg"
}
},
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://ultra_high_res_image.jpeg"
},
"mediaResolution": {
"level": "MEDIA_RESOLUTION_HIGH"
}
},
{
"text": "Describe these images in detail."
}
]
},
{
"role": "model",
"parts": [
{
"text": "Image 1 is low resolution while image 2 is sharp and clear"
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Set di dati di esempio
Puoi utilizzare i seguenti set di dati di esempio per scoprire come ottimizzare un modello Gemini. Per utilizzare questi set di dati, specifica gli URI nei parametri applicabili quando crei un job di fine-tuning supervisionato di un modello di testo.
Per utilizzare il set di dati di esempio per l'ottimizzazione, specifica la sua posizione come segue:
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",
Per utilizzare il set di dati di esempio per la convalida, specifica la sua posizione come segue:
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",
Passaggi successivi
- Per saperne di più sulla funzionalità di comprensione delle immagini di Gemini, consulta la nostra documentazione Comprensione delle immagini.
- Per iniziare l'ottimizzazione, consulta Ottimizza i modelli Gemini utilizzando il fine-tuning supervisionato
- Per scoprire come utilizzare il fine-tuning supervisionato in una soluzione che crea una knowledge base con l'AI generativa, consulta Soluzione già pronta: knowledge base con l'AI generativa.