Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per il fine-tuning dei modelli Gemini sui dati audio utilizzando l'apprendimento supervisionato.
Casi d'uso
L'ottimizzazione dei modelli audio ne migliora le prestazioni adattandoli a esigenze specifiche. Ciò può comportare il miglioramento del riconoscimento vocale per diversi accenti, il fine-tuning della classificazione dei generi musicali, l'ottimizzazione del rilevamento degli eventi sonori, la personalizzazione della generazione audio, l'adattamento agli ambienti rumorosi, il miglioramento della qualità audio e la personalizzazione delle esperienze audio. Di seguito sono riportati alcuni casi d'uso comuni per l'ottimizzazione audio:
Assistenti vocali migliorati:
- Ordinazione di cibo tramite comandi vocali: sviluppa sistemi ad attivazione vocale per ordinare e ricevere cibo senza problemi.
Analisi dei contenuti audio:
- Trascrizione automatica: genera trascrizioni estremamente accurate, anche in ambienti rumorosi.
- Riassunto audio: riassumi i punti chiave di podcast o audiolibri.
- Classificazione musicale: classifica la musica in base a genere, stato d'animo o altre caratteristiche.
Accessibilità e tecnologie assistive:
- Sottotitolaggio in tempo reale: fornisci sottotitoli in tempo reale per eventi o videochiamate.
- Applicazioni controllate tramite comandi vocali: sviluppa applicazioni controllate interamente tramite comandi vocali.
- Apprendimento delle lingue: crea strumenti che forniscono feedback personalizzati sulla pronuncia.
Limitazioni
Modelli Gemini 2.5
| Specifica | Valore |
|---|---|
| Durata massima dell'audio per esempio | 60 minuti |
| Numero massimo di file audio per esempio | 1 |
| Dimensione massima del file audio | 100MB |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
| Specifica | Valore |
|---|---|
| Durata massima dell'audio per esempio | 60 minuti |
| Numero massimo di file audio per esempio | 1 |
| Dimensione massima del file audio | 100MB |
Per saperne di più sui requisiti dei campioni audio, consulta la pagina Comprensione dell'audio (solo parlato).
Formato del set di dati
L'elemento fileUri per il set di dati può essere l'URI di un file in un bucket Cloud Storage oppure un URL HTTP o HTTPS disponibile pubblicamente.
Per visualizzare l'esempio di formato generico, consulta Esempio di set di dati per Gemini.
Di seguito è riportato un esempio di set di dati audio.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Passaggi successivi
- Per saperne di più sul modello di comprensione dell'audio di Gemini, consulta Comprensione dell'audio (solo parlato).
- Per iniziare l'ottimizzazione, consulta Ottimizza i modelli Gemini utilizzando il fine-tuning supervisionato.
- Per scoprire come utilizzare il fine-tuning supervisionato in una soluzione che crea una knowledge base con l'AI generativa, consulta Soluzione già pronta: knowledge base con l'AI generativa.