Ottimizzazione audio

Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per il fine-tuning dei modelli Gemini sui dati audio utilizzando l'apprendimento supervisionato.

Casi d'uso

L'ottimizzazione dei modelli audio ne migliora le prestazioni adattandoli a esigenze specifiche. Ciò può comportare il miglioramento del riconoscimento vocale per diversi accenti, il fine-tuning della classificazione dei generi musicali, l'ottimizzazione del rilevamento degli eventi sonori, la personalizzazione della generazione audio, l'adattamento agli ambienti rumorosi, il miglioramento della qualità audio e la personalizzazione delle esperienze audio. Di seguito sono riportati alcuni casi d'uso comuni per l'ottimizzazione audio:

  • Assistenti vocali migliorati:

    • Ordinazione di cibo tramite comandi vocali: sviluppa sistemi ad attivazione vocale per ordinare e ricevere cibo senza problemi.
  • Analisi dei contenuti audio:

    • Trascrizione automatica: genera trascrizioni estremamente accurate, anche in ambienti rumorosi.
    • Riassunto audio: riassumi i punti chiave di podcast o audiolibri.
    • Classificazione musicale: classifica la musica in base a genere, stato d'animo o altre caratteristiche.
  • Accessibilità e tecnologie assistive:

    • Sottotitolaggio in tempo reale: fornisci sottotitoli in tempo reale per eventi o videochiamate.
    • Applicazioni controllate tramite comandi vocali: sviluppa applicazioni controllate interamente tramite comandi vocali.
    • Apprendimento delle lingue: crea strumenti che forniscono feedback personalizzati sulla pronuncia.

Limitazioni

Modelli Gemini 2.5

Specifica Valore
Durata massima dell'audio per esempio 60 minuti
Numero massimo di file audio per esempio 1
Dimensione massima del file audio 100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Specifica Valore
Durata massima dell'audio per esempio 60 minuti
Numero massimo di file audio per esempio 1
Dimensione massima del file audio 100MB

Per saperne di più sui requisiti dei campioni audio, consulta la pagina Comprensione dell'audio (solo parlato).

Formato del set di dati

L'elemento fileUri per il set di dati può essere l'URI di un file in un bucket Cloud Storage oppure un URL HTTP o HTTPS disponibile pubblicamente.

Per visualizzare l'esempio di formato generico, consulta Esempio di set di dati per Gemini.

Di seguito è riportato un esempio di set di dati audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Passaggi successivi