Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ottimizzazione dell'audio

Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per il fine-tuning dei modelli Gemini sui dati audio utilizzando l'apprendimento supervisionato.

Casi d'uso

L'ottimizzazione dei modelli audio ne migliora le prestazioni adattandoli a esigenze specifiche. Ciò può comportare il miglioramento del riconoscimento vocale per diversi accenti, il fine-tuning della classificazione dei generi musicali, l'ottimizzazione del rilevamento degli eventi sonori, la personalizzazione della generazione audio, l'adattamento agli ambienti rumorosi, il miglioramento della qualità audio e la personalizzazione delle esperienze audio. Di seguito sono riportati alcuni casi d'uso comuni per l'ottimizzazione audio:

Assistenti vocali migliorati:
- Ordinazione di cibo tramite comandi vocali: sviluppa sistemi ad attivazione vocale per ordinare e ricevere cibo senza problemi.
Analisi dei contenuti audio:
- Trascrizione automatica: genera trascrizioni estremamente accurate, anche in ambienti rumorosi.
- Riassunto audio: riassumi i punti chiave di podcast o audiolibri.
- Classificazione musicale: classifica la musica in base a genere, stato d'animo o altre caratteristiche.
Accessibilità e tecnologie assistive:
- Sottotitolaggio in tempo reale: fornisci sottotitoli in tempo reale per eventi o videochiamate.
- Applicazioni controllate tramite comandi vocali: sviluppa applicazioni controllate interamente tramite comandi vocali.
- Apprendimento delle lingue: crea strumenti che forniscono feedback personalizzati sulla pronuncia.

Limitazioni

Modelli Gemini 2.5

Specifica	Valore
Durata massima dell'audio per esempio	60 minuti
Numero massimo di file audio per esempio	1
Dimensione massima del file audio	100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Specifica	Valore
Durata massima dell'audio per esempio	60 minuti
Numero massimo di file audio per esempio	1
Dimensione massima del file audio	100MB

Per saperne di più sui requisiti dei campioni audio, consulta la pagina Comprensione dell'audio (solo parlato).

Formato del set di dati

Il valore fileUri per il set di dati può essere l'URI di un file in un bucket Cloud Storage oppure un URL HTTP o HTTPS disponibile pubblicamente.

Per vedere l'esempio di formato generico, consulta Esempio di set di dati per Gemini.

Di seguito è riportato un esempio di set di dati audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Passaggi successivi

Per saperne di più sul modello di comprensione dell'audio di Gemini, consulta Comprensione dell'audio (solo parlato).
Per iniziare l'ottimizzazione, consulta Ottimizza i modelli Gemini utilizzando il fine-tuning supervisionato.
Per scoprire come utilizzare il fine-tuning supervisionato in una soluzione che crea una knowledge base con l'AI generativa, consulta Soluzione già pronta: knowledge base con l'AI generativa.

Ottimizzazione dell'audio Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.