Ajuste de áudio

Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de áudio usando o aprendizado supervisionado.

Casos de uso

O ajuste de modelos de áudio melhora o desempenho deles ao adaptá-los a necessidades específicas. Isso pode envolver a melhoria do reconhecimento de fala para diferentes sotaques, o ajuste fino da classificação de gêneros musicais, a otimização da detecção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes barulhentos, a melhoria da qualidade de áudio e a personalização de experiências de áudio. Confira alguns casos de uso comuns de ajuste de áudio:

  • Assistentes de voz aprimorados:

    • Pedir comida por voz: desenvolver sistemas ativados por voz para pedir e entregar comida com facilidade.
  • Análise de conteúdo de áudio:

    • Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes barulhentos.
    • Resumo de áudio: resuma os pontos principais de podcasts ou audiolivros.
    • Classificação de músicas: categorizar músicas com base no gênero, no humor ou em outras características.
  • Acessibilidade e tecnologias adaptativas:

    • Legendas em tempo real: ofereça legendas ao vivo para eventos ou videochamadas.
    • Aplicativos controlados por voz: desenvolva apps controlados totalmente por voz.
    • Aprendizado de idiomas: crie ferramentas que ofereçam feedback personalizado sobre pronúncia.

Limitações

Modelos do Gemini 2.5

Especificação Valor
Duração máxima do áudio por exemplo 60 minutos
Número máximo de arquivos de áudio por exemplo 1
Tamanho máximo do arquivo de áudio 100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificação Valor
Duração máxima do áudio por exemplo 60 minutos
Número máximo de arquivos de áudio por exemplo 1
Tamanho máximo do arquivo de áudio 100MB

Para saber mais sobre os requisitos de amostra de áudio, consulte a página Entendimento de áudio (somente fala).

Formato do conjunto de dados

O fileUri do conjunto de dados pode ser o URI de um arquivo em um bucket do Cloud Storage ou um URL HTTP ou HTTPS disponível publicamente.

Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini.

Confira a seguir um exemplo de conjunto de dados de áudio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

A seguir