Sintonização de áudio

Esta página fornece pré-requisitos e instruções detalhadas para o ajuste preciso do Gemini em dados de áudio através da aprendizagem supervisionada.

Exemplos de utilização

A otimização dos modelos de áudio melhora o respetivo desempenho, adaptando-os a necessidades específicas. Isto pode envolver a melhoria do reconhecimento de voz para diferentes sotaques, a otimização da classificação de géneros musicais, a otimização da deteção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes ruidosos, a melhoria da qualidade do áudio e a personalização das experiências de áudio. Seguem-se alguns exemplos de utilização comuns da otimização de áudio:

  • Assistentes de voz melhorados:

    • Encomenda de comida por voz: desenvolva sistemas ativados por voz para uma encomenda e entrega de comida integrada.
  • Análise de conteúdo de áudio:

    • Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes ruidosos.
    • Resumo de áudio: resuma os pontos principais de podcasts ou livros áudio.
    • Classificação de música: categorize música com base no género, estado de espírito ou outras caraterísticas.
  • Acessibilidade e tecnologias de assistência:

    • Legendas em tempo real: ofereça legendas instantâneas para eventos ou videochamadas.
    • Aplicações controladas por voz: desenvolva aplicações controladas inteiramente por voz.
    • Aprendizagem de idiomas: criar ferramentas que ofereçam feedback personalizado sobre a pronúncia.

Limitações

Modelos Gemini 2.5

Especificação Valor
Duração máxima do áudio por exemplo 60 minutos
Número máximo de ficheiros de áudio por exemplo 1
Tamanho máximo do ficheiro de áudio 100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificação Valor
Duração máxima do áudio por exemplo 60 minutos
Número máximo de ficheiros de áudio por exemplo 1
Tamanho máximo do ficheiro de áudio 100MB

Para saber mais sobre os requisitos de amostras de áudio, consulte a página Compreensão de áudio (apenas voz).

Formato do conjunto de dados

O fileUri do conjunto de dados pode ser o URI de um ficheiro num contentor do Cloud Storage ou pode ser um URL HTTP ou HTTPS disponível publicamente.

Para ver o exemplo de formato genérico, consulte o Exemplo de conjunto de dados para o Gemini.

Segue-se um exemplo de um conjunto de dados de áudio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

O que se segue?