Sintonização de áudio

Esta página fornece pré-requisitos e instruções detalhadas para o ajuste preciso do Gemini em dados de áudio através da aprendizagem supervisionada.

Exemplos de utilização

A otimização dos modelos de áudio melhora o respetivo desempenho, adaptando-os a necessidades específicas. Isto pode envolver a melhoria do reconhecimento de voz para diferentes sotaques, a otimização da classificação de géneros musicais, a otimização da deteção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes ruidosos, a melhoria da qualidade do áudio e a personalização das experiências de áudio. Seguem-se alguns exemplos de utilização comuns da otimização de áudio:

Assistentes de voz melhorados:
- Encomenda de comida por voz: desenvolva sistemas ativados por voz para uma encomenda e entrega de comida integrada.
Análise de conteúdo de áudio:
- Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes ruidosos.
- Resumo de áudio: resuma os pontos principais de podcasts ou livros áudio.
- Classificação de música: categorize música com base no género, estado de espírito ou outras caraterísticas.
Acessibilidade e tecnologias de assistência:
- Legendas em tempo real: ofereça legendas instantâneas para eventos ou videochamadas.
- Aplicações controladas por voz: desenvolva aplicações controladas inteiramente por voz.
- Aprendizagem de idiomas: criar ferramentas que ofereçam feedback personalizado sobre a pronúncia.

Limitações

Modelos Gemini 2.5

Especificação	Valor
Duração máxima do áudio por exemplo	60 minutos
Número máximo de ficheiros de áudio por exemplo	1
Tamanho máximo do ficheiro de áudio	100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificação	Valor
Duração máxima do áudio por exemplo	60 minutos
Número máximo de ficheiros de áudio por exemplo	1
Tamanho máximo do ficheiro de áudio	100MB

Para saber mais sobre os requisitos de amostras de áudio, consulte a página Compreensão de áudio (apenas voz).

Formato do conjunto de dados

O fileUri do conjunto de dados pode ser o URI de um ficheiro num contentor do Cloud Storage ou pode ser um URL HTTP ou HTTPS disponível publicamente.

Para ver o exemplo de formato genérico, consulte o Exemplo de conjunto de dados para o Gemini.

Segue-se um exemplo de um conjunto de dados de áudio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

O que se segue?

Para saber mais sobre o modelo de compreensão de áudio do Gemini, consulte o artigo Compreensão de áudio (apenas voz).
Para começar a otimizar, consulte o artigo Otimize os modelos do Gemini através da otimização precisa supervisionada.
Para saber como a otimização precisa supervisionada pode ser usada numa solução que cria uma base de conhecimentos de IA generativa, consulte o artigo Solução de arranque rápido: base de conhecimentos de IA generativa.

Sintonização de áudio Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.