Esta página fornece pré-requisitos e instruções detalhadas para o ajuste preciso do Gemini em dados de áudio através da aprendizagem supervisionada.
Exemplos de utilização
A otimização dos modelos de áudio melhora o respetivo desempenho, adaptando-os a necessidades específicas. Isto pode envolver a melhoria do reconhecimento de voz para diferentes sotaques, a otimização da classificação de géneros musicais, a otimização da deteção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes ruidosos, a melhoria da qualidade do áudio e a personalização das experiências de áudio. Seguem-se alguns exemplos de utilização comuns da otimização de áudio:
Assistentes de voz melhorados:
- Encomenda de comida por voz: desenvolva sistemas ativados por voz para uma encomenda e entrega de comida integrada.
Análise de conteúdo de áudio:
- Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes ruidosos.
- Resumo de áudio: resuma os pontos principais de podcasts ou livros áudio.
- Classificação de música: categorize música com base no género, estado de espírito ou outras caraterísticas.
Acessibilidade e tecnologias de assistência:
- Legendas em tempo real: ofereça legendas instantâneas para eventos ou videochamadas.
- Aplicações controladas por voz: desenvolva aplicações controladas inteiramente por voz.
- Aprendizagem de idiomas: criar ferramentas que ofereçam feedback personalizado sobre a pronúncia.
Limitações
Modelos Gemini 2.5
Especificação | Valor |
---|---|
Duração máxima do áudio por exemplo | 60 minutos |
Número máximo de ficheiros de áudio por exemplo | 1 |
Tamanho máximo do ficheiro de áudio | 100MB |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
Especificação | Valor |
---|---|
Duração máxima do áudio por exemplo | 60 minutos |
Número máximo de ficheiros de áudio por exemplo | 1 |
Tamanho máximo do ficheiro de áudio | 100MB |
Para saber mais sobre os requisitos de amostras de áudio, consulte a página Compreensão de áudio (apenas voz).
Formato do conjunto de dados
O fileUri
do conjunto de dados pode ser o URI de um ficheiro num contentor do Cloud Storage ou pode ser um URL HTTP ou HTTPS disponível publicamente.
Para ver o exemplo de formato genérico, consulte o Exemplo de conjunto de dados para o Gemini.
Segue-se um exemplo de um conjunto de dados de áudio.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
O que se segue?
- Para saber mais sobre o modelo de compreensão de áudio do Gemini, consulte o artigo Compreensão de áudio (apenas voz).
- Para começar a otimizar, consulte o artigo Otimize os modelos do Gemini através da otimização precisa supervisionada.
- Para saber como a otimização precisa supervisionada pode ser usada numa solução que cria uma base de conhecimentos de IA generativa, consulte o artigo Solução de arranque rápido: base de conhecimentos de IA generativa.