Os novos usuários do Cloud Speech-to-Text precisam usar a API V2. Leia nosso guia de migração para saber como transferir projetos atuais para a versão mais recente.

Introdução aos modelos mais recentes

As tags de modelo latest na API Cloud Speech-to-Text dão acesso a duas novas tags de modelo que podem ser usadas ao especificar o campo de modelo. Esses modelos foram projetados para oferecer acesso às tecnologias de fala e pesquisas de machine learning mais recentes do Google. Além disso, eles podem fornecer maior acurácia no reconhecimento de fala do que outros modelos disponíveis. No entanto, alguns recursos que são aceitos em outros modelos disponíveis ainda não são aceitos nos modelos com a tag latest.

Os modelos com a tag latest são baseados na tecnologia de Modelo de Fala do Conformer do Google. Para saber mais, consulte Publicação do Google Research.

Para usar os modelos com a tag latest, é preciso ter uma compreensão geral do uso da API ou da interface da Cloud Speech-to-Text.

Identificadores de modelo

Os modelos com a tag latest estão disponíveis em duas versões diferentes:

O modelo latest_short é destinado a enunciados curtos com alguns segundos de duração. Ele é útil para capturar comandos ou para outros casos de uso de fala direcionada única. Considere o uso do modelo latest_short em vez do modelo command_and_search.
O modelo latest_long é destinado a qualquer tipo de conteúdo de formato longo, como mídia ou fala e conversas espontâneas. Considere usar latest_long em vez de video, especialmente se video não estiver disponível no idioma-alvo. Também é possível usar o modelo latest_long em vez de default.

Tecnologia dos modelos

O objetivo dos modelos com a tag latest é oferecer o que há de mais recente em tecnologia de fala diretamente aos usuários do Google Cloud . Nossos modelos com a tag latest são baseados na tecnologia de Modelo de Fala do Conformer do Google, mas isso pode mudar no futuro. Para saber mais, confira a lista de publicações do Google Research.

Preços

Os modelos latest_long e latest_short são cobrados como Padrão e estão sujeitos ao mesmo uso e aos mesmos custos que os modelos command_and_search ou default. Para saber mais informações, consulte Preços.

Atualizações dos modelos

Os modelos com a tag latest se baseiam na tecnologia de machine learning, que está evoluindo rapidamente. Por esse motivo, podemos fazer atualizações de modelo com mais frequência do que em outros modelos. Essas atualizações podem adicionar outros recursos ou fazer pequenas mudanças na acurácia ou latência.

Idiomas

Os modelos com a tag latest estão disponíveis em mais de 20 idiomas e 50 variantes. Novos idiomas são sempre adicionados. Consulte a seção Idiomas para conferir a lista mais atualizada.

Suporte e limitações dos recursos

O suporte a recursos varia de acordo com o idioma. Consulte Idiomas para conferir uma lista completa dos recursos disponíveis.

Os modelos com a tag latest não aceitam o seguinte recurso:

Pontuações de confiança: a API retorna um valor, mas ele não é realmente uma pontuação de confiança.

Contrato de nível de serviço dos modelos

Os modelos com a tag latest são considerados parte da disponibilidade geral da API Cloud Speech-to-Text. Portanto, a funcionalidade deles está disponível na API v1 e se qualifica para o mesmo contrato de nível de serviço e outras proteções oferecidas para produtos e recursos com disponibilidade geral.

Introdução aos modelos mais recentes Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.