Os modelos personalizados da Speech-to-Text ajudam a ajustar modelos de reconhecimento de fala conforme suas necessidades. Esse serviço foi desenvolvido para aumentar a acurácia e a relevância do serviço de reconhecimento de fala em diversos ambientes e casos de uso, usando dados de texto e áudio específicos do seu domínio.
Acessíveis tanto no console do Google Cloud quanto na API, os modelos personalizados da Speech-to-Text permitem treinar, avaliar e implantar um modelo de fala dedicado em um ambiente integrado sem código. Para o treinamento, você pode fornecer apenas dados de áudio que representem suas condições de áudio, sem transcrições de referência como um conjunto de treinamento. No entanto, você precisa fornecer dados de áudio e as transcrições de referência como parte do conjunto de avaliação.
A criação e o uso de um modelo personalizado da Cloud Speech-to-Text envolvem as seguintes etapas:
- Preparar e fazer upload de dados de treinamento em um bucket do Cloud Storage.
- Treinar um novo modelo personalizado.
- Implantar e gerenciar o modelo personalizado usando endpoints.
- Usar e avaliar o modelo personalizado no aplicativo.
Como funciona?
É possível usar modelos personalizados da Speech-to-Text para aumentar um modelo de transcrição base a fim de melhorar o reconhecimento de transcrição. Algumas condições de áudio, como sirenes, música e ruídos de fundo excessivos, podem representar problemas acústicos. Alguns acentos ou vocabulários incomuns, assim como nomes de produtos, também pode causar o mesmo tipo de problema.
Cada modelo personalizado da Speech-to-Text usa uma arquitetura pré-treinada e baseada no Conformer como modelo base treinado com dados próprios do idioma frequentemente falado. Durante o processo de treinamento, o modelo base é ajustado adaptando uma porcentagem significativa dos pesos originais para melhorar o reconhecimento das condições de áudio e vocabulário específicas do domínio em relação ao aplicativo.
Para o treinamento eficaz de um modelo personalizado da Speech-to-Text, é necessário fornecer:
- Um mínimo de 100 horas de áudio de dados de treinamento, seja somente áudio ou áudio com
a transcrição de texto correspondente, como informações empíricas. Esses dados são cruciais para a
fase inicial de treinamento para que o modelo aprenda de maneira abrangente as nuances
dos padrões de fala e vocabulário. Confira detalhes em
Criar um conjunto de dados de
informações empíricas.
- Um conjunto de dados separado de pelo menos 10 horas de áudio de dados de validação, com a transcrição de texto correspondente, como informações empíricas. Saiba mais sobre o formato esperado e as convenções de informações empíricas a serem seguidas nas instruções de preparação de dados.
Após um treinamento bem-sucedido, é possível implantar um modelo personalizado da Speech-to-Text em um endpoint com um clique e usá-lo diretamente pela API Cloud Speech-to-Text V2 para inferência e comparação.
Modelos, idiomas e regiões disponíveis
Os modelos personalizados da Speech-to-Text aceitam as seguintes combinações de modelos, idiomas e localidades para treinamento:
| Idioma | BCP-47 | Modelo base |
|---|---|---|
|
Alemão (Alemanha) |
de-DE |
|
|
Inglês (Austrália) |
en-AU |
|
|
Inglês (Reino Unido) |
en-GB |
|
|
Inglês (Índia) |
en-IN |
|
|
Inglês (Estados Unidos) |
en-US |
|
|
Espanhol (Estados Unidos) |
es-US |
|
|
Espanhol (Espanha) |
es-ES |
|
|
Francês (Canadá) |
fr-CA |
|
|
Francês (França) |
fr-FR |
|
|
Híndi (Índia) |
hi-IN |
|
|
Italiano (Itália) |
it-IT |
|
|
Japonês (Japão) |
ja-JP |
|
|
Coreano (Coreia do Sul) |
ko-KR |
|
|
Holandês (Holanda) |
nl-NL |
|
|
Português (Brasil) |
pt-BR |
|
|
Português (Portugal) |
pt-PT |
|
Além disso, para atender aos seus requisitos de residência de dados, oferecemos hardwares de treinamento e implantação em diferentes regiões. É possível usar hardwares dedicados com as seguintes combinações de modelos e regiões:
| Modelo base | Região doGoogle Cloud | Tarefas compatíveis |
|---|---|---|
|
|
|
Treinamento e implantação |
|
|
|
Treinamento e implantação |
Cota
Para o treinamento de modelos personalizados da Speech-to-Text, cada projeto do Google Cloudprecisa ter uma cota padrão suficiente para executar vários jobs de treinamento simultaneamente com o intuito de atender às necessidades da maioria dos projetos sem ajustes adicionais. No entanto, se você precisar executar um número maior de jobs de treinamento simultâneos ou precisar de recursos de rotulagem ou computação mais extensos, solicite mais cota.
Para um modelo personalizado da Speech-to-Text que atende a uma implantação de endpoint, cada endpoint tem um limite teórico de 20 consultas por segundo (QPS). Se for necessária uma capacidade de processamento maior, solicite uma cota de disponibilização adicional.
Preços
A criação e o uso de um modelo personalizado da Speech-to-Text envolvem determinados custos baseados principalmente nos recursos usados durante o treinamento e a implantação subsequente do modelo. Especificamente, o modelo personalizado da Speech-to-Text terá os seguintes custos em um ciclo de vida típico:
- Treinamento: a cobrança é feita sobre o número de horas de treinamento do modelo. Esse tempo é proporcional à quantidade de horas de áudio no conjunto de dados de treinamento. Por via de regra, o treinamento leva um décimo do número de horas de áudio no conjunto de dados.
- Implantação: a cobrança é feita sobre cada hora em que um modelo está implantado em um endpoint.
- Inferência: a cobrança é feita sobre o número de segundos de áudio transmitidos para transcrição, de acordo com o faturamento geral da Cloud Speech-to-Text.
Entender esses custos é fundamental para um orçamento e uma alocação de recursos eficazes. Para mais informações, na seção Modelos personalizados da Speech-to-Text, consulte Preços da Cloud Speech-to-Text.
A seguir
Siga os recursos para aproveitar os modelos de fala personalizados no seu aplicativo:
- Preparar os dados de treinamento
- Treinar e gerenciar modelos personalizados
- Implantar e gerenciar endpoints de modelo
- Usar os modelos personalizados
- Avaliar os modelos personalizados