O serviço Speech-to-Text da Vertex AI no Google Distributed Cloud (GDC) air-gapped reconhece a fala de arquivos de áudio. O Speech-to-Text converte o áudio detectado em transcrições de texto usando a API pré-treinada.
Esta página mostra como transcrever arquivos de áudio em texto usando a API Speech-to-Text no Distributed Cloud.
Antes de começar
Antes de começar a usar a API Speech-to-Text, você precisa ter um projeto com a API Speech-to-Text ativada e as credenciais adequadas. Também é possível instalar bibliotecas de cliente para ajudar você a fazer chamadas para a API. Para mais informações, consulte Configurar um projeto de reconhecimento de fala.
Transcrever áudio com o modelo padrão
O Speech-to-Text realiza o reconhecimento de fala. Você envia o arquivo de áudio do qual quer reconhecer a fala diretamente como conteúdo na solicitação de API. O sistema retorna o texto transcrito resultante na resposta da API.
É necessário fornecer um objeto de configuração RecognitionConfig ao fazer uma solicitação de reconhecimento de fala. Esse objeto informa à API como processar os dados de áudio e que tipo de saída você espera. Se um modelo não for especificado explicitamente nesse objeto de configuração, o Speech-to-Text selecionará um modelo padrão.
Para mais informações, consulte a documentação da API Speech.
O exemplo a seguir transcreve a fala de um arquivo de áudio usando o modelo padrão do Speech-to-Text:
Python
Siga estas etapas para usar o serviço Speech-to-Text de um script Python para transcrever a fala de um arquivo de áudio:
Instale a versão mais recente da biblioteca de cliente da Speech-to-Text.
Defina as variáveis de ambiente necessárias em um script Python.
Adicione o código a seguir ao script Python criado:
import base64 from google.cloud import speech_v1p1beta1 import google.auth from google.auth.transport import requests from google.api_core.client_options import ClientOptions audience="https://ENDPOINT:443" api_endpoint="ENDPOINT:443" def get_client(creds): opts = ClientOptions(api_endpoint=api_endpoint) return speech_v1p1beta1.SpeechClient(credentials=creds, client_options=opts) def main(): creds = None try: creds, project_id = google.auth.default() creds = creds.with_gdch_audience(audience) req = requests.Request() creds.refresh(req) print("Got token: ") print(creds.token) except Exception as e: print("Caught exception" + str(e)) raise e return creds def speech_func(creds): tc = get_client(creds) content="BASE64_ENCODED_AUDIO" audio = speech_v1p1beta1.RecognitionAudio() audio.content = base64.standard_b64decode(content) config = speech_v1p1beta1.RecognitionConfig() config.encoding= speech_v1p1beta1.RecognitionConfig.AudioEncoding.ENCODING config.sample_rate_hertz=RATE_HERTZ config.language_code="LANGUAGE_CODE" config.audio_channel_count=CHANNEL_COUNT metadata = [("x-goog-user-project", "projects/PROJECT_ID")] resp = tc.recognize(config=config, audio=audio, metadata=metadata) print(resp) if __name__=="__main__": creds = main() speech_func(creds)Substitua:
ENDPOINT: o endpoint do Speech-to-Text que você usa para sua organização. Para mais informações, consulte Status e endpoints do serviço.PROJECT_ID: o ID do projeto.BASE64_ENCODED_AUDIO: os bytes de dados de áudio codificados em uma representação Base64. Essa string começa com caracteres semelhantes aZkxhQwAAACIQABAAAAUJABtAA+gA8AB+W8FZndQvQAyjv. Para mais informações, consulteRecognitionAudio.ENCODING: a codificação dos dados de áudio enviados na solicitação, comoLINEAR16. Para mais informações, consulteAudioEncoding.RATE_HERTZ: taxa de amostragem em Hertz dos dados de áudio enviados na solicitação, como16000. Para mais informações, consulteRecognitionConfig.LANGUAGE_CODE: o idioma do áudio fornecido como uma tag de idioma BCP-47. Consulte a lista de idiomas compatíveis e os respectivos códigos de idioma.CHANNEL_COUNT: o número de canais nos dados de áudio de entrada, como1. Para mais informações, consulteRecognitionConfig.
Salve o script Python.
Execute o script Python para transcrever o áudio:
python SCRIPT_NAMESubstitua
SCRIPT_NAMEpelo nome que você deu ao script Python, por exemplo,speech.py.