Usa modelos

Usa un modelo entrenado y personalizado de Speech-to-Text en tus flujos de trabajo de aplicación de producción o de comparativas. En cuanto implementes tu modelo con un extremo dedicado, obtendrás acceso programático de manera automática a través de un objeto de reconocimiento que se puede usar directamente por medio de la API V2 de Cloud Speech-to-Text o en la consola de Google Cloud .

Antes de empezar

Asegúrate de haberte registrado en una cuenta de Google Cloud , de haber creado un proyecto, y de haber entrenado un modelo de voz personalizado y haberlo implementado con un extremo.

Realiza inferencias en V2

Para que un modelo personalizado de Speech-to-Text esté listo para usarse, su estado en la pestaña Modelos debería ser Activo, y el extremo dedicado en la pestaña Extremos debe estar Implementado.

En el ejemplo, en el que el ID del proyecto Google Cloud es custom-models-walkthrough, el extremo que corresponde al modelo personalizado de Speech-to-Text quantum-computing-lectures-custom-model es quantum-computing-lectures-custom-model-prod-endpoint. La región en la que está disponible es us-east1, y la solicitud de transcripción por lotes es la que se indica a continuación:

from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def quickstart_v2(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe an audio file."""
    # Instantiates a client
    client = SpeechClient(
    client_options=client_options.ClientOptions(
      api_endpoint="us-east1-speech.googleapis.com"
    )
  )

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        language_codes=["en-US"],
        model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
    )
    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

¿Qué sigue?

Consulta los recursos para aprovechar los modelos de voz personalizados en tu aplicación. Consulta Evalúa tus modelos personalizados.