Los usuarios nuevos de Cloud Speech-to-Text deben usar la API V2. En nuestra guía de migración, podrás obtener información para migrar proyectos actuales a la versión más reciente.

Reconoce la voz mediante modelos médicos

En Cloud Speech-to-Text, se ofrecen dos modelos médicos, además de los otros modelos de reconocimiento de voz estándar y mejorados. Los modelos médicos se ajustan específicamente para el reconocimiento de palabras que son comunes en entornos médicos, como de diagnósticos, medicamentos, síntomas, tratamientos y afecciones. Si deseas reconocer este tipo de datos de audio, puedes mejorar los resultados de tu transcripción con estos modelos.

Existen dos modelos médicos, cada uno adaptado a casos de uso específicos:

medical_conversation: Para conversaciones entre un proveedor de atención médica, como un médico o una enfermera, y un paciente. Usa este modelo cuando hablen un proveedor y un paciente. Las palabras que dice cada interlocutor se detectan y etiquetan de forma automática en la transcripción que se devuelve.
medical_dictation: Para notas dictadas por un solo proveedor médico, por ejemplo, un médico que dicta notas sobre los resultados de la prueba de sangre de un paciente.

Usa modelos médicos solo con las siguientes funciones de Cloud Speech-to-Text. Las funciones que se omiten de esta lista no se pueden usar con ningún modelo médico. La función de puntuación automática está habilitada de forma predeterminada.

El modelo de conversación médica admite las siguientes funciones:

Identificación de interlocutores

El modelo de dictado médico admite las siguientes funciones:

Puntuación por voz
Comandos de formato
Encabezados por voz

Envía una solicitud de transcripción

REST

En la siguiente muestra de código, se usa el modelo medical_conversation para transcribir un archivo de audio en un bucket de Cloud Storage público.

Antes de usar cualquiera de los datos de solicitud a continuación, haz los siguientes reemplazos:

LANGUAGE_CODE: Es el código BCP-47 del idioma que se habla en el clip de audio. Los modelos médicos solo están disponibles para en-US.
ENCODING: Es la codificación del audio que quieres transcribir. Si usas la muestra de audio pública, la codificación es LINEAR16.
PROJECT_ID: Es el ID alfanumérico de tu proyecto Google Cloud .

Método HTTP y URL:

POST https://speech.googleapis.com/v1/speech:recognize

Cuerpo JSON de la solicitud:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Para enviar tu solicitud, expande una de estas opciones:

curl (Linux, macOS o Cloud Shell)

Nota: Con el siguiente comando, se supone que accediste a gcloud CLI con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login , o a través del uso de Cloud Shell, que accede de forma automática a gcloud CLI . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell (Windows)

Nota: El siguiente comando supone que accediste a gcloud CLI con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Puntuación por voz

El modelo de dictado médico admite la puntuación por voz para las notas médicas. Esta función está habilitada de forma predeterminada y no se puede inhabilitar. La puntuación por voz está delimitada por corchetes en la transcripción. Por ejemplo, la transcripción que se devuelve puede ser similar a la que se muestra a continuación:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Cloud Speech-to-Text admite la siguiente puntuación por voz:

punto
coma
dos puntos
mayúsculas
barra
guion
raya
signo de interrogación
punto y coma
entre comillas
sin comillas
fin de la cita
paréntesis de apertura
paréntesis de cierre
paréntesis de fin

Comandos de formato

El modelo de dictado médico admite comandos por voz para dar formato a las notas. Esta función está habilitada de forma predeterminada y no se puede inhabilitar. Los comandos hablados se definirán con corchetes en la transcripción de voz. Por ejemplo, la transcripción que se devuelve puede ser similar a la que se muestra a continuación:

[next line] Patient says they are experiencing fever [next point].

Cloud Speech-to-Text es compatible con los siguientes comandos por voz:

siguiente punto
siguiente número
siguiente párrafo
mayúsculas
uso de mayúsculas
nueva línea
siguiente elemento
siguiente problema
siguiente número del problema
siguiente fila
siguiente sección
siguiente número
borra
borra eso
finalizar dictado

Encabezados por voz

El modelo de dictado médico admite encabezados por voz para notas dictadas. Esta función está habilitada de forma predeterminada y no se puede inhabilitar. Los encabezados estarán delimitados por corchetes en la transcripción y se escribirán en mayúscula. Por ejemplo, la transcripción que se devuelve puede ser similar a la que se muestra a continuación:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Cloud Speech-to-Text admite los siguientes encabezados hablados:

DOLENCIA PRINCIPAL
MEDICAMENTOS ACTUALES
MEDICAMENTOS DE ALTA
PLAN DE ALTA
HISTORIAL FAMILIAR
RESULTADOS
REVISIÓN DE SISTEMAS
HISTORIAL DE AFECCIÓN ACTUAL
INDICACIONES
EXÁMENES MÉDICOS
HISTORIAL QUIRÚRGICO
EXAMEN FÍSICO
REVISIÓN DE SISTEMAS
RADIOLOGÍA

Reconoce la voz mediante modelos médicos Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Envía una solicitud de transcripción

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Puntuación por voz

Comandos de formato

Encabezados por voz

Reconoce la voz mediante modelos médicos