Os novos utilizadores do Cloud Speech-to-Text devem usar a API V2. Leia o nosso guia de migração para saber como migrar projetos existentes para a versão mais recente.

Reconheça a voz através de modelos médicos

O Cloud Speech-to-Text oferece dois modelos médicos, além dos outros modelos de reconhecimento de voz padrão e melhorados. Os modelos médicos são especificamente adaptados para o reconhecimento de palavras comuns em contextos médicos, como diagnósticos, medicamentos, sintomas, tratamentos e condições. Se quiser reconhecer este tipo de dados de áudio, pode melhorar os resultados da transcrição através destes modelos.

Existem dois modelos médicos, cada um adaptado a exemplos de utilização específicos:

medical_conversation: para conversas entre um prestador de cuidados médicos, por exemplo, um médico ou um enfermeiro, e um paciente. Use este modelo quando um prestador e um paciente estiverem a falar. As palavras pronunciadas por cada interlocutor são detetadas e etiquetadas automaticamente na transcrição devolvida.
medical_dictation: para notas ditadas por um único profissional de saúde, por exemplo, um médico a ditar notas sobre os resultados de um exame de sangue de um paciente.

Use modelos médicos apenas com as seguintes funcionalidades do Cloud Speech-to-Text. Não é possível usar as funcionalidades omitidas desta lista com nenhum dos modelos médicos. A funcionalidade de pontuação automática está ativada por predefinição.

O modelo de conversa médica suporta as seguintes funcionalidades:

Separação de oradores

O modelo de ditado médico suporta as seguintes funcionalidades:

Pontuação falada
Comandos de formatação
Títulos falados

Envie um pedido de transcrição

REST

O seguinte exemplo de código usa o modelo medical_conversation para transcrever um ficheiro de áudio num contentor do Cloud Storage público.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

LANGUAGE_CODE: o código BCP-47 do idioma falado no clipe de áudio. Os modelos médicos só estão disponíveis em inglês dos EUA.
ENCODING: a codificação do áudio que quer transcrever. Se estiver a usar o exemplo de áudio público, a codificação é LINEAR16.
PROJECT_ID: o ID alfanumérico do seu projeto Google Cloud .

Método HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON do pedido:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Para enviar o seu pedido, expanda uma destas opções:

curl (Linux, macOS ou Cloud Shell)

Nota: O comando seguinte pressupõe que tem sessão iniciada na CLI gcloud com a sua conta de utilizador executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que inicia sessão automaticamente na CLI gcloud. Pode verificar a conta atualmente ativa executando o comando gcloud auth list.

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell (Windows)

Nota: O comando seguinte pressupõe que iniciou sessão na CLI do Google Ads com a sua conta de utilizador executando gcloud init ou gcloud auth login.gcloud Pode verificar a conta atualmente ativa executando o comando gcloud auth list.

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

Deve receber uma resposta JSON semelhante à seguinte:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Pontuação falada

O modelo de ditado médico suporta pontuação falada para notas médicas. Esta funcionalidade está ativada por predefinição e não pode ser desativada. A pontuação falada é delimitada por parênteses na transcrição de voz. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

O Cloud Speech-to-Text suporta a seguinte pontuação falada:

ponto final
vírgula
dois pontos
tampas
barra
travessão
hífen
ponto de interrogação
ponto e vírgula
aspas
remover aspas
aspas de fim
parêntese de abertura
parêntese de fecho
parêntese de fecho

Comandos de formatação

O modelo de ditado médico suporta comandos falados para formatar notas. Esta funcionalidade está ativada por predefinição e não pode ser desativada. Os comandos falados são delimitados por parênteses na transcrição de voz. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:

[next line] Patient says they are experiencing fever [next point].

O Cloud Speech-to-Text suporta os seguintes comandos falados:

ponto seguinte
número seguinte
parágrafo seguinte
tampas
uso de maiúsculas
nova linha
item seguinte
problema seguinte
next problem number
linha seguinte
secção seguinte
number next
arranhão
scratch that
terminar ditado

Títulos falados

O modelo de ditado médico suporta títulos falados para notas ditadas. Esta funcionalidade está ativada por predefinição e não pode ser desativada. Os títulos são delimitados por parênteses retos na transcrição e são escritos em maiúsculas. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

O Cloud Speech-to-Text suporta os seguintes títulos falados:

CHIEF COMPLAINT
MEDICAÇÕES ATUAIS
MEDICAMENTOS DE ALTA
PLANO DE ALTA
HISTÓRICO FAMILIAR
RESULTADOS
REVISÃO DE SISTEMAS
HISTÓRIA DA DOENÇA ATUAL
INDICAÇÕES
LABS
HISTORIAL CIRÚRGICO
EXAME FÍSICO
REVISÃO DE SISTEMAS
RADIOLOGY

Reconheça a voz através de modelos médicos Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Envie um pedido de transcrição

REST

curl (Linux, macOS ou Cloud Shell)

PowerShell (Windows)

Pontuação falada

Comandos de formatação

Títulos falados

Reconheça a voz através de modelos médicos