A API Speech-to-Text oferece dois modelos médicos, além dos outros modelos de reconhecimento de voz padrão e melhorado. Os modelos médicos são especificamente adaptados para o reconhecimento de palavras comuns em contextos médicos, como diagnósticos, medicamentos, sintomas, tratamentos e condições. Se quiser reconhecer este tipo de dados de áudio, pode melhorar os resultados da transcrição através destes modelos.
Existem dois modelos médicos, cada um adaptado a exemplos de utilização específicos:
medical_conversation: para conversas entre um prestador de cuidados médicos, por exemplo, um médico ou um enfermeiro, e um paciente. Use este modelo quando um prestador e um paciente estiverem a falar. As palavras pronunciadas por cada interlocutor são detetadas e etiquetadas automaticamente na transcrição devolvida.medical_dictation: para notas ditadas por um único profissional de saúde, por exemplo, um médico a ditar notas sobre os resultados de um exame de sangue de um paciente.
Use modelos médicos apenas com as seguintes funcionalidades de conversão de voz em texto. Não é possível usar as funcionalidades omitidas desta lista com nenhum dos modelos médicos. A funcionalidade de pontuação automática está ativada por predefinição.
- Pontuação automática
- Transcrição alternativa
- Indicações de tempo das palavras
- Confiança ao nível da palavra
O modelo de conversa médica suporta as seguintes funcionalidades:
O modelo de ditado médico suporta as seguintes funcionalidades:
Envie um pedido de transcrição
REST
O seguinte exemplo de código usa o modelo medical_conversation para transcrever um ficheiro de áudio num contentor do Cloud Storage público.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
LANGUAGE_CODE: o código BCP-47 do idioma falado no clipe de áudio. Os modelos médicos só estão disponíveis em inglês dos EUA.ENCODING: a codificação do áudio que quer transcrever. Se estiver a usar o exemplo de áudio público, a codificação éLINEAR16.PROJECT_ID: o ID alfanumérico do seu projeto Google Cloud .
Método HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON do pedido:
{
"config": {
"languageCode": "LANGUAGE_CODE",
"encoding": "ENCODING",
"model": "medical_conversation"
},
"audio": {
"uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
}
}
Para enviar o seu pedido, expanda uma destas opções:
Deve receber uma resposta JSON semelhante à seguinte:
"results": [
{
"alternatives": [
{
"transcript": "Um-hum . Yeah. Hello , good morning . Good
morning . So , tell me what's going on . Uh , sure , so , um , I
woke up probably three or four days ago , which , uh , wheezing and short of breath .
Okay , any cough or chest pain ? I cough infrequently , but no ,
uh , chest pain . Have you been exposed to anyone with covid ?
Uh , no , and I also took a test , which was negative . Uh , is it getting
worse , or better ? Uh , it has been getting a lot worse"
}
]
},
{
"alternatives": [
{
"transcript": "Okay . Was there something that triggered this exposure to cold , for
example ? Um , I had a gone hiking , and I got caught in the rain the day
before this all started ."
}
]
}
]
}
Pontuação falada
O modelo de ditado médico suporta pontuação falada para notas médicas. Esta funcionalidade está ativada por predefinição e não pode ser desativada. A pontuação falada é delimitada por parênteses na transcrição de voz. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].
A conversão de voz em texto suporta a seguinte pontuação falada:
- ponto final
- vírgula
- dois pontos
- tampas
- barra
- travessão
- hífen
- ponto de interrogação
- ponto e vírgula
- aspas
- remover as aspas
- aspas de fim
- parêntese de abertura
- parêntese de fecho
- parêntese de fecho
Comandos de formatação
O modelo de ditado médico suporta comandos falados para formatar notas. Esta funcionalidade está ativada por predefinição e não pode ser desativada. Os comandos falados são delimitados por parênteses na transcrição de voz. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:
[next line] Patient says they are experiencing fever [next point].
A conversão de voz em texto suporta os seguintes comandos falados:
- ponto seguinte
- número seguinte
- parágrafo seguinte
- tampas
- uso de maiúsculas
- nova linha
- item seguinte
- problema seguinte
- next problem number
- linha seguinte
- secção seguinte
- number next
- arranhão
- scratch that
- terminar ditado
Títulos falados
O modelo de ditado médico suporta títulos falados para notas ditadas. Esta funcionalidade está ativada por predefinição e não pode ser desativada. Os títulos são delimitados por parênteses retos na transcrição e são escritos em maiúsculas. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:
[CURRENT MEDICATIONS] Patient is currently taking no medications.
A conversão de voz em texto suporta os seguintes títulos falados:
- CHIEF COMPLAINT
- MEDICAÇÕES ATUAIS
- MEDICAMENTOS DE ALTA
- PLANO DE ALTA
- HISTÓRICO FAMILIAR
- RESULTADOS
- REVISÃO DE SISTEMAS
- HISTÓRIA DA DOENÇA ATUAL
- INDICAÇÕES
- LABS
- HISTORIAL CIRÚRGICO ANTERIOR
- EXAME FÍSICO
- REVISÃO DE SISTEMAS
- RADIOLOGY