Speech-to-Text는 다른 표준 및 고급 음성 인식 모델 외에도 2가지 의료 모델을 제공합니다. 의료 모델은 진단, 약물, 증상, 치료, 질환 등 의료 환경에서 일반적으로 사용되는 단어를 인식하도록 특별히 설계되었습니다. 이러한 유형의 오디오 데이터를 인식하려면 이 모델을 사용하여 스크립트 작성 결과를 개선하면 됩니다.
구체적인 사용 사례에 맞춰 설계된 2가지 의료 모델이 있습니다.
medical_conversation: 의사, 간호사 등의 의료인과 환자 간의 대화입니다. 의료인과 환자가 모두 말하는 경우 이 모델을 사용합니다. 각 화자가 발화한 단어가 자동으로 인식되어 반환된 스크립트에 라벨이 지정됩니다.medical_dictation: 단일 의료인이 발언한 음성 메모(예: 환자의 혈액 검사 결과에 대한 의사 음성 기록)
의료 모델은 오직 다음과 같은 Speech-to-Text 기능과 함께 사용합니다. 이 목록에 없는 기능은 두 의료 모델과 함께 사용할 수 없습니다. 자동 구두점 기능은 기본적으로 사용 설정되어 있습니다.
의료 대화 모델에서는 다음 기능이 지원됩니다.
의료 음성기록 모델에서는 다음 기능이 지원됩니다.
스크립트 작성 요청 보내기
REST
다음 코드 샘플에서는 medical_conversation 모델을 사용하여 공개 Cloud Storage 버킷의 오디오 파일의 스크립트 작성합니다.
요청 데이터를 사용하기 전에 다음을 바꿉니다.
LANGUAGE_CODE: 오디오 클립에서 사용된 언어의 BCP-47 코드. 의료 모델은 en-US에만 사용할 수 있습니다.ENCODING: 스크립트를 작성할 오디오의 인코딩. 공개 오디오 샘플을 사용하는 경우 인코딩이LINEAR16입니다.PROJECT_ID: Google Cloud 프로젝트의 영숫자 ID
HTTP 메서드 및 URL:
POST https://speech.googleapis.com/v1/speech:recognize
JSON 요청 본문:
{
"config": {
"languageCode": "LANGUAGE_CODE",
"encoding": "ENCODING",
"model": "medical_conversation"
},
"audio": {
"uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
}
}
요청을 보내려면 다음 옵션 중 하나를 펼칩니다.
다음과 비슷한 JSON 응답이 표시됩니다.
"results": [
{
"alternatives": [
{
"transcript": "Um-hum . Yeah. Hello , good morning . Good
morning . So , tell me what's going on . Uh , sure , so , um , I
woke up probably three or four days ago , which , uh , wheezing and short of breath .
Okay , any cough or chest pain ? I cough infrequently , but no ,
uh , chest pain . Have you been exposed to anyone with covid ?
Uh , no , and I also took a test , which was negative . Uh , is it getting
worse , or better ? Uh , it has been getting a lot worse"
}
]
},
{
"alternatives": [
{
"transcript": "Okay . Was there something that triggered this exposure to cold , for
example ? Um , I had a gone hiking , and I got caught in the rain the day
before this all started ."
}
]
}
]
}
음성 구두점
의료 음성기록 모델에서는 의료 기록에 대한 의료 음성 구두점이 지원됩니다. 이 기능은 기본적으로 사용 설정되며 사용 중지할 수 없습니다. 음성 구두점은 음성 스크립트 작성에서 브래킷으로 구분됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]
Speech-to-Text에서는 다음 음성 구두점이 지원됩니다.
- 마침표
- 쉼표
- 콜론
- 대문자
- 슬래시
- 대시
- 하이픈
- 물음표
- 세미콜론
- 따옴표
- 따옴표 해제
- 닫는 따옴표
- 여는 괄호
- 닫는 괄호
- 마지막 괄호
명령어 형식 지정
의료 음성기록 모델에서는 기록 형식 지정을 위한 음성 명령어가 지원됩니다. 이 기능은 기본적으로 사용 설정되며 사용 중지할 수 없습니다. 음성 명령어는 음성 스크립트 작성에서 브래킷으로 구분됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.
[next line] Patient says they are experiencing fever [next point]
Speech-to-Text에서는 다음 음성 명령어가 지원됩니다.
- 다음 지점
- 다음 번호
- 다음 단락
- 대문자
- 대문자 사용
- 줄바꿈
- 다음 항목
- 다음 문제
- 다음 문제 번호
- 다음 행
- 다음 섹션
- 다음 번호
- 스크래치
- 스크래치 사용
- 음성기록 종료
음성 제목
의료 음성기록 모델에서는 음성기록에 대한 음성 제목이 지원됩니다. 이 기능은 기본적으로 사용 설정되며 사용 중지할 수 없습니다. 제목은 스크립트 작성에서 브래킷으로 구분되고 대문자로 표시됩니다. 예를 들어 다음과 비슷한 스크립트 작성이 반환될 수 있습니다.
[CURRENT MEDICATIONS] Patient is currently taking no medications
Speech-to-Text에서는 다음 음성 제목이 지원됩니다.
- 주요 호소 증상
- 현재 복용 약물
- 퇴원 시 처방 약물
- 퇴원 계획
- 가족력
- 발견 사항
- 시스템 검토
- 현재 질병의 이력
- 적응증
- 랩
- 과거 수술 병력
- 신체검사
- 시스템 검토
- 방사선학