색인
Adaptation(인터페이스)Speech(인터페이스)CreateCustomClassRequest(메시지)CreatePhraseSetRequest(메시지)CustomClass(메시지)CustomClass.ClassItem(메시지)CustomClass.State(열거형)DeleteCustomClassRequest(메시지)DeletePhraseSetRequest(메시지)GetCustomClassRequest(메시지)GetPhraseSetRequest(메시지)ListCustomClassesRequest(메시지)ListCustomClassesResponse(메시지)ListPhraseSetRequest(메시지)ListPhraseSetResponse(메시지)LongRunningRecognizeMetadata(메시지)LongRunningRecognizeRequest(메시지)LongRunningRecognizeResponse(메시지)PhraseSet(메시지)PhraseSet.Phrase(메시지)PhraseSet.State(열거형)RecognitionAudio(메시지)RecognitionConfig(메시지)RecognitionConfig.AudioEncoding(열거형)RecognitionMetadata(메시지)(지원 중단됨)RecognitionMetadata.InteractionType(열거형)RecognitionMetadata.MicrophoneDistance(열거형)RecognitionMetadata.OriginalMediaType(열거형)RecognitionMetadata.RecordingDeviceType(열거형)RecognizeRequest(메시지)RecognizeResponse(메시지)SpeakerDiarizationConfig(메시지)SpeechAdaptation(메시지)SpeechAdaptation.ABNFGrammar(메시지)SpeechAdaptationInfo(메시지)SpeechContext(메시지)SpeechRecognitionAlternative(메시지)SpeechRecognitionResult(메시지)StreamingRecognitionConfig(메시지)StreamingRecognitionConfig.VoiceActivityTimeout(메시지)StreamingRecognitionResult(메시지)StreamingRecognizeRequest(메시지)StreamingRecognizeResponse(메시지)StreamingRecognizeResponse.SpeechEventType(열거형)TranscriptNormalization(메시지)TranscriptNormalization.Entry(메시지)TranscriptOutputConfig(메시지)UpdateCustomClassRequest(메시지)UpdatePhraseSetRequest(메시지)WordInfo(메시지)
조정
Google Cloud Speech Adaptation API를 구현하는 서비스입니다.
| CreateCustomClass |
|---|
|
맞춤 클래스를 만듭니다.
|
| CreatePhraseSet |
|---|
|
구문 힌트 세트를 만듭니다. 세트의 각 항목은 단일 단어 또는 여러 단어로 구성된 구문일 수 있습니다. PhraseSet이 포함된 호출을 보내면 인식 모델이 PhraseSet의 항목을 선호합니다.
|
| DeleteCustomClass |
|---|
|
맞춤 클래스를 삭제합니다.
|
| DeletePhraseSet |
|---|
|
구문 세트를 삭제합니다.
|
| GetCustomClass |
|---|
|
맞춤 클래스를 가져옵니다.
|
| GetPhraseSet |
|---|
|
구문 세트를 가져옵니다.
|
| ListCustomClasses |
|---|
|
맞춤 클래스를 나열합니다.
|
| ListPhraseSet |
|---|
|
구문 세트를 나열합니다.
|
| UpdateCustomClass |
|---|
|
커스텀 클래스를 업데이트합니다.
|
| UpdatePhraseSet |
|---|
|
구문 세트를 업데이트합니다.
|
음성
Google Cloud Speech API를 구현하는 서비스입니다.
| LongRunningRecognize |
|---|
|
비동기 음성 인식을 수행합니다. google.longrunning.Operations 인터페이스를 통해 결과를 수신합니다.
|
| 인식 |
|---|
|
동기 음성 인식을 수행합니다. 모든 오디오가 전송되고 처리된 후 결과를 수신합니다.
|
| StreamingRecognize |
|---|
|
양방향 스트리밍 음성 인식을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다.
|
CreateCustomClassRequest
CreateCustomClass 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
parent |
필수 항목입니다. 이 맞춤 클래스가 생성될 상위 리소스입니다. 형식:
Speech-to-Text는 승인을 처리하려면 지정된 리소스
|
custom_class_id |
필수 항목입니다. 맞춤 클래스에 사용할 ID이며, 맞춤 클래스의 리소스 이름에서 마지막 구성요소가 됩니다. 이 값은 문자, 숫자, 하이픈으로 제한되어야 하며, 첫 글자는 문자, 마지막 글자는 문자 또는 숫자여야 하고, 4~63자(영문 기준)여야 합니다. |
custom_class |
필수 항목입니다. 만들 맞춤 클래스입니다. |
CreatePhraseSetRequest
CreatePhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
parent |
필수 항목입니다. 이 구문 세트가 생성될 상위 리소스입니다. 형식:
Speech-to-Text는 승인을 처리하려면 지정된 리소스
|
phrase_set_id |
필수 항목입니다. 구문 세트에 사용할 ID이며, 구문 세트의 리소스 이름의 마지막 구성요소가 됩니다. 이 값은 문자, 숫자, 하이픈으로 제한되어야 하며, 첫 글자는 문자, 마지막 글자는 문자 또는 숫자여야 하고, 4~63자(영문 기준)여야 합니다. |
phrase_set |
필수 항목입니다. 만들 구문 세트입니다. |
CustomClass
오디오에 표시될 가능성이 높은 일반적인 개념을 나타내는 단어나 문구의 집합입니다(예: 여객선 이름 목록). CustomClass 항목은 PhraseSet 문구에 설정한 자리표시자로 대체될 수 있습니다.
| 필드 | |
|---|---|
name |
커스텀 클래스의 리소스 이름입니다. |
custom_class_id |
이 맞춤 클래스가 리소스인 경우 custom_class_id는 CustomClass의 리소스 ID입니다. 대소문자를 구분합니다. |
items[] |
클래스 항목의 컬렉션입니다. |
kms_key_name |
출력 전용입니다. ClassItem의 콘텐츠가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
출력 전용입니다. ClassItem의 콘텐츠가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
uid |
출력 전용입니다. CustomClass에 대해 시스템에서 할당된 고유 식별자입니다. 이 필드는 사용되지 않습니다. |
display_name |
출력 전용입니다. 사용자가 설정할 수 있고 인간이 읽을 수 있는 CustomClass 이름입니다. 63자(영문 기준) 이하여야 합니다. 이 필드는 사용되지 않습니다. |
state |
출력 전용입니다. CustomClass 수명 주기 상태입니다. 이 필드는 사용되지 않습니다. |
delete_time |
출력 전용입니다. 이 리소스 삭제가 요청된 시간입니다. 이 필드는 사용되지 않습니다. |
expire_time |
출력 전용입니다. 이 리소스가 삭제될 시간입니다. 이 필드는 사용되지 않습니다. |
annotations |
출력 전용입니다. 사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석은 최대 100개입니다. 이 필드는 사용되지 않습니다. |
etag |
출력 전용입니다. 이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. 이 필드는 사용되지 않습니다. |
reconciling |
출력 전용입니다. 이 CustomClass가 업데이트되는 중인지 여부입니다. 이 필드는 사용되지 않습니다. |
ClassItem
클래스의 항목입니다.
| 필드 | |
|---|---|
value |
클래스 항목의 값입니다. |
상태
CustomClass의 수명 주기를 정의하는 상태 집합입니다.
| 열거형 | |
|---|---|
STATE_UNSPECIFIED |
지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다. |
ACTIVE |
정상 및 활성 상태. |
DELETED |
이 CustomClass가 삭제되었습니다. |
DeleteCustomClassRequest
DeleteCustomClass 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 삭제할 맞춤 클래스의 이름입니다. 형식:
Speech-to-Text는 승인을 처리하려면 지정된 리소스
|
DeletePhraseSetRequest
DeletePhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 삭제할 구문 세트의 이름입니다. 형식:
승인을 처리하려면 지정된 리소스
|
GetCustomClassRequest
GetCustomClass 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 가져올 맞춤 클래스의 이름입니다. 형식:
승인을 처리하려면 지정된 리소스
|
GetPhraseSetRequest
GetPhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 가져올 구문 세트의 이름입니다. 형식:
Speech-to-Text는 승인을 처리하려면 지정된 리소스
|
ListCustomClassesRequest
ListCustomClasses 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
parent |
필수 항목입니다. 이 맞춤 클래스 컬렉션을 소유한 상위 항목입니다. 형식:
Speech-to-Text는 승인을 처리하려면 지정된 리소스
|
page_size |
반환할 최대 맞춤 클래스 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 50개의 맞춤 클래스가 반환됩니다. 최댓값은 1,000이며, 1,000을 초과하는 값은 1,000으로 변환됩니다. |
page_token |
이전 페이지를 매길 때 |
ListCustomClassesResponse
ListCustomClasses 메서드에 의해 클라이언트에 반환된 메시지입니다.
| 필드 | |
|---|---|
custom_classes[] |
맞춤 클래스입니다. |
next_page_token |
다음 페이지를 검색하기 위해 |
ListPhraseSetRequest
ListPhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
parent |
필수 항목입니다. 이 문구 세트 컬렉션을 소유한 상위 항목입니다. 형식:
Speech-to-Text는 승인을 처리하려면 지정된 리소스
|
page_size |
반환할 최대 구문 세트 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 50개의 구문 세트가 반환됩니다. 최댓값은 1,000이며, 1,000을 초과하는 값은 1,000으로 변환됩니다. |
page_token |
이전 페이지를 매길 때 |
ListPhraseSetResponse
ListPhraseSet 메서드에 의해 클라이언트에 반환된 메시지입니다.
| 필드 | |
|---|---|
phrase_sets[] |
구문 세트입니다. |
next_page_token |
다음 페이지를 검색하기 위해 |
LongRunningRecognizeMetadata
장기 실행 LongRunningRecognize 호출의 진행 상황을 설명합니다. 이는 google::longrunning::Operations 서비스의 GetOperation 호출에서 반환한 Operation의 metadata 필드에 포함됩니다.
| 필드 | |
|---|---|
progress_percent |
지금까지 처리된 오디오의 대략적인 백분율입니다. 오디오가 완전히 처리되고 결과를 사용할 수 있을 때 100이 됩니다. |
start_time |
요청을 받은 시간입니다. |
last_update_time |
처리 상태가 가장 최근에 업데이트된 시간입니다. |
uri |
출력 전용입니다. 텍스트로 변환되는 오디오 파일의 URI입니다. 오디오가 바이트 콘텐츠로 전송된 경우 비어 있습니다. |
output_config |
출력 전용입니다. 요청에 설정된 경우 TranscriptOutputConfig의 사본입니다. |
LongRunningRecognizeRequest
LongRunningRecognize 메서드에 대해 클라이언트가 보낸 최상위 메시지입니다.
| 필드 | |
|---|---|
config |
필수 항목입니다. 인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. |
audio |
필수 항목입니다. 인식할 오디오 데이터입니다. |
output_config |
(선택사항) 인식 결과의 선택적 대상 위치를 지정합니다. |
LongRunningRecognizeResponse
LongRunningRecognize 메서드에서 클라이언트에 반환되는 유일한 메시지입니다. 결과가 0개 이상의 순차적 SpeechRecognitionResult 메시지로 포함됩니다. 이는 google::longrunning::Operations 서비스의 GetOperation 호출에서 반환한 Operation의 result.response 필드에 포함됩니다.
| 필드 | |
|---|---|
results[] |
오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다. |
total_billed_time |
가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다. |
output_config |
요청에 있는 경우 원래 출력 구성입니다. |
output_error |
스크립트 출력이 실패하면 이 필드에 관련 오류가 포함됩니다. |
speech_adaptation_info |
대답에서 음성 적응 동작에 관한 정보를 제공합니다. |
request_id |
요청과 연결된 ID입니다. 지정된 요청에만 해당하는 고유 ID입니다. |
PhraseSet
결과에서 특정 단어나 구문을 우선시하도록 음성 인식기에 '힌트'를 제공합니다.
| 필드 | |
|---|---|
name |
구문 세트의 리소스 이름입니다. |
phrases[] |
단어 및 구문 목록입니다. |
boost |
힌트 부스트. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스트 값은 편향 방지에 해당합니다. 편향 방지가 사용 설정되어 있지 않으므로 음수 부스트는 무시됩니다. |
kms_key_name |
출력 전용입니다. PhraseSet의 콘텐츠가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
출력 전용입니다. PhraseSet의 콘텐츠가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
uid |
출력 전용입니다. PhraseSet에 대해 시스템에서 할당된 고유 식별자입니다. 이 필드는 사용되지 않습니다. |
display_name |
출력 전용입니다. 사용자가 설정할 수 있고 인간이 읽을 수 있는 PhraseSet 이름입니다. 63자(영문 기준) 이하여야 합니다. 이 필드는 사용되지 않습니다. |
state |
출력 전용입니다. CustomClass 수명 주기 상태입니다. 이 필드는 사용되지 않습니다. |
delete_time |
출력 전용입니다. 이 리소스 삭제가 요청된 시간입니다. 이 필드는 사용되지 않습니다. |
expire_time |
출력 전용입니다. 이 리소스가 삭제될 시간입니다. 이 필드는 사용되지 않습니다. |
annotations |
출력 전용입니다. 사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석은 최대 100개입니다. 이 필드는 사용되지 않습니다. |
etag |
출력 전용입니다. 이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. 이 필드는 사용되지 않습니다. |
reconciling |
출력 전용입니다. 이 PhraseSet가 업데이트되는 중인지 여부입니다. 이 필드는 사용되지 않습니다. |
구문
음성 인식에서 인식할 수 있도록 단어 및 구문 '힌트'가 포함된 구문입니다. 예를 들어 사용자가 특정 명령을 자주 사용하는 경우 해당 단어와 구문의 정확성을 높이는 데 사용할 수 있습니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다. 사용량 한도를 참조하세요.
목록 항목에는 자연어에서 발생하는 일반적인 개념을 나타내는 단어 그룹이 포함된 사전 빌드된 클래스 또는 맞춤 클래스도 포함될 수 있습니다. 예를 들어 연중 각 월에 대한 구문 힌트를 제공하는 대신 (예: 'i was born in january', 'i was born in febuary', ...) 사전 빌드된 $MONTH 클래스를 사용하면 월이 포함된 오디오 (예: 'i was born in $month')를 올바르게 변환할 가능성이 높아집니다. 사전 빌드된 클래스를 참조하려면 $가 앞에 붙은 클래스 기호를 사용하세요(예: $MONTH). 요청에 인라인으로 정의된 맞춤 클래스를 참조하려면 클래스의 custom_class_id을 모든 클래스 리소스와 인라인 클래스에 고유한 문자열로 설정합니다. 그런 다음 ${...}로 래핑된 클래스의 ID를 사용합니다(예: '${my-months}'). 맞춤 클래스 리소스를 참조하려면 ${}로 래핑된 클래스의 ID를 사용합니다 (예: ${my-months}).
Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.
| 필드 | |
|---|---|
value |
구문 자체입니다. |
boost |
힌트 부스트. 구문 집합 수준에서 부스트 집합을 재정의합니다. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스팅은 무시됩니다. |
주
CustomClass의 수명 주기를 정의하는 상태 집합입니다.
| 열거형 | |
|---|---|
STATE_UNSPECIFIED |
지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다. |
ACTIVE |
정상 및 활성 상태. |
DELETED |
이 CustomClass가 삭제되었습니다. |
RecognitionAudio
RecognitionConfig에 지정된 인코딩으로 오디오 데이터를 포함합니다. content 또는 uri를 제공해야 합니다. 둘 다 지정하거나 아무 것도 지정하지 않으면 google.rpc.Code.INVALID_ARGUMENT가 반환됩니다. 콘텐츠 한도를 참조하세요.
| 필드 | |
|---|---|
통합 필드 audio_source. 인라인 콘텐츠 또는 Google Cloud Storage URI인 오디오 소스입니다. audio_source은 다음 중 하나여야 합니다. |
|
content |
|
uri |
|
RecognitionConfig
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.
| 필드 | |||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
encoding |
모든 |
||||||||||||||||||
sample_rate_hertz |
모든 |
||||||||||||||||||
audio_channel_count |
입력 오디오 데이터의 채널 수입니다. MULTI-CHANNEL 인식에만 이 값을 설정합니다. LINEAR16, OGG_OPUS, FLAC의 유효한 값은 |
||||||||||||||||||
enable_separate_recognition_per_channel |
각 채널을 별도로 인식하려면 이 값을 명시적으로 |
||||||||||||||||||
language_code |
필수 항목입니다. 제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 'en-US'를 예로 들 수 있습니다. 현재 지원되는 언어 코드 목록은 언어 지원을 참조하세요. |
||||||||||||||||||
alternative_language_codes[] |
최대 3개의 추가 BCP-47 언어 태그 목록으로, 제공된 오디오의 가능한 대체 언어를 나열합니다. 현재 지원되는 언어 코드 목록은 언어 지원을 참조하세요. 대체 언어가 나열되면 인식 결과에 기본 language_code를 포함하여 가능성이 가장 높은 것으로 감지된 언어 인식이 포함됩니다. 인식 결과에는 오디오에서 감지된 언어의 언어 태그가 포함됩니다. 참고: 이 기능은 음성 명령 및 음성 검색 사용 사례에만 지원되며 다른 사용 사례(예: 전화 통화 텍스트 변환)에서는 성능이 다를 수 있습니다. |
||||||||||||||||||
max_alternatives |
반환되는 인식 가설의 최대 수입니다. 구체적으로 각 |
||||||||||||||||||
profanity_filter |
|
||||||||||||||||||
adaptation |
음성 적응 구성은 음성 인식의 정확도를 향상시킵니다. 자세한 내용은 음성 적응 문서를 참고하세요. 음성 적응이 설정되면 |
||||||||||||||||||
transcript_normalization |
(선택사항) 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다. |
||||||||||||||||||
speech_contexts[] |
|
||||||||||||||||||
enable_word_time_offsets |
|
||||||||||||||||||
enable_word_confidence |
|
||||||||||||||||||
enable_automatic_punctuation |
'true'인 경우 인식 결과 가설에 구두점이 추가됩니다. 이 기능은 특정 언어에서만 사용할 수 있습니다. 다른 언어에서는 요청에 이 값을 설정해도 효과가 없습니다. 기본값인 'false' 값은 결과 가설에 구두점을 추가하지 않습니다. |
||||||||||||||||||
enable_spoken_punctuation |
호출의 음성 구두점 동작입니다. 설정되지 않은 경우 선택한 모델에 따라 기본 동작을 사용합니다. 예를 들어 command_and_search는 기본적으로 음성 구두점을 사용 설정합니다. 'true'인 경우 요청에서 음성 구두점을 해당 기호로 바꿉니다. 예를 들어 '안녕하세요 물음표'는 '안녕하세요?'로 바뀝니다. 지원이 필요하면 https://cloud.google.com/speech-to-text/docs/spoken-punctuation를 참고하세요. 'false'인 경우 음성 구두점이 대체되지 않습니다. |
||||||||||||||||||
enable_spoken_emojis |
호출의 음성 이모티콘 동작입니다. 설정되지 않은 경우 선택한 모델에 따라 기본 동작이 사용됩니다. 'true'인 경우 요청에 음성 이모티콘 형식이 추가됩니다. 최종 스크립트에서는 음성 이모티콘이 해당 유니코드 기호로 바뀝니다. 'false'인 경우 말로 표현된 그림 이모티콘이 대체되지 않습니다. |
||||||||||||||||||
enable_speaker_diarization |
'true'인 경우 WordInfo에 제공된 speaker_label을 사용하여 인식 결과의 상위 대체 항목에 있는 인식된 각 단어에 대해 화자 감지를 사용 설정합니다. 참고: 대신 diarization_config를 사용하세요. |
||||||||||||||||||
diarization_speaker_count |
설정된 경우 대화의 예상 화자 수를 지정합니다. 기본값은 '2'입니다. enable_speaker_diarization이 true로 설정되지 않으면 무시됩니다. 참고: 대신 diarization_config를 사용하세요. |
||||||||||||||||||
diarization_config |
애플리케이션에 더 적합하게 분할하기 위해 화자 분할을 사용 설정하고 추가 파라미터를 설정하는 구성입니다. 참고: 이 구성이 사용 설정되면 모든 연속 스트리밍 응답에서 최상위 대안의 오디오 시작부터 모든 단어를 전송합니다. 그 이유는 시간이 지남에 따라 모델이 대화에서 화자를 구별하는 방법을 학습하므로 화자 태그를 개선하기 위함입니다. 스트리밍이 아닌 요청의 경우 최종 SpeechRecognitionResult의 최상위 대안에만 분할 결과가 제공됩니다. |
||||||||||||||||||
metadata |
이 요청에 관한 메타데이터입니다. |
||||||||||||||||||
model |
특정 요청에 선택할 수 있는 모델입니다. 최상의 결과를 얻으려면 도메인에 가장 적합한 모델을 선택합니다. 모델을 명시적으로 지정하지 않으면 RecognitionConfig의 매개변수를 기반으로 모델을 자동 선택합니다.
|
||||||||||||||||||
use_enhanced |
음성 인식에 고급 모델을 사용하려면 true로 설정합니다.
|
||||||||||||||||||
AudioEncoding
요청에서 전송한 오디오 데이터의 인코딩입니다.
audio_channel_count 및 enable_separate_recognition_per_channel 필드가 설정되지 않은 경우 모든 인코딩은 단일 채널 (모노) 오디오만 지원합니다.
최상의 결과를 얻으려면 오디오 소스를 무손실 인코딩(FLAC 또는 LINEAR16)으로 캡처하고 전송해야 합니다. 특히 주변 소음이 있는 경우 손실 코덱을 사용하여 오디오를 캡처하거나 전송하는 경우 음성 인식의 정확도가 떨어질 수 있습니다. 손실 코덱에는 MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3, WEBM_OPUS 등이 있습니다.
FLAC 및 WAV 오디오 파일 형식에는 포함된 오디오 콘텐츠를 설명하는 헤더가 포함됩니다. LINEAR16 또는 MULAW 인코딩 오디오가 포함된 WAV 파일에 대한 인식을 요청할 수 있습니다. 요청에 FLAC 또는 WAV 오디오 파일 형식을 전송하는 경우 AudioEncoding를 지정할 필요가 없습니다. 오디오 인코딩 형식은 파일 헤더에서 결정됩니다. FLAC 또는 WAV 오디오를 보낼 때 AudioEncoding을 지정하는 경우 인코딩 구성은 오디오 헤더에 설명된 인코딩과 일치해야 합니다. 그렇지 않으면 요청은 google.rpc.Code.INVALID_ARGUMENT 오류 코드를 반환합니다.
| 열거형 | |
|---|---|
ENCODING_UNSPECIFIED |
지정되지 않음 |
LINEAR16 |
압축되지 않은 16비트 부호 Little Endian 샘플(리니어 PCM)입니다. |
FLAC |
FLAC(무료 무손실 오디오 코덱)은 손실이 발생하지 않아 인식 성능이 저하되지 않고 필요한 대역폭이 LINEAR16의 약 절반에 불과하므로 이 인코딩이 권장됩니다. FLAC 스트림 인코딩은 16비트와 24비트 샘플을 지원하지만 STREAMINFO의 모든 필드가 지원되지는 않습니다. |
MULAW |
G.711 PCMU/mu-law를 사용하여 14비트 오디오 샘플을 압축하는 8비트 샘플입니다. |
AMR |
적응형 다중 속도 협대역 코덱입니다. sample_rate_hertz는 8,000이어야 합니다. |
AMR_WB |
적응형 다중 속도 광대역 코덱입니다. sample_rate_hertz는 16,000이어야 합니다. |
OGG_OPUS |
Ogg 컨테이너의 Opus 인코딩 오디오 프레임(OggOpus)입니다. sample_rate_hertz는 8,000, 12,000, 16,000, 24,000, 48,000 중 하나여야 합니다. |
SPEEX_WITH_HEADER_BYTE |
손실이 발생한 인코딩을 사용하지 않는 것이 좋습니다만, 매우 낮은 비트 전송률 인코딩이 필요한 경우 Speex 인코딩보다 OGG_OPUS를 사용하는 것이 좋습니다. Cloud Speech API에서 지원하는 Speex 인코딩에는 MIME 유형 audio/x-speex-with-header-byte의 경우와 같이 각 블록에 헤더 바이트가 있습니다. 이는 RFC 5574에 정의된 RTP Speex 인코딩의 변이입니다. 스트림은 RTP 패킷당 하나의 블록으로 연속된 블록입니다. 각 블록은 블록 길이가 바이트 단위로 포함된 바이트로 시작되며 RFC 5574에 지정된 정수 바이트 수(옥텟)로 패딩된 하나 이상의 Speex 데이터 프레임이 뒤따릅니다. 즉, 각 RTP 헤더는 블록 길이를 포함하는 단일 바이트로 바뀝니다. Speex 광대역만 지원되며, sample_rate_hertz는 16,000이어야 합니다. |
MP3 |
MP3 오디오. MP3 인코딩은 베타 기능이며 v1p1beta1에서만 사용할 수 있습니다. 32~320kbps 범위의 모든 표준 MP3 비트 전송률을 지원합니다. 이 인코딩을 사용할 때 sample_rate_hertz는 사용 중인 파일의 샘플링 레이트와 일치해야 합니다. |
WEBM_OPUS |
WebM 컨테이너의 Opus 인코딩 오디오 프레임입니다 (WebM). sample_rate_hertz는 8000, 12000, 16000, 24000, 48000 중 하나여야 합니다. |
ALAW |
G.711 PCMU/a-law를 사용하여 13비트 오디오 샘플을 압축하는 8비트 샘플입니다. |
RecognitionMetadata
인식할 오디오 데이터에 대한 설명입니다.
| 필드 | |
|---|---|
interaction_type |
인식할 오디오 콘텐츠를 가장 잘 설명하는 사용 사례입니다. |
industry_naics_code_of_audio |
이 음성 인식 요청이 가장 잘 적용되는 업종 카테고리입니다. 오디오에 포함된 주제를 가장 잘 나타냅니다. 6자리 NAICS 코드를 사용하여 업종 카테고리를 식별합니다. https://www.naics.com/search/를 참조하세요. |
microphone_distance |
인식되는 오디오를 가장 잘 설명하는 오디오 유형입니다. |
original_media_type |
음성이 녹음된 원본 미디어입니다. |
recording_device_type |
음성을 녹음한 기기의 유형입니다. |
recording_device_name |
녹음에 사용된 기기입니다. 'Nexus 5X', 'Polycom SoundStation IP 6000', 'POTS', 'VoIP', 'Cardioid Microphone' 등을 예로 들 수 있습니다. |
original_mime_type |
원본 오디오 파일의 Mime 유형입니다. 예를 들면 |
obfuscated_id |
서비스를 사용하는 고유 사용자의 번호를 식별하는 난독화(개인정보 보호)된 사용자 ID입니다. |
audio_topic |
콘텐츠에 대한 설명입니다. 예: '2012년 연방 대법원 청문회 녹음 파일' |
InteractionType
오디오 인식 요청을 설명할 수 있는 사용 사례 카테고리입니다.
| 열거형 | |
|---|---|
INTERACTION_TYPE_UNSPECIFIED |
사용 사례를 알 수 없거나 아래의 다른 값 중 어느 것에도 해당하지 않습니다. |
DISCUSSION |
여러 사람이 대화 또는 토론에 참여하고 있습니다. 한 예로 두 명 이상이 적극적으로 참여하고 있는 회의를 들 수 있습니다. 일반적으로 말하는 모든 주요 화자가 같은 장소에 있을 것입니다. 그렇지 않은 경우 PHONE_CALL을 참조하세요. |
PRESENTATION |
한 명 이상의 사람이 다른 사람들에게 강의 또는 발표를 하며, 다른 사람이 거의 끼어들지 않습니다. |
PHONE_CALL |
같은 장소에 있지 않은 두 명 이상의 사람들이 전화 통화 또는 화상회의에 참석하여 말하고 있습니다. |
VOICEMAIL |
다른 사람에게 들려주고자 녹음된 메시지입니다. |
PROFESSIONALLY_PRODUCED |
전문적으로 제작된 오디오입니다(예: TV 프로그램, 팟캐스트). |
VOICE_SEARCH |
음성 질문 및 쿼리를 텍스트로 변환합니다. |
VOICE_COMMAND |
기기 제어와 같은 음성 명령을 텍스트로 변환합니다. |
DICTATION |
음성을 텍스트로 변환하여 SMS, 이메일, 보고서 등의 문서를 만듭니다. |
MicrophoneDistance
오디오 파일을 설명하는 녹음 설정 유형을 열거합니다.
| 열거형 | |
|---|---|
MICROPHONE_DISTANCE_UNSPECIFIED |
오디오 유형을 알 수 없습니다. |
NEARFIELD |
가까운 위치의 마이크에서 녹음된 오디오입니다. 전화, 딕터폰, 휴대용 마이크 등을 예로 들 수 있습니다. 일반적으로 화자가 마이크에서 1미터 이내에 있는 경우입니다. |
MIDFIELD |
화자가 마이크에서 3미터 이내에 있는 경우입니다. |
FARFIELD |
화자가 마이크에서 3미터 이상 떨어져 있는 경우입니다. |
OriginalMediaType
음성이 녹음된 원본 미디어입니다.
| 열거형 | |
|---|---|
ORIGINAL_MEDIA_TYPE_UNSPECIFIED |
알 수 없는 원본 미디어 유형입니다. |
AUDIO |
오디오 녹음 음성 데이터입니다. |
VIDEO |
원래 동영상에 녹음된 음성 데이터입니다. |
RecordingDeviceType
음성을 녹음한 기기의 유형입니다.
| 열거형 | |
|---|---|
RECORDING_DEVICE_TYPE_UNSPECIFIED |
녹음 기기를 알 수 없습니다. |
SMARTPHONE |
음성이 스마트폰에서 녹음되었습니다. |
PC |
음성이 개인용 컴퓨터 또는 태블릿을 사용하여 녹음되었습니다. |
PHONE_LINE |
음성이 유선 전화를 통해 녹음되었습니다. |
VEHICLE |
음성이 차량에서 녹음되었습니다. |
OTHER_OUTDOOR_DEVICE |
음성이 실외에서 녹음되었습니다. |
OTHER_INDOOR_DEVICE |
음성이 실내에서 녹음되었습니다. |
RecognizeRequest
Recognize 메서드에 대해 클라이언트가 보낸 최상위 메시지입니다.
| 필드 | |
|---|---|
config |
필수 항목입니다. 인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. |
audio |
필수 항목입니다. 인식할 오디오 데이터입니다. |
RecognizeResponse
Recognize 메서드에서 클라이언트에 반환되는 유일한 메시지입니다. 결과가 0개 이상의 순차적 SpeechRecognitionResult 메시지로 포함됩니다.
| 필드 | |
|---|---|
results[] |
오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다. |
total_billed_time |
가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다. |
speech_adaptation_info |
대답의 적응 동작에 관한 정보를 제공합니다. |
request_id |
요청과 연결된 ID입니다. 지정된 요청에만 해당하는 고유 ID입니다. |
using_legacy_models |
요청에서 기존 ASR 모델을 사용했는지 여부입니다 (컨포머 모델을 사용하도록 자동으로 이전되지 않음). |
SpeakerDiarizationConfig
화자 분할을 사용 설정하는 구성입니다.
| 필드 | |
|---|---|
enable_speaker_diarization |
'true'인 경우 WordInfo에 제공된 speaker_label을 사용하여 인식 결과의 상위 대체 항목에 있는 인식된 각 단어에 대해 화자 감지를 사용 설정합니다. |
min_speaker_count |
대화의 최소 화자 수입니다. 범위를 지정하면 시스템에서 올바른 화자 수를 자동으로 확인할 수 있어 유연성이 늘어납니다. 설정하지 않으면 기본값은 2입니다. |
max_speaker_count |
대화의 최대 화자 수입니다. 범위를 지정하면 시스템에서 올바른 화자 수를 자동으로 확인할 수 있어 유연성이 늘어납니다. 설정하지 않으면 기본값은 6입니다. |
speaker_tag |
출력 전용입니다. 사용되지 않습니다. |
SpeechAdaptation
음성 적응 구성입니다.
| 필드 | |
|---|---|
phrase_sets[] |
구문 세트의 모음입니다. 힌트를 인라인으로 지정하려면 문구 세트의 |
phrase_set_references[] |
사용할 구문 세트 리소스 이름의 컬렉션입니다. |
custom_classes[] |
맞춤 클래스의 컬렉션입니다. 클래스를 인라인으로 지정하려면 클래스의 |
abnf_grammar |
증강된 Backus-Naur 형식 (ABNF)은 일련의 파생 규칙으로 구성된 표준화된 문법 표기법입니다. 사양은 https://www.w3.org/TR/speech-grammar를 참고하세요. |
ABNFGrammar
| 필드 | |
|---|---|
abnf_strings[] |
연결되는 여러 문자열로 분할된 ABNF 문법의 모든 선언과 규칙입니다. |
SpeechAdaptationInfo
결과에서 음성 적응 사용에 관한 정보
| 필드 | |
|---|---|
adaptation_timeout |
음성 적응을 적용할 때 시간 초과가 발생했는지 여부입니다. true인 경우 적응이 응답 스크립트에 영향을 주지 않았습니다. |
timeout_message |
설정된 경우 음성 적응 요청 중 시간 초과된 부분을 지정하는 메시지를 반환합니다. |
SpeechContext
결과에서 특정 단어나 구문을 우선시하도록 음성 인식기에 '힌트'를 제공합니다.
| 필드 | |
|---|---|
phrases[] |
음성 인식에서 인식할 수 있도록 단어 및 구문 '힌트'가 포함된 문자열 목록입니다. 예를 들어 사용자가 특정 명령을 자주 사용하는 경우 해당 단어와 구문의 정확성을 높이는 데 사용할 수 있습니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다. 사용량 한도를 참조하세요. 목록 항목은 자연어에서 발생하는 일반적인 개념을 나타내는 단어 그룹의 클래스로 설정할 수도 있습니다. 예를 들어 연중 각 월에 대한 구문 힌트를 제공하는 대신 $MONTH 클래스를 사용하면 월이 포함된 오디오를 올바르게 변환할 가능성이 높아집니다. |
boost |
힌트 부스트. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스트 값은 편향 방지에 해당합니다. 편향 방지가 사용 설정되어 있지 않으므로 음수 부스트는 무시됩니다. |
SpeechRecognitionAlternative
대체 가설로서 n-best 목록이라고도 합니다.
| 필드 | |
|---|---|
transcript |
사용자가 말한 단어를 나타내는 스크립트 텍스트입니다. 공백을 사용하여 단어를 구분하는 언어의 경우 첫 번째 결과가 아니면 스크립트에 선행 공백이 있을 수 있습니다. 구분 기호를 사용하지 않고 각 결과를 연결하여 전체 스크립트를 얻을 수 있습니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 |
words[] |
인식된 각 단어의 단어별 정보 목록입니다. 참고: |
SpeechRecognitionResult
오디오의 일부분에 해당되는 음성 인식 결과입니다.
| 필드 | |
|---|---|
alternatives[] |
하나 이상의 인식 가설 ( |
channel_tag |
다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. audio_channel_count = N이라면 출력 값의 범위는 '1'~'N'입니다. |
result_end_time |
오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다. |
language_code |
출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다. |
StreamingRecognitionConfig
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.
| 필드 | |
|---|---|
config |
필수 항목입니다. 인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. |
single_utterance |
|
interim_results |
|
enable_voice_activity_events |
|
voice_activity_timeout |
설정된 경우 서버는 마지막 VOICE_ACTIVITY 음성 이벤트가 전송된 후 지정된 시간이 경과하면 스트림을 자동으로 닫습니다. |
VoiceActivityTimeout
음성 활동에 제한 시간을 설정할 수 있는 이벤트입니다.
| 필드 | |
|---|---|
speech_start_timeout |
음성이 시작되지 않은 경우 스트림이 제한 시간으로 설정되는 기간입니다. |
speech_end_timeout |
음성이 끝난 후 스트림이 타임아웃되는 시간입니다. |
StreamingRecognitionResult
현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 인식 결과입니다.
| 필드 | |
|---|---|
alternatives[] |
하나 이상의 인식 가설 ( |
is_final |
|
stability |
인식기가 이 중간 결과에 대한 추측을 변경하지 않을 가능성에 대한 추정치입니다. 값의 범위는 0.0(완전히 불안정함)~1.0(완전히 안정적임)입니다. 이 필드는 임시 결과( |
result_end_time |
오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다. |
channel_tag |
다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. audio_channel_count = N이라면 출력 값의 범위는 '1'~'N'입니다. |
language_code |
출력 전용. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다. |
StreamingRecognizeRequest
StreamingRecognize 메서드에 대해 클라이언트가 보낸 최상위 메시지입니다. 여러 StreamingRecognizeRequest 메시지가 전송됩니다. 첫 번째 메시지는 streaming_config 메시지를 포함해야 하며 audio_content를 포함해서는 안 됩니다. 이후의 모든 메시지는 audio_content를 포함해야 하며 streaming_config 메시지를 포함해서는 안 됩니다.
| 필드 | |
|---|---|
통합 필드 streaming_request. 스트리밍 구성 또는 오디오 콘텐츠인 스트리밍 요청입니다. streaming_request은 다음 중 하나여야 합니다. |
|
streaming_config |
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. 첫 번째 |
audio_content |
인식할 오디오 데이터입니다. 오디오 데이터의 순차적인 청크가 순차적 |
StreamingRecognizeResponse
StreamingRecognizeResponse는 StreamingRecognize에서 클라이언트로 반환하는 유일한 메시지입니다. 0개 이상의 StreamingRecognizeResponse 메시지가 클라이언트로 다시 스트리밍됩니다. 인식 가능한 오디오가 없고 single_utterance가 false로 설정되어 있으면 메시지가 클라이언트로 다시 스트리밍되지 않습니다.
다음은 오디오를 처리하는 동안 반환될 수 있는 일련의 StreamingRecognizeResponse 예시입니다.
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
참고:
위의 응답 중
is_final: true로 표시된 #4와 #7에만 최종 결과가 있습니다. 이들을 연결하면 전체 스크립트('to be or not to be that is the question')가 만들어집니다.다른 응답에는 중간
results가 포함됩니다. #3과 #6에는 두 개의 중간results가 포함되어 있습니다. 첫 번째 부분은 안정성이 높고 변경될 가능성이 낮습니다. 두 번째 부분은 안정성이 낮으며 변경될 가능성이 매우 높습니다. UI 디자이너는 재량에 따라 안정성이 높은results만 표시할 수 있습니다.위에 표시된 특정
stability및confidence값은 참고용이며 실제 값은 다를 수 있습니다.각 응답에서
error,speech_event_type, 하나 이상의 반복되는results필드 중 하나만 설정됩니다.
| 필드 | |
|---|---|
error |
설정된 경우 작업의 오류를 특정하는 |
results[] |
반복되는 이 목록에는 현재 처리 중인 오디오의 연속 부분에 해당하는 0개 이상의 결과가 포함됩니다. 0개 이상의 |
speech_event_type |
음성 이벤트 유형을 나타냅니다. |
speech_event_time |
오디오 시작과 이벤트 방출 사이의 타임스탬프입니다. |
total_billed_time |
가능한 경우 스트림에서 요금이 청구되는 오디오 초입니다. 스트림의 마지막 응답인 경우에만 설정됩니다. |
speech_adaptation_info |
대답의 적응 동작에 관한 정보를 제공합니다. |
request_id |
요청과 연결된 ID입니다. 지정된 요청에만 해당하는 고유 ID입니다. |
SpeechEventType
음성 이벤트 유형을 나타냅니다.
| 열거형 | |
|---|---|
SPEECH_EVENT_UNSPECIFIED |
음성 이벤트가 지정되지 않았습니다. |
END_OF_SINGLE_UTTERANCE |
이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않습니다. 하지만 나중에 추가 결과가 반환될 수 있습니다. 클라이언트는 추가 오디오 데이터 전송을 중단하고 gRPC 연결을 반쯤 닫은 후 서버가 gRPC 연결을 닫을 때까지 추가 결과를 기다려야 합니다. 이 이벤트는 single_utterance가 true로 설정된 경우에만 전송되며 다른 방식으로 사용되지 않습니다. |
SPEECH_ACTIVITY_BEGIN |
이 이벤트는 서버가 스트림에서 사람 음성 활동의 시작을 감지했음을 나타냅니다. 이 이벤트는 스트림 전체에서 음성이 반복적으로 시작되고 중지되면 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events가 true로 설정된 경우에만 전송됩니다. |
SPEECH_ACTIVITY_END |
이 이벤트는 서버가 스트림에서 사람 음성 활동의 끝을 감지했음을 나타냅니다. 이 이벤트는 스트림 전체에서 음성이 반복적으로 시작되고 중지되면 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events가 true로 설정된 경우에만 전송됩니다. |
SPEECH_ACTIVITY_TIMEOUT |
이 이벤트는 음성 활동 시작 또는 종료에 대해 사용자가 설정한 제한 시간이 초과되었음을 나타냅니다. 이 이벤트를 수신하면 클라이언트는 절반 닫기를 전송해야 합니다. 추가 오디오는 처리되지 않습니다. |
TranscriptNormalization
스크립트 작성 정규화 구성입니다. 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다.
| 필드 | |
|---|---|
entries[] |
대체 항목 목록입니다. 한 번에 하나의 항목으로 교체됩니다. 예를 들어 ["cat" => "dog", "mountain cat" => "mountain dog"] 의 두 번째 항목은 항상 첫 번째 항목이 먼저 처리되기 때문에 적용되지 않습니다. 최대 100개 항목. |
항목
단일 대체 구성.
| 필드 | |
|---|---|
search |
교체할 대상. 최대 길이는 100자(영문 기준)입니다. |
replace |
무엇으로 바꿀지. 최대 길이는 100자(영문 기준)입니다. |
case_sensitive |
검색 시 대소문자를 구분하는지 여부입니다. |
TranscriptOutputConfig
인식 결과의 선택적 대상 위치를 지정합니다.
| 필드 | |
|---|---|
통합 필드
|
|
gcs_uri |
인식 결과의 Cloud Storage URI를 지정합니다. |
UpdateCustomClassRequest
UpdateCustomClass 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
custom_class |
필수 항목입니다. 업데이트할 맞춤 클래스입니다. 맞춤 클래스의
Speech-to-Text는 승인을 처리하려면 지정된 리소스
|
update_mask |
업데이트할 필드 목록입니다. |
UpdatePhraseSetRequest
UpdatePhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.
| 필드 | |
|---|---|
phrase_set |
필수 항목입니다. 업데이트할 구문 집합입니다. 업데이트할 세트를 식별하는 데 구문 세트의
Speech-to-Text는 승인을 처리하려면 지정된 리소스
|
update_mask |
업데이트할 필드 목록입니다. |
WordInfo
인식된 단어의 단어별 정보입니다.
| 필드 | |
|---|---|
start_time |
오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 |
end_time |
오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 |
word |
이 정보 세트에 해당하는 단어입니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 |
speaker_tag |
출력 전용입니다. 오디오 내의 모든 화자에 고유한 정수 값이 할당됩니다. 이 필드는 화자 중 이 단어를 말한 것으로 감지된 화자를 지정합니다. 값은 '1'에서 diarization_speaker_count까지입니다. speaker_tag는 enable_speaker_diarization = 'true'인 경우에만 설정되며 최상위 대안에만 설정됩니다. 참고: 대신 speaker_label을 사용하세요. |
speaker_label |
출력 전용입니다. 오디오 내 모든 고유한 화자에게 할당된 라벨 값입니다. 이 필드는 이 단어를 말한 것으로 감지된 화자를 지정합니다. medical_conversation과 같은 일부 모델의 경우 실제 화자 역할(예: '환자' 또는 '의료인')일 수 있지만 일반적으로 화자를 식별하는 숫자입니다. 이 필드는 enable_speaker_diarization = 'true'인 경우에만 설정되며 최상위 대안에만 설정됩니다. |