색인
Speech(인터페이스)AccessMetadata(메시지)AccessMetadata.ConstraintType(열거형)AutoDetectDecodingConfig(메시지)BatchRecognizeFileMetadata(메시지)BatchRecognizeFileResult(메시지)BatchRecognizeMetadata(메시지)BatchRecognizeRequest(메시지)BatchRecognizeRequest.ProcessingStrategy(열거형)BatchRecognizeResponse(메시지)BatchRecognizeResults(메시지)BatchRecognizeTranscriptionMetadata(메시지)CloudStorageResult(메시지)Config(메시지)CreateCustomClassRequest(메시지)CreatePhraseSetRequest(메시지)CreateRecognizerRequest(메시지)CustomClass(메시지)CustomClass.ClassItem(메시지)CustomClass.State(열거형)DeleteCustomClassRequest(메시지)DeletePhraseSetRequest(메시지)DeleteRecognizerRequest(메시지)DenoiserConfig(메시지)ExplicitDecodingConfig(메시지)ExplicitDecodingConfig.AudioEncoding(열거형)GcsOutputConfig(메시지)GetConfigRequest(메시지)GetCustomClassRequest(메시지)GetPhraseSetRequest(메시지)GetRecognizerRequest(메시지)InlineOutputConfig(메시지)InlineResult(메시지)LanguageMetadata(메시지)ListCustomClassesRequest(메시지)ListCustomClassesResponse(메시지)ListPhraseSetsRequest(메시지)ListPhraseSetsResponse(메시지)ListRecognizersRequest(메시지)ListRecognizersResponse(메시지)LocationsMetadata(메시지)ModelFeature(메시지)ModelFeatures(메시지)ModelMetadata(메시지)NativeOutputFileFormatConfig(메시지)OperationMetadata(메시지)OutputFormatConfig(메시지)PhraseSet(메시지)PhraseSet.Phrase(메시지)PhraseSet.State(열거형)RecognitionConfig(메시지)RecognitionFeatures(메시지)RecognitionFeatures.MultiChannelMode(열거형)RecognitionOutputConfig(메시지)RecognitionResponseMetadata(메시지)RecognizeRequest(메시지)RecognizeResponse(메시지)Recognizer(메시지)Recognizer.State(열거형)SpeakerDiarizationConfig(메시지)SpeechAdaptation(메시지)SpeechAdaptation.AdaptationPhraseSet(메시지)SpeechRecognitionAlternative(메시지)SpeechRecognitionResult(메시지)SrtOutputFileFormatConfig(메시지)StreamingRecognitionConfig(메시지)StreamingRecognitionFeatures(메시지)StreamingRecognitionFeatures.VoiceActivityTimeout(메시지)StreamingRecognitionResult(메시지)StreamingRecognizeRequest(메시지)StreamingRecognizeResponse(메시지)StreamingRecognizeResponse.SpeechEventType(열거형)TranscriptNormalization(메시지)TranscriptNormalization.Entry(메시지)TranslationConfig(메시지)UndeleteCustomClassRequest(메시지)UndeletePhraseSetRequest(메시지)UndeleteRecognizerRequest(메시지)UpdateConfigRequest(메시지)UpdateCustomClassRequest(메시지)UpdatePhraseSetRequest(메시지)UpdateRecognizerRequest(메시지)VttOutputFileFormatConfig(메시지)WordInfo(메시지)
음성
음성 스크립트 작성 및 리소스 관리를 사용 설정합니다.
| BatchRecognize |
|---|
|
일괄 비동기 음성 인식을 수행합니다. 오디오 파일 N개가 포함된 요청을 보내고 스크립트 작성이 완료된 시간을 확인하기 위해 폴링할 수 있는 장기 실행 작업을 수신합니다.
|
| CreateCustomClass |
|---|
|
|
| CreatePhraseSet |
|---|
|
|
| CreateRecognizer |
|---|
|
|
| DeleteCustomClass |
|---|
|
|
| DeletePhraseSet |
|---|
|
|
| DeleteRecognizer |
|---|
|
|
| GetConfig |
|---|
|
요청된
|
| GetCustomClass |
|---|
|
요청된
|
| GetPhraseSet |
|---|
|
요청된
|
| GetRecognizer |
|---|
|
요청된
|
| ListCustomClasses |
|---|
|
CustomClasses를 나열합니다.
|
| ListPhraseSets |
|---|
|
PhraseSets를 나열합니다.
|
| ListRecognizers |
|---|
|
인식기를 나열합니다.
|
| 인식 |
|---|
|
동기 음성 인식을 수행합니다. 모든 오디오가 전송되고 처리된 후 결과를 수신합니다.
|
| StreamingRecognize |
|---|
|
양방향 스트리밍 음성 인식을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다.
|
| UndeleteCustomClass |
|---|
|
|
| UndeletePhraseSet |
|---|
|
|
| UndeleteRecognizer |
|---|
|
|
| UpdateConfig |
|---|
|
|
| UpdateCustomClass |
|---|
|
|
| UpdatePhraseSet |
|---|
|
|
| UpdateRecognizer |
|---|
|
|
메타데이터 액세스
특정 지역의 액세스 메타데이터입니다. 지정된 프로젝트의 조직 정책이 특정 리전을 허용하지 않는 경우에 적용할 수 있습니다.
| 필드 | |
|---|---|
constraint_type |
적용되는 여러 유형의 제약조건을 설명합니다. |
제약조건 유형
리전에 적용할 수 있는 다양한 유형의 제약조건을 설명합니다.
| 열거형 | |
|---|---|
CONSTRAINT_TYPE_UNSPECIFIED |
지정되지 않은 제약조건이 적용되었습니다. |
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT |
프로젝트의 조직 정책이 지정된 리전을 허용하지 않습니다. |
AutoDetectDecodingConfig
이 유형에는 필드가 없습니다.
자동으로 감지된 디코딩 매개변수. 다음 인코딩에서 지원됩니다.
WAV_LINEAR16: WAV 컨테이너의 16비트 부호 little-endian PCM 샘플
WAV_MULAW: WAV 컨테이너의 8비트 압축 mulaw 샘플
WAV_ALAW: WAV 컨테이너의 8비트 압축 alaw 샘플
RFC4867_5_AMR: rfc4867.5 헤더가 있는 AMR 프레임
RFC4867_5_AMRWB: rfc4867.5 헤더가 있는 AMR-WB 프레임
FLAC: '네이티브 FLAC' 컨테이너 형식의 FLAC 프레임
MP3: 선택적 (무시된) ID3 메타데이터가 있는 MPEG 오디오 프레임
OGG_OPUS: Ogg 컨테이너의 Opus 오디오 프레임
WEBM_OPUS: WebM 컨테이너의 Opus 오디오 프레임
MP4_AAC: MP4 컨테이너의 AAC 오디오 프레임
M4A_AAC: M4A 컨테이너의 AAC 오디오 프레임
MOV_AAC: MOV 컨테이너의 AAC 오디오 프레임
BatchRecognizeFileMetadata
BatchRecognize의 배치에 있는 단일 파일에 관한 메타데이터입니다.
| 필드 | |
|---|---|
config |
자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
config_mask |
이 인식 요청 중에 인식기의 |
통합 필드 audio_source. Google Cloud Storage URI에 해당하는 오디오 소스입니다. audio_source는 다음 중 하나여야 합니다. |
|
uri |
오디오 파일의 Cloud Storage URI입니다. |
일괄 인식 파일 결과
단일 파일의 최종 결과입니다.
| 필드 | |
|---|---|
error |
발생한 경우 오류입니다. |
metadata |
|
uri |
지원이 중단되었습니다. 대신 |
transcript |
지원이 중단되었습니다. 대신 |
통합 필드
|
|
cloud_storage_result |
Cloud Storage에 기록된 인식 결과입니다. 이는 |
inline_result |
인식 결과. 이는 |
일괄 인식 메타데이터
BatchRecognize의 작업 메타데이터입니다.
| 필드 | |
|---|---|
transcription_metadata |
제공된 파일 이름을 해당 파일의 스크립트 작성 메타데이터로 매핑합니다. |
BatchRecognizeRequest
BatchRecognize 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
recognizer |
필수 항목입니다. 인식 중에 사용할 인식기의 이름입니다. 예상되는 형식은 |
config |
자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
config_mask |
이 인식 요청 중에 인식기의 |
files[] |
ASR용 파일 메타데이터가 포함된 오디오 파일. 지정할 수 있는 최대 파일 수는 15개입니다. |
recognition_output_config |
각 파일의 스크립트를 출력할 위치에 대한 구성 옵션입니다. |
processing_strategy |
이 요청에 사용할 처리 전략입니다. |
ProcessingStrategy
일괄 요청에 사용할 수 있는 처리 전략입니다.
| 열거형 | |
|---|---|
PROCESSING_STRATEGY_UNSPECIFIED |
처리 전략의 기본값입니다. 요청은 수신되는 즉시 처리됩니다. |
DYNAMIC_BATCHING |
이를 선택하면 사용률이 낮은 기간 동안 가격 할인으로 요청을 처리합니다. 요청은 24시간 이내에 처리됩니다. |
일괄 인식 응답
장기 실행 Operation으로 패키징된 BatchRecognize의 응답 메시지입니다.
| 필드 | |
|---|---|
results |
파일 이름에서 해당 파일의 최종 결과로 매핑합니다. |
total_billed_duration |
가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다. |
일괄 인식 결과
BatchRecognize 스크립트의 Cloud Storage 출력 유형입니다. 이 프로토콜은 이 API에서 어디에도 반환되지 않지만 Cloud Storage 스크립트는 이 프로토콜이 직렬화된 것이므로 이 프로토콜로 파싱해야 합니다.
| 필드 | |
|---|---|
results[] |
오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다. |
metadata |
인식에 관한 메타데이터입니다. |
BatchRecognizeTranscriptionMetadata
단일 파일의 스크립트 작성에 관한 메타데이터(예: 진행률 비율)입니다.
| 필드 | |
|---|---|
progress_percent |
지금까지 스크립트 작성된 파일의 양입니다. |
error |
발생한 경우 오류입니다. |
uri |
인식 결과가 기록될 Cloud Storage URI입니다. |
CloudStorageResult
Cloud Storage에 기록된 최종 결과입니다.
| 필드 | |
|---|---|
uri |
인식 결과가 기록된 Cloud Storage URI입니다. |
vtt_format_uri |
인식 결과가 VTT 형식 자막으로 기록된 Cloud Storage URI입니다. |
srt_format_uri |
인식 결과가 SRT 형식 자막으로 기록된 Cloud Storage URI입니다. |
구성
Speech-to-Text API의 구성을 나타내는 메시지입니다. 여기에는 수신 데이터가 암호화될 선택적 KMS 키가 포함됩니다.
| 필드 | |
|---|---|
name |
출력 전용입니다. 식별자. 구성 리소스의 이름입니다. 위치당 프로젝트당 정확히 한 개의 구성 리소스가 있습니다. 예상되는 형식은 |
kms_key_name |
선택사항입니다. 저장된 Speech-to-Text 리소스를 암호화하는 데 사용되는 선택적인 KMS 키 이름입니다. 이 키를 업데이트해도 이 키를 사용하는 기존 리소스는 암호화되지 않습니다. 새 리소스만 이 키를 사용하여 암호화됩니다. 예상되는 형식은 |
update_time |
출력 전용입니다. 이 리소스가 수정된 가장 최근 시간입니다. |
CreateCustomClassRequest
CreateCustomClass 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
custom_class |
필수 항목입니다. 생성할 CustomClass입니다. |
validate_only |
설정한 경우 요청을 검증하고 CustomClass를 미리 봅니다. 하지만 실제로 만들지는 않습니다. |
custom_class_id |
CustomClass에 사용할 ID이며, CustomClass의 리소스 이름의 마지막 구성 요소가 됩니다. 이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다. |
parent |
필수 항목입니다. 이 CustomClass가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 |
CreatePhraseSetRequest
CreatePhraseSet 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
phrase_set |
필수 항목입니다. 만들 PhraseSet입니다. |
validate_only |
설정한 경우 요청을 검증하고 PhraseSet를 미리 봅니다. 하지만 실제로 만들지는 않습니다. |
phrase_set_id |
PhraseSet에 사용할 ID이며, PhraseSet의 리소스 이름의 마지막 구성 요소가 됩니다. 이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다. |
parent |
필수 항목입니다. 이 PhraseSet가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 |
CreateRecognizerRequest
CreateRecognizer 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
recognizer |
필수 항목입니다. 생성할 인식기입니다. |
validate_only |
설정한 경우 요청을 검증하고 인식기를 미리 봅니다. 하지만 실제로 만들지는 않습니다. |
recognizer_id |
인식기에 사용할 ID이며, 인식기의 리소스 이름의 마지막 구성 요소가 됩니다. 이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다. |
parent |
필수 항목입니다. 이 Recognizer가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 |
CustomClass
음성 인식에 편향을 적용할 CustomClass입니다. 오디오에 표시될 가능성이 있는 일반적인 개념이나 테마를 나타내는 단어나 구문 집합을 정의하는 데 사용됩니다(예: 여객선 이름 목록).
| 필드 | |
|---|---|
name |
출력 전용입니다. 식별자. CustomClass의 리소스 이름입니다. 형식은 |
uid |
출력 전용입니다. CustomClass에 대해 시스템에서 할당된 고유 식별자입니다. |
display_name |
선택사항입니다. 사용자가 설정할 수 있고 인간이 읽을 수 있는 CustomClass 이름입니다. 63자(영문 기준) 이하여야 합니다. |
items[] |
클래스 항목의 컬렉션입니다. |
state |
출력 전용입니다. CustomClass 수명 주기 상태입니다. |
create_time |
출력 전용입니다. 생성 시간입니다. |
update_time |
출력 전용입니다. 이 리소스가 수정된 가장 최근 시간입니다. |
delete_time |
출력 전용입니다. 이 리소스 삭제가 요청된 시간입니다. |
expire_time |
출력 전용입니다. 이 리소스가 삭제될 시간입니다. |
annotations |
선택사항입니다. 사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개. |
etag |
출력 전용입니다. 이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
reconciling |
출력 전용입니다. 이 CustomClass가 업데이트되는 중인지 여부입니다. |
kms_key_name |
출력 전용입니다. CustomClass가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
출력 전용입니다. CustomClass가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
ClassItem
클래스의 항목입니다.
| 필드 | |
|---|---|
value |
클래스 항목의 값입니다. |
상태
CustomClass의 수명 주기를 정의하는 상태 집합입니다.
| 열거형 | |
|---|---|
STATE_UNSPECIFIED |
지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다. |
ACTIVE |
정상 및 활성 상태. |
DELETED |
이 CustomClass가 삭제되었습니다. |
DeleteCustomClassRequest
DeleteCustomClass 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 삭제할 CustomClass의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제된 CustomClass를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다. |
allow_missing |
true로 설정되어 있고 CustomClass를 찾을 수 없는 경우 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음). |
etag |
이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
DeletePhraseSetRequest
DeletePhraseSet 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 삭제할 PhraseSet의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제된 PhraseSet를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다. |
allow_missing |
true로 설정되어 있고 PhraseSet를 찾을 수 없는 경우 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음). |
etag |
이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
DeleteRecognizerRequest
DeleteRecognizer 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 삭제할 인식기의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제된 인식기를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다. |
allow_missing |
true로 설정되어 있고 인식기를 찾을 수 없는 경우 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음). |
etag |
이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
DenoiserConfig
잡음 제거 구성입니다. 일부 모델에서는 지원되지 않을 수 있으며 효과가 없을 수도 있습니다.
| 필드 | |
|---|---|
denoise_audio |
스크립트 작성 모델에 전송하기 전에 오디오에서 잡음을 제거합니다. |
snr_threshold |
노이즈 제거기의 신호 대 노이즈 비율 (SNR) 기준점입니다. 여기서 SNR은 음성 신호의 크기를 의미합니다. 이 기준점 미만의 SNR을 가진 오디오는 음성이 너무 조용하다는 의미이므로 스크립트 작성 모델로 전송되지 않습니다. snr_threshold=0이면 필터링이 적용되지 않습니다. |
ExplicitDecodingConfig
명시적으로 지정된 디코딩 매개변수입니다.
| 필드 | |
|---|---|
encoding |
필수 항목입니다. 인식을 위해 전송된 오디오 데이터의 인코딩입니다. |
sample_rate_hertz |
(선택사항) 인식을 위해 전송된 오디오 데이터의 샘플링 레이트(Hz)입니다. 유효한 값은 8,000~48,000이며 16,000이 최적입니다. 최상의 결과를 얻으려면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정하세요. 이 설정이 불가능하다면 다시 샘플링하지 말고 오디오 소스의 기본 샘플링 레이트를 사용하면 됩니다. 이 필드는 이전 버전과의 호환성을 위해 선택사항으로 표시됩니다. 사실상 필수입니다 (항상 그래 왔음). |
audio_channel_count |
(선택사항) 인식을 위해 전송된 오디오 데이터에 있는 채널 수입니다. 이 필드는 이전 버전과의 호환성을 위해 선택사항으로 표시됩니다. 사실상 필수입니다 (항상 그래 왔음). 허용되는 최댓값은 8입니다. |
AudioEncoding
지원되는 오디오 데이터 인코딩입니다.
| 열거형 | |
|---|---|
AUDIO_ENCODING_UNSPECIFIED |
기본값. 이 값은 사용되지 않습니다. |
LINEAR16 |
헤더 없는 16비트 부호 little-endian PCM 샘플 |
MULAW |
헤더 없는 8비트 압축 mulaw 샘플 |
ALAW |
헤더 없는 8비트 압축 alaw 샘플 |
AMR |
rfc4867.5 헤더가 있는 AMR 프레임 |
AMR_WB |
rfc4867.5 헤더가 있는 AMR-WB 프레임 |
FLAC |
'네이티브 FLAC' 컨테이너 형식의 FLAC 프레임 |
MP3 |
선택적 (무시된) ID3 메타데이터가 있는 MPEG 오디오 프레임 |
OGG_OPUS |
Ogg 컨테이너의 Opus 오디오 프레임입니다. |
WEBM_OPUS |
WebM 컨테이너의 Opus 오디오 프레임 |
MP4_AAC |
MP4 컨테이너의 AAC 오디오 프레임 |
M4A_AAC |
M4A 컨테이너의 AAC 오디오 프레임 |
MOV_AAC |
MOV 컨테이너의 AAC 오디오 프레임 |
GcsOutputConfig
Cloud Storage의 출력 구성입니다.
| 필드 | |
|---|---|
uri |
인식 결과가 기록될 Cloud Storage URI 접두사입니다. |
GetConfigRequest
GetConfig 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 가져올 구성의 이름입니다. 위치당 프로젝트당 정확히 한 개의 구성 리소스가 있습니다. 예상되는 형식은 |
GetCustomClassRequest
GetCustomClass 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 가져올 CustomClass의 이름입니다. 예상되는 형식은 |
GetPhraseSetRequest
GetPhraseSet 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 가져올 PhraseSet의 이름입니다. 예상되는 형식은 |
GetRecognizerRequest
GetRecognizer 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 가져올 인식기의 이름입니다. 예상되는 형식은 |
InlineOutputConfig
이 유형에는 필드가 없습니다.
인라인 대답의 출력 구성입니다.
InlineResult
인식 응답에서 인라인으로 반환된 최종 결과입니다.
| 필드 | |
|---|---|
transcript |
오디오 파일의 스크립트입니다. |
vtt_captions |
VTT 형식의 자막으로 된 오디오 파일의 스크립트입니다. |
srt_captions |
SRT 형식의 자막으로 된 오디오 파일의 스크립트입니다. |
LanguageMetadata
지정된 리전에서 사용할 수 있는 언어에 대한 메타데이터입니다. 현재는 각 언어에 사용할 수 있는 모델만 표시됩니다.
| 필드 | |
|---|---|
models |
언어 지도(언어 코드) -> 모델 |
ListCustomClassesRequest
ListCustomClasses 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
parent |
필수 항목입니다. 나열할 CustomClass 리소스의 프로젝트 및 위치입니다. 예상되는 형식은 |
page_size |
요청당 결과 수. 유효한 page_size 범위는 0~100입니다. page_size가 0이거나 지정되지 않은 경우 페이지 크기 5가 선택됩니다. 페이지 크기가 100을 초과하면 100으로 변환됩니다. 호출에서 요청된 페이지 크기보다 적은 결과를 반환할 수 있습니다. |
page_token |
이전 페이지를 매길 때 |
show_deleted |
삭제된 리소스를 표시할지 여부입니다. |
ListCustomClassesResponse
ListCustomClasses 메서드에 대한 응답 메시지입니다.
| 필드 | |
|---|---|
custom_classes[] |
요청된 CustomClasses 목록입니다. |
next_page_token |
다음 페이지를 검색하기 위해 |
ListPhraseSetsRequest
ListPhraseSets 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
parent |
필수 항목입니다. 나열할 PhraseSet 리소스의 프로젝트 및 위치입니다. 예상되는 형식은 |
page_size |
반환할 최대 PhraseSets 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 5개의 PhraseSets가 반환됩니다. 최댓값은 100이며, 100을 초과하는 값은 100으로 변환됩니다. |
page_token |
이전 페이지를 매길 때 |
show_deleted |
삭제된 리소스를 표시할지 여부입니다. |
ListPhraseSetsResponse
ListPhraseSets 메서드에 대한 응답 메시지입니다.
| 필드 | |
|---|---|
phrase_sets[] |
요청된 PhraseSets의 목록입니다. |
next_page_token |
다음 페이지를 검색하기 위해 |
ListRecognizersRequest
ListRecognizers 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
parent |
필수 항목입니다. 나열할 Recognizer의 프로젝트 및 위치입니다. 예상되는 형식은 |
page_size |
반환할 최대 인식기 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 5개의 인식기가 반환됩니다. 최댓값은 100이며, 100을 초과하는 값은 100으로 변환됩니다. |
page_token |
이전 페이지를 매길 때 |
show_deleted |
삭제된 리소스를 표시할지 여부입니다. |
ListRecognizersResponse
ListRecognizers 메서드에 대한 응답 메시지입니다.
| 필드 | |
|---|---|
recognizers[] |
요청된 Recognizer 목록입니다. |
next_page_token |
다음 페이지를 검색하기 위해 |
LocationsMetadata
STT V2의 위치 API의 기본 메타데이터입니다. 현재는 언어, 모델, 기능에 관한 메타데이터만 포함됩니다.
| 필드 | |
|---|---|
languages |
언어 -> 모델 -> 특성의 계층 구조에 표시된 사용 가능한 언어, 모델, 특성에 대한 정보입니다. |
access_metadata |
리전 및 지정된 프로젝트의 액세스 메타데이터에 대한 정보입니다. |
ModelFeature
모델의 단일 기능을 나타냅니다. 특성이 recognizer인 경우 특성의 release_state는 모델의 release_state를 나타냅니다.
| 필드 | |
|---|---|
feature |
특성의 이름(참고: 특성은 |
release_state |
특성의 출시 상태 |
ModelFeatures
모델에 속하는 특성의 컬렉션을 나타냅니다.
| 필드 | |
|---|---|
model_feature[] |
모델의 모든 특성을 포함하는 반복 필드입니다. |
ModelMetadata
특정 언어의 지정된 리전에 있는 모델에 대한 메타데이터입니다. 현재는 모델의 기능만
| 필드 | |
|---|---|
model_features |
모델 이름 지도 -> 해당 모델의 특성 |
NativeOutputFileFormatConfig
이 유형에는 필드가 없습니다.
직렬화된 BatchRecognizeResults proto의 출력 구성입니다.
OperationMetadata
장기 실행 작업의 메타데이터를 나타냅니다.
| 필드 | |
|---|---|
create_time |
작업이 생성된 시간입니다. |
update_time |
작업이 마지막으로 업데이트된 시간입니다. |
resource |
작업 대상의 리소스 경로입니다. |
method |
작업을 트리거한 메서드입니다. |
kms_key_name |
작업 콘텐츠가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
작업 콘텐츠가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
progress_percent |
작업의 진행률(백분율)입니다. 값 범위는 0~100입니다. 값이 100이면 작업이 완료된 것입니다. |
통합 필드 request. 작업을 생성한 요청입니다. request는 다음 중 하나여야 합니다. |
|
batch_recognize_request |
작업을 생성한 BatchRecognizeRequest입니다. |
create_recognizer_request |
작업을 생성한 CreateRecognizerRequest입니다. |
update_recognizer_request |
작업을 생성한 UpdateRecognizerRequest입니다. |
delete_recognizer_request |
작업을 생성한 DeleteRecognizerRequest입니다. |
undelete_recognizer_request |
작업을 생성한 UndeleteRecognizerRequest입니다. |
create_custom_class_request |
작업을 생성한 CreateCustomClassRequest입니다. |
update_custom_class_request |
작업을 생성한 UpdateCustomClassRequest입니다. |
delete_custom_class_request |
작업을 생성한 DeleteCustomClassRequest입니다. |
undelete_custom_class_request |
작업을 생성한 UndeleteCustomClassRequest입니다. |
create_phrase_set_request |
작업을 생성한 CreatePhraseSetRequest입니다. |
update_phrase_set_request |
작업을 생성한 UpdatePhraseSetRequest입니다. |
delete_phrase_set_request |
작업을 생성한 DeletePhraseSetRequest입니다. |
undelete_phrase_set_request |
작업을 생성한 UndeletePhraseSetRequest입니다. |
update_config_request |
작업을 생성한 UpdateConfigRequest입니다. |
통합 필드 metadata. RPC당 특정 메타데이터입니다. metadata는 다음 중 하나여야 합니다. |
|
batch_recognize_metadata |
BatchRecognize 메서드와 관련된 메타데이터입니다. |
OutputFormatConfig
output에 저장된 결과의 형식 구성입니다.
| 필드 | |
|---|---|
native |
네이티브 출력 형식 구성입니다. 이 필드가 설정되거나 다른 출력 형식 필드가 설정되지 않은 경우 스크립트가 싱크에 기본 형식으로 작성됩니다. |
vtt |
VTT 출력 형식 구성입니다. 이 필드를 설정하면 스크립트가 VTT 형식으로 싱크에 작성됩니다. |
srt |
SRT 출력 형식의 구성입니다. 이 필드를 설정하면 스크립트가 SRT 형식으로 싱크에 기록됩니다. |
PhraseSet
음성 인식에 편향을 적용할 PhraseSet입니다. PhraseSet는 결과에 특정 단어 및 구문이 표시되도록 음성 인식기에 '힌트'를 제공하는 데 사용됩니다.
| 필드 | |
|---|---|
name |
출력 전용입니다. 식별자. PhraseSet의 리소스 이름입니다. 형식은 |
uid |
출력 전용입니다. PhraseSet에 대해 시스템에서 할당된 고유 식별자입니다. |
phrases[] |
단어 및 구문 목록입니다. |
boost |
힌트 부스트. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 유효한 |
display_name |
사용자가 설정할 수 있고 인간이 읽을 수 있는 PhraseSet 이름입니다. 63자(영문 기준) 이하여야 합니다. |
state |
출력 전용입니다. PhraseSet 수명 주기 상태입니다. |
create_time |
출력 전용입니다. 생성 시간입니다. |
update_time |
출력 전용입니다. 이 리소스가 수정된 가장 최근 시간입니다. |
delete_time |
출력 전용입니다. 이 리소스 삭제가 요청된 시간입니다. |
expire_time |
출력 전용입니다. 이 리소스가 삭제될 시간입니다. |
annotations |
사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개. |
etag |
출력 전용입니다. 이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
reconciling |
출력 전용입니다. 이 PhraseSet가 업데이트되는 중인지 여부입니다. |
kms_key_name |
출력 전용입니다. PhraseSet가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
출력 전용입니다. PhraseSet가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
구문
구문에는 단어 및 구문 '힌트'가 포함되므로 음성 인식에서 이를 인식할 가능성이 높아집니다. 예를 들어 사용자가 특정 명령을 자주 사용하는 경우 해당 단어와 구문의 정확성을 높이는 데 사용할 수 있습니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다.
목록 항목에는 자연어에서 발생하는 일반적인 개념을 나타내는 단어 그룹이 포함된 CustomClass 참조도 포함될 수 있습니다.
| 필드 | |
|---|---|
value |
구문 자체입니다. |
boost |
힌트 부스트. 구문 집합 수준에서 부스트 집합을 재정의합니다. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스트 값은 편향 방지에 해당합니다. 편향 방지가 사용 설정되어 있지 않으므로 음수 부스트 값은 오류를 반환합니다. 부스트 값은 0~20 사이여야 합니다. 이 범위를 벗어나는 값은 오류를 반환합니다. 바이너리 검색 방식을 사용하여 사용 사례의 최적값을 찾고 요청에 부스트 유무에 관계없이 구문을 추가하는 것이 좋습니다. |
상태
PhraseSet의 수명 주기를 정의하는 상태 집합입니다.
| 열거형 | |
|---|---|
STATE_UNSPECIFIED |
지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다. |
ACTIVE |
정상 및 활성 상태. |
DELETED |
이 PhraseSet가 삭제되었습니다. |
RecognitionConfig
인식기에 인식 요청 처리 방식을 지정하는 정보를 제공합니다.
| 필드 | |
|---|---|
model |
선택사항입니다. 인식 요청에 사용할 모델입니다. 최상의 결과를 얻으려면 도메인에 가장 적합한 모델을 선택합니다. 사용할 모델을 선택하는 방법에 대한 지침은 스크립트 작성 모델 문서, 각 리전에서 지원되는 모델은 지원되는 모델 표를 참조하세요. |
language_codes[] |
선택사항입니다. 제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 언어 태그는 사용되기 전에 BCP-47로 정규화됩니다. 'en-us'는 'en-US'가 됩니다. 각 모델에서 지원되는 언어는 지원되는 모델 표에 나와 있습니다. 언어가 추가로 제공되면 인식 결과에는 감지된 언어 중 가장 가능성이 높은 언어로 된 인식이 포함됩니다. 인식 결과에는 오디오에서 감지된 언어의 언어 태그가 포함됩니다. |
features |
사용 설정할 음성 인식 기능입니다. |
adaptation |
특정 단어와 구문에 대한 인식기 예측에 가중치를 부여하는 음성 적응 컨텍스트입니다. |
transcript_normalization |
선택사항입니다. 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다. |
translation_config |
(선택사항) 지원되는 모델의 경우 지정된 오디오를 원하는 언어로 자동 번역하는 데 사용되는 선택적 구성입니다. |
denoiser_config |
(선택사항) 선택적 잡음 제거 구성입니다. 일부 모델에서는 지원되지 않을 수 있으며 효과가 없을 수도 있습니다. |
통합 필드 decoding_config. 인식을 위해 전송되는 오디오의 디코딩 매개변수입니다. decoding_config는 다음 중 하나여야 합니다. |
|
auto_decoding_config |
디코딩 매개변수를 자동으로 감지합니다. 지원되는 형식에 선호됩니다. |
explicit_decoding_config |
명시적으로 지정된 디코딩 매개변수입니다. 헤더 없는 PCM 오디오(linear16, mulaw, alaw)를 사용하는 경우 필요합니다. |
RecognitionFeatures
사용할 수 있는 인식 특성.
| 필드 | |
|---|---|
profanity_filter |
|
enable_word_time_offsets |
|
enable_word_confidence |
|
enable_automatic_punctuation |
|
enable_spoken_punctuation |
호출의 음성 구두점 동작입니다. |
enable_spoken_emojis |
호출의 음성 이모티콘 동작입니다. |
multi_channel_mode |
다중 채널 오디오를 인식하는 모드입니다. |
diarization_config |
화자 분할을 사용 설정하는 구성입니다. 분할을 사용 설정하려면 이 필드를 빈 SpeakerDiarizationConfig 메시지로 설정하세요. |
max_alternatives |
반환되는 인식 가설의 최대 수입니다. 서버는 |
MultiChannelMode
다중 채널 오디오를 인식하는 방법의 옵션입니다.
| 열거형 | |
|---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
다중 채널 모드의 기본값입니다. 오디오에 여러 채널이 포함된 경우 첫 번째 채널만 스크립트가 작성됩니다. 다른 채널은 무시됩니다. |
SEPARATE_RECOGNITION_PER_CHANNEL |
이 옵션을 선택하면 제공된 오디오의 각 채널이 독립적으로 스크립트가 작성됩니다. 선택한 model가 latest_short이면 이 옵션을 선택할 수 없습니다. |
RecognitionOutputConfig
인식 출력의 구성 옵션입니다.
| 필드 | |
|---|---|
output_format_config |
선택사항입니다. |
통합 필드
|
|
gcs_output_config |
이 메시지가 채워지면 인식 결과가 제공된 Google Cloud Storage URI에 기록됩니다. |
inline_response_config |
이 메시지가 채워지면 완료 시 작업의 |
RecognitionResponseMetadata
인식 요청 및 응답에 관한 메타데이터입니다.
| 필드 | |
|---|---|
request_id |
API에서 자동 생성한 전역 요청 식별자입니다. |
total_billed_duration |
가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다. |
RecognizeRequest
Recognize 메서드에 대한 요청 메시지입니다. content 또는 uri를 제공해야 합니다. 둘 다 지정하거나 아무 것도 지정하지 않으면 INVALID_ARGUMENT가 반환됩니다. 콘텐츠 한도를 참조하세요.
| 필드 | |
|---|---|
recognizer |
필수 항목입니다. 인식 중에 사용할 인식기의 이름입니다. 예상되는 형식은 |
config |
자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
config_mask |
이 인식 요청 중에 인식기의 |
통합 필드 audio_source. 인라인 콘텐츠 또는 Google Cloud Storage URI인 오디오 소스입니다. audio_source는 다음 중 하나여야 합니다. |
|
content |
|
uri |
|
RecognizeResponse
Recognize 메서드에 대한 응답 메시지입니다.
| 필드 | |
|---|---|
results[] |
오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다. |
metadata |
인식에 관한 메타데이터입니다. |
인식기
인식기 메시지입니다. 인식 구성과 메타데이터를 저장합니다.
| 필드 | |
|---|---|
name |
출력 전용입니다. 식별자. 인식기의 리소스 이름입니다. 형식은 |
uid |
출력 전용입니다. Recognizer에 대해 시스템에서 할당한 고유 식별자입니다. |
display_name |
사용자가 설정할 수 있고 인간이 읽을 수 있는 Recognizer 이름입니다. 63자(영문 기준) 이하여야 합니다. |
model |
선택사항입니다. 이 필드는 현재 지원 중단되었습니다. 인식 요청에 사용할 모델입니다. 최상의 결과를 얻으려면 도메인에 가장 적합한 모델을 선택합니다. 사용할 모델을 선택하는 방법에 대한 지침은 스크립트 작성 모델 문서, 각 리전에서 지원되는 모델은 지원되는 모델 표를 참조하세요. |
language_codes[] |
선택사항입니다. 이 필드는 현재 지원 중단되었습니다. 제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 각 모델에서 지원되는 언어는 지원되는 모델 표에 나와 있습니다. 언어가 추가로 제공되면 인식 결과에는 감지된 언어 중 가장 가능성이 높은 언어로 된 인식이 포함됩니다. 인식 결과에는 오디오에서 감지된 언어의 언어 태그가 포함됩니다. 인식기를 만들거나 업데이트하면 이러한 값이 정규화된 BCP-47 형식으로 저장됩니다. 예를 들어 'en-us'는 'en-US'로 저장됩니다. |
default_recognition_config |
이 인식기를 사용하는 요청에 사용할 기본 구성입니다. |
annotations |
사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개. |
state |
출력 전용입니다. 인식기 수명 주기 상태입니다. |
create_time |
출력 전용입니다. 생성 시간입니다. |
update_time |
출력 전용입니다. 이 인식기가 수정된 가장 최근 시간입니다. |
delete_time |
출력 전용입니다. 이 인식기 삭제가 요청된 시간입니다. |
expire_time |
출력 전용입니다. 이 인식기가 삭제될 시간입니다. |
etag |
출력 전용입니다. 이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
reconciling |
출력 전용입니다. 이 인식기가 업데이트되는 중인지 여부입니다. |
kms_key_name |
출력 전용입니다. 인식기가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
출력 전용입니다. 인식기가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
상태
Recognizer의 수명 주기를 정의하는 상태 집합입니다.
| 열거형 | |
|---|---|
STATE_UNSPECIFIED |
기본값입니다. 이 값은 상태가 생략된 경우에 사용됩니다. |
ACTIVE |
인식기가 활성 상태이며 사용할 준비가 되었습니다. |
DELETED |
이 인식기가 삭제되었습니다. |
SpeakerDiarizationConfig
화자 분할을 사용 설정하는 구성입니다.
| 필드 | |
|---|---|
min_speaker_count |
(선택사항) 시스템에서 자동으로 화자 수를 결정합니다. 이 값은 현재 사용되지 않습니다. |
max_speaker_count |
(선택사항) 시스템에서 자동으로 화자 수를 결정합니다. 이 값은 현재 사용되지 않습니다. |
SpeechAdaptation
결과에서 특정 단어나 구문을 우선시하도록 음성 인식기에 '힌트'를 제공합니다. PhraseSets는 인라인 리소스 또는 기존 PhraseSet 리소스에 대한 참조로 지정할 수 있습니다.
| 필드 | |
|---|---|
phrase_sets[] |
인라인 또는 참조된 PhraseSets의 목록입니다. |
custom_classes[] |
인라인 CustomClasses 목록입니다. 기존 CustomClass 리소스는 PhraseSet에서 직접 참조할 수 있습니다. |
AdaptationPhraseSet
바이어싱 PhraseSet입니다. 기존 PhraseSets 리소스의 이름을 참조하는 문자열이거나 PhraseSet의 인라인 정의일 수 있습니다.
| 필드 | |
|---|---|
통합 필드
|
|
phrase_set |
기존 PhraseSet 리소스의 이름입니다. 사용자에게 리소스에 대한 읽기 권한이 있어야 하며 리소스가 삭제되지 않아야 합니다. |
inline_phrase_set |
인라인으로 정의된 PhraseSet입니다. |
SpeechRecognitionAlternative
대체 가설로서 n-best 목록이라고도 합니다.
| 필드 | |
|---|---|
transcript |
사용자가 말한 단어를 나타내는 스크립트 텍스트입니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 |
words[] |
인식된 각 단어의 단어별 정보 목록입니다. |
SpeechRecognitionResult
오디오의 일부분에 해당되는 음성 인식 결과입니다.
| 필드 | |
|---|---|
alternatives[] |
하나 이상의 인식 가설이 포함될 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다. |
channel_tag |
다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. |
result_end_offset |
오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다. |
language_code |
출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다. |
SrtOutputFileFormatConfig
이 유형에는 필드가 없습니다.
출력 구성 SubRip Text 형식의 자막 파일입니다.
StreamingRecognitionConfig
StreamingRecognize 요청의 구성 정보를 제공합니다.
| 필드 | |
|---|---|
config |
필수 항목입니다. 자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
config_mask |
이 인식 요청 중에 인식기의 |
streaming_features |
스트리밍 오디오 인식 요청과 관련하여 사용 설정할 음성 인식 기능입니다. |
StreamingRecognitionFeatures
스트리밍 인식 요청과 관련하여 사용 가능한 인식 기능입니다.
| 필드 | |
|---|---|
enable_voice_activity_events |
|
interim_results |
클라이언트에 중간 결과를 스트리밍할지 여부입니다. true로 설정하면 중간 결과가 클라이언트로 스트리밍됩니다. 그렇지 않으면 최종 응답만 다시 스트리밍됩니다. |
voice_activity_timeout |
설정된 경우 서버는 마지막 VOICE_ACTIVITY 음성 이벤트가 전송된 후 지정된 시간이 경과하면 스트림을 자동으로 닫습니다. |
VoiceActivityTimeout
음성 활동에 제한 시간을 설정할 수 있는 이벤트입니다.
| 필드 | |
|---|---|
speech_start_timeout |
음성이 시작되지 않은 경우 스트림이 제한 시간으로 설정되는 기간입니다. 이를 설정하고 스트림 시작 시 이 기간 동안 음성이 감지되지 않으면 서버에서 스트림을 닫습니다. |
speech_end_timeout |
음성이 끝난 후 스트림이 타임아웃되는 시간입니다. 이를 설정하고 음성이 감지된 후 이 기간 동안 음성이 감지되지 않으면 서버에서 스트림을 닫습니다. |
StreamingRecognitionResult
현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 인식 결과입니다.
| 필드 | |
|---|---|
alternatives[] |
하나 이상의 인식 가설이 포함될 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다. |
is_final |
|
stability |
인식기가 이 중간 결과에 대한 추측을 변경하지 않을 가능성에 대한 추정치입니다. 값의 범위는 0.0(완전히 불안정함)~1.0(완전히 안정적임)입니다. 이 필드는 임시 결과( |
result_end_offset |
오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다. |
channel_tag |
다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. |
language_code |
출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다. |
StreamingRecognizeRequest
StreamingRecognize 메서드에 대한 요청 메시지입니다. 하나의 호출에서 여러 StreamingRecognizeRequest 메시지가 전송됩니다.
recognizer에서 참조하는 Recognizer에 완전히 지정된 요청 구성이 포함된 경우 스트림에는 audio만 설정된 메시지만 포함될 수 있습니다.
그렇지 않으면 첫 번째 메시지는 요청 구성을 완전히 지정하는 recognizer 및 streaming_config 메시지를 포함해야 하며 audio를 포함해서는 안 됩니다. 이후의 모든 메시지에는 audio만 설정되어야 합니다.
| 필드 | |
|---|---|
recognizer |
필수 항목입니다. 인식 중에 사용할 인식기의 이름입니다. 예상되는 형식은 |
통합 필드
|
|
streaming_config |
이 인식 시도에 사용할 StreamingRecognitionConfig입니다. 제공된 경우 인식기에 저장된 기본 RecognitionConfig를 재정의합니다. |
audio |
인식할 인라인 오디오 바이트입니다. 이 필드의 최대 크기는 요청당 15KB입니다. |
StreamingRecognizeResponse
StreamingRecognizeResponse는 StreamingRecognize에서 클라이언트로 반환하는 유일한 메시지입니다. 0개 이상의 StreamingRecognizeResponse 메시지가 클라이언트로 다시 스트리밍됩니다. 인식 가능한 오디오가 없으면 메시지가 클라이언트로 다시 스트리밍되지 않습니다.
다음은 오디오를 처리하는 동안 반환될 수 있는 StreamingRecognizeResponse의 예시입니다.
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
참고:
위의 응답 중
is_final: true로 표시된 #4와 #7에만 최종 결과가 있습니다. 이들을 연결하면 전체 스크립트('to be or not to be that is the question')가 만들어집니다.다른 응답에는 중간
results가 포함됩니다. #3과 #6에는 두 개의 중간results가 포함되어 있습니다. 첫 번째 부분은 안정성이 높고 변경될 가능성이 낮습니다. 두 번째 부분은 안정성이 낮으며 변경될 가능성이 매우 높습니다. UI 디자이너는 재량에 따라 안정성이 높은results만 표시할 수 있습니다.위에 표시된 특정
stability및confidence값은 참고용이며 실제 값은 다를 수 있습니다.각 응답에서
error,speech_event_type, 하나 이상의 반복되는results필드 중 하나만 설정됩니다.
| 필드 | |
|---|---|
results[] |
반복되는 이 목록에는 현재 처리 중인 오디오의 연속 부분에 해당하는 0개 이상의 결과가 포함됩니다. 0개 이상의 |
speech_event_type |
음성 이벤트 유형을 나타냅니다. |
speech_event_offset |
오디오 시작과 이벤트 방출 사이의 타임스탬프입니다. |
metadata |
인식에 관한 메타데이터입니다. |
SpeechEventType
음성 이벤트 유형을 나타냅니다.
| 열거형 | |
|---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
음성 이벤트가 지정되지 않았습니다. |
END_OF_SINGLE_UTTERANCE |
이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않고 gRPC 양방향 스트림을 닫습니다. 이 이벤트는 조기에 무음이 감지되어 강제 컷오프된 경우에만 전송됩니다. 이 이벤트는 latest_short model을 통해서만 제공됩니다. |
SPEECH_ACTIVITY_BEGIN |
이 이벤트는 서버가 스트림에서 사람 음성 활동의 시작을 감지했음을 나타냅니다. 이 이벤트는 스트림 전체에서 음성이 반복적으로 시작되고 중지되면 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events가 true로 설정된 경우에만 전송됩니다. |
SPEECH_ACTIVITY_END |
이 이벤트는 서버가 스트림에서 사람 음성 활동의 끝을 감지했음을 나타냅니다. 이 이벤트는 스트림 전체에서 음성이 반복적으로 시작되고 중지되면 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events가 true로 설정된 경우에만 전송됩니다. |
TranscriptNormalization
스크립트 작성 정규화 구성입니다. 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다.
| 필드 | |
|---|---|
entries[] |
대체 항목 목록입니다. 한 번에 하나의 항목으로 교체됩니다. 예를 들어 ["cat" => "dog", "mountain cat" => "mountain dog"] 의 두 번째 항목은 항상 첫 번째 항목이 먼저 처리되기 때문에 적용되지 않습니다. 최대 100개 항목. |
항목
단일 대체 구성.
| 필드 | |
|---|---|
search |
교체할 대상. 최대 길이는 100자(영문 기준)입니다. |
replace |
무엇으로 바꿀지. 최대 길이는 100자(영문 기준)입니다. |
case_sensitive |
검색 시 대소문자를 구분하는지 여부입니다. |
TranslationConfig
변환 구성입니다. 지정된 오디오를 원하는 언어의 텍스트로 변환하는 데 사용됩니다.
| 필드 | |
|---|---|
target_language |
필수 항목입니다. 번역할 언어 코드입니다. |
UndeleteCustomClassRequest
UndeleteCustomClass 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 삭제 취소할 CustomClass의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제 취소된 CustomClass를 미리 봅니다. 그러나 실제로 삭제를 취소하지는 않습니다. |
etag |
이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
UndeletePhraseSetRequest
UndeletePhraseSet 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 삭제 취소할 PhraseSet의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제 취소된 PhraseSet를 미리 봅니다. 하지만 실제로 삭제를 취소하지는 않습니다. |
etag |
이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
UndeleteRecognizerRequest
UndeleteRecognizer 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
name |
필수 항목입니다. 삭제 취소할 인식기의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제 취소된 인식기를 미리 봅니다. 하지만 실제로 삭제를 취소하지는 않습니다. |
etag |
이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
UpdateConfigRequest
UpdateConfig 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
config |
필수 항목입니다. 업데이트할 구성입니다. 구성의 |
update_mask |
업데이트할 필드 목록입니다. |
UpdateCustomClassRequest
UpdateCustomClass 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
custom_class |
필수 항목입니다. 업데이트할 CustomClass입니다. CustomClass의 |
update_mask |
업데이트할 필드 목록입니다. 비어 있으면 모든 필드가 업데이트 대상으로 간주됩니다. |
validate_only |
설정한 경우 요청을 검증하고 업데이트된 CustomClass를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다. |
UpdatePhraseSetRequest
UpdatePhraseSet 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
phrase_set |
필수 항목입니다. 업데이트할 PhraseSet입니다. PhraseSet의 |
update_mask |
업데이트할 필드 목록입니다. 비어 있으면 기본값이 아닌 모든 값 필드가 업데이트 대상으로 간주됩니다. |
validate_only |
설정한 경우 요청을 검증하고 업데이트된 PhraseSet를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다. |
UpdateRecognizerRequest
UpdateRecognizer 메서드에 대한 요청 메시지입니다.
| 필드 | |
|---|---|
recognizer |
필수 항목입니다. 업데이트할 인식기입니다. 인식기의 |
update_mask |
업데이트할 필드 목록입니다. 비어 있으면 기본값이 아닌 모든 값 필드가 업데이트 대상으로 간주됩니다. |
validate_only |
설정한 경우 요청을 검증하고 업데이트된 인식기를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다. |
VttOutputFileFormatConfig
이 유형에는 필드가 없습니다.
WebVTT 형식의 자막 파일의 출력 구성입니다.
WordInfo
인식된 단어의 단어별 정보입니다.
| 필드 | |
|---|---|
start_offset |
오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 |
end_offset |
오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 |
word |
이 정보 세트에 해당하는 단어입니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 |
speaker_label |
오디오 내 모든 화자마다 고유한 라벨이 할당됩니다. 이 필드는 화자 중 이 단어를 말한 것으로 감지된 화자를 지정합니다. |