Package google.cloud.speech.v1p1beta1

색인

조정

Google Cloud Speech Adaptation API를 구현하는 서비스입니다.

CreateCustomClass

rpc CreateCustomClass(CreateCustomClassRequest) returns (CustomClass)

맞춤 클래스를 만듭니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

CreatePhraseSet

rpc CreatePhraseSet(CreatePhraseSetRequest) returns (PhraseSet)

구문 힌트 세트를 만듭니다. 세트의 각 항목은 단일 단어 또는 여러 단어로 구성된 구문일 수 있습니다. PhraseSet이 포함된 호출을 보내면 인식 모델이 PhraseSet의 항목을 선호합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

DeleteCustomClass

rpc DeleteCustomClass(DeleteCustomClassRequest) returns (Empty)

맞춤 클래스를 삭제합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

DeletePhraseSet

rpc DeletePhraseSet(DeletePhraseSetRequest) returns (Empty)

구문 세트를 삭제합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

GetCustomClass

rpc GetCustomClass(GetCustomClassRequest) returns (CustomClass)

맞춤 클래스를 가져옵니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

GetPhraseSet

rpc GetPhraseSet(GetPhraseSetRequest) returns (PhraseSet)

구문 세트를 가져옵니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

ListCustomClasses

rpc ListCustomClasses(ListCustomClassesRequest) returns (ListCustomClassesResponse)

맞춤 클래스를 나열합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

ListPhraseSet

rpc ListPhraseSet(ListPhraseSetRequest) returns (ListPhraseSetResponse)

구문 세트를 나열합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

UpdateCustomClass

rpc UpdateCustomClass(UpdateCustomClassRequest) returns (CustomClass)

커스텀 클래스를 업데이트합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

UpdatePhraseSet

rpc UpdatePhraseSet(UpdatePhraseSetRequest) returns (PhraseSet)

구문 세트를 업데이트합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

음성

Google Cloud Speech API를 구현하는 서비스입니다.

LongRunningRecognize

rpc LongRunningRecognize(LongRunningRecognizeRequest) returns (Operation)

비동기 음성 인식을 수행합니다. google.longrunning.Operations 인터페이스를 통해 결과를 수신합니다. LongRunningRecognizeResponse 메시지가 포함된 Operation.error 또는 Operation.response를 반환합니다. 비동기 음성 인식에 대한 자세한 내용은 방법을 참고하세요.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

인식

rpc Recognize(RecognizeRequest) returns (RecognizeResponse)

동기 음성 인식을 수행합니다. 모든 오디오가 전송되고 처리된 후 결과를 수신합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

양방향 스트리밍 음성 인식을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 Authentication Overview를 참조하세요.

CreateCustomClassRequest

CreateCustomClass 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
parent

string

필수 항목입니다. 이 맞춤 클래스가 생성될 상위 리소스입니다. 형식:

projects/{project}/locations/{location}/customClasses

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

승인을 처리하려면 지정된 리소스 parent에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.customClasses.create
custom_class_id

string

필수 항목입니다. 맞춤 클래스에 사용할 ID이며, 맞춤 클래스의 리소스 이름에서 마지막 구성요소가 됩니다.

이 값은 문자, 숫자, 하이픈으로 제한되어야 하며, 첫 글자는 문자, 마지막 글자는 문자 또는 숫자여야 하고, 4~63자(영문 기준)여야 합니다.

custom_class

CustomClass

필수 항목입니다. 만들 맞춤 클래스입니다.

CreatePhraseSetRequest

CreatePhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
parent

string

필수 항목입니다. 이 구문 세트가 생성될 상위 리소스입니다. 형식:

projects/{project}/locations/{location}

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

승인을 처리하려면 지정된 리소스 parent에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.phraseSets.create
phrase_set_id

string

필수 항목입니다. 구문 세트에 사용할 ID이며, 구문 세트의 리소스 이름의 마지막 구성요소가 됩니다.

이 값은 문자, 숫자, 하이픈으로 제한되어야 하며, 첫 글자는 문자, 마지막 글자는 문자 또는 숫자여야 하고, 4~63자(영문 기준)여야 합니다.

phrase_set

PhraseSet

필수 항목입니다. 만들 구문 세트입니다.

CustomClass

오디오에 표시될 가능성이 높은 일반적인 개념을 나타내는 단어나 문구의 집합입니다(예: 여객선 이름 목록). CustomClass 항목은 PhraseSet 문구에 설정한 자리표시자로 대체될 수 있습니다.

필드
name

string

커스텀 클래스의 리소스 이름입니다.

custom_class_id

string

이 맞춤 클래스가 리소스인 경우 custom_class_id는 CustomClass의 리소스 ID입니다. 대소문자를 구분합니다.

items[]

ClassItem

클래스 항목의 컬렉션입니다.

kms_key_name

string

출력 전용입니다. ClassItem의 콘텐츠가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}입니다.

kms_key_version_name

string

출력 전용입니다. ClassItem의 콘텐츠가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}입니다.

uid

string

출력 전용입니다. CustomClass에 대해 시스템에서 할당된 고유 식별자입니다. 이 필드는 사용되지 않습니다.

display_name

string

출력 전용입니다. 사용자가 설정할 수 있고 인간이 읽을 수 있는 CustomClass 이름입니다. 63자(영문 기준) 이하여야 합니다. 이 필드는 사용되지 않습니다.

state

State

출력 전용입니다. CustomClass 수명 주기 상태입니다. 이 필드는 사용되지 않습니다.

delete_time

Timestamp

출력 전용입니다. 이 리소스 삭제가 요청된 시간입니다. 이 필드는 사용되지 않습니다.

expire_time

Timestamp

출력 전용입니다. 이 리소스가 삭제될 시간입니다. 이 필드는 사용되지 않습니다.

annotations

map<string, string>

출력 전용입니다. 사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석은 최대 100개입니다. 이 필드는 사용되지 않습니다.

etag

string

출력 전용입니다. 이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. 이 필드는 사용되지 않습니다.

reconciling

bool

출력 전용입니다. 이 CustomClass가 업데이트되는 중인지 여부입니다. 이 필드는 사용되지 않습니다.

ClassItem

클래스의 항목입니다.

필드
value

string

클래스 항목의 값입니다.

상태

CustomClass의 수명 주기를 정의하는 상태 집합입니다.

열거형
STATE_UNSPECIFIED 지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다.
ACTIVE 정상 및 활성 상태.
DELETED 이 CustomClass가 삭제되었습니다.

DeleteCustomClassRequest

DeleteCustomClass 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
name

string

필수 항목입니다. 삭제할 맞춤 클래스의 이름입니다. 형식:

projects/{project}/locations/{location}/customClasses/{custom_class}

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

승인을 처리하려면 지정된 리소스 name에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.customClasses.delete

DeletePhraseSetRequest

DeletePhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
name

string

필수 항목입니다. 삭제할 구문 세트의 이름입니다. 형식:

projects/{project}/locations/{location}/phraseSets/{phrase_set}

승인을 처리하려면 지정된 리소스 name에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.phraseSets.delete

GetCustomClassRequest

GetCustomClass 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
name

string

필수 항목입니다. 가져올 맞춤 클래스의 이름입니다. 형식:

projects/{project}/locations/{location}/customClasses/{custom_class}

승인을 처리하려면 지정된 리소스 name에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.customClasses.get

GetPhraseSetRequest

GetPhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
name

string

필수 항목입니다. 가져올 구문 세트의 이름입니다. 형식:

projects/{project}/locations/{location}/phraseSets/{phrase_set}

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

승인을 처리하려면 지정된 리소스 name에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.phraseSets.get

ListCustomClassesRequest

ListCustomClasses 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
parent

string

필수 항목입니다. 이 맞춤 클래스 컬렉션을 소유한 상위 항목입니다. 형식:

projects/{project}/locations/{location}/customClasses

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

승인을 처리하려면 지정된 리소스 parent에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.customClasses.list
page_size

int32

반환할 최대 맞춤 클래스 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 50개의 맞춤 클래스가 반환됩니다. 최댓값은 1,000이며, 1,000을 초과하는 값은 1,000으로 변환됩니다.

page_token

string

이전 ListCustomClass 호출에서 받은 페이지 토큰입니다. 후속 페이지를 검색하려면 이를 입력합니다.

페이지를 매길 때 ListCustomClass에 제공된 다른 모든 매개변수는 페이지 토큰을 제공한 호출과 일치해야 합니다.

ListCustomClassesResponse

ListCustomClasses 메서드에 의해 클라이언트에 반환된 메시지입니다.

필드
custom_classes[]

CustomClass

맞춤 클래스입니다.

next_page_token

string

다음 페이지를 검색하기 위해 page_token으로 전송할 수 있는 토큰입니다. 이 필드를 생략하면 후속 페이지가 표시되지 않습니다.

ListPhraseSetRequest

ListPhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
parent

string

필수 항목입니다. 이 문구 세트 컬렉션을 소유한 상위 항목입니다. 형식:

projects/{project}/locations/{location}

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

승인을 처리하려면 지정된 리소스 parent에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.phraseSets.list
page_size

int32

반환할 최대 구문 세트 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 50개의 구문 세트가 반환됩니다. 최댓값은 1,000이며, 1,000을 초과하는 값은 1,000으로 변환됩니다.

page_token

string

이전 ListPhraseSet 호출에서 받은 페이지 토큰입니다. 후속 페이지를 검색하려면 이를 입력합니다.

페이지를 매길 때 ListPhraseSet에 제공된 다른 모든 매개변수는 페이지 토큰을 제공한 호출과 일치해야 합니다.

ListPhraseSetResponse

ListPhraseSet 메서드에 의해 클라이언트에 반환된 메시지입니다.

필드
phrase_sets[]

PhraseSet

구문 세트입니다.

next_page_token

string

다음 페이지를 검색하기 위해 page_token으로 전송할 수 있는 토큰입니다. 이 필드를 생략하면 후속 페이지가 표시되지 않습니다.

LongRunningRecognizeMetadata

장기 실행 LongRunningRecognize 호출의 진행 상황을 설명합니다. 이는 google::longrunning::Operations 서비스의 GetOperation 호출에서 반환한 Operationmetadata 필드에 포함됩니다.

필드
progress_percent

int32

지금까지 처리된 오디오의 대략적인 백분율입니다. 오디오가 완전히 처리되고 결과를 사용할 수 있을 때 100이 됩니다.

start_time

Timestamp

요청을 받은 시간입니다.

last_update_time

Timestamp

처리 상태가 가장 최근에 업데이트된 시간입니다.

uri

string

출력 전용입니다. 텍스트로 변환되는 오디오 파일의 URI입니다. 오디오가 바이트 콘텐츠로 전송된 경우 비어 있습니다.

output_config

TranscriptOutputConfig

출력 전용입니다. 요청에 설정된 경우 TranscriptOutputConfig의 사본입니다.

LongRunningRecognizeRequest

LongRunningRecognize 메서드에 대해 클라이언트가 보낸 최상위 메시지입니다.

필드
config

RecognitionConfig

필수 항목입니다. 인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.

audio

RecognitionAudio

필수 항목입니다. 인식할 오디오 데이터입니다.

output_config

TranscriptOutputConfig

(선택사항) 인식 결과의 선택적 대상 위치를 지정합니다.

LongRunningRecognizeResponse

LongRunningRecognize 메서드에서 클라이언트에 반환되는 유일한 메시지입니다. 결과가 0개 이상의 순차적 SpeechRecognitionResult 메시지로 포함됩니다. 이는 google::longrunning::Operations 서비스의 GetOperation 호출에서 반환한 Operationresult.response 필드에 포함됩니다.

필드
results[]

SpeechRecognitionResult

오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다.

total_billed_time

Duration

가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다.

output_config

TranscriptOutputConfig

요청에 있는 경우 원래 출력 구성입니다.

output_error

Status

스크립트 출력이 실패하면 이 필드에 관련 오류가 포함됩니다.

speech_adaptation_info

SpeechAdaptationInfo

대답에서 음성 적응 동작에 관한 정보를 제공합니다.

request_id

int64

요청과 연결된 ID입니다. 지정된 요청에만 해당하는 고유 ID입니다.

PhraseSet

결과에서 특정 단어나 구문을 우선시하도록 음성 인식기에 '힌트'를 제공합니다.

필드
name

string

구문 세트의 리소스 이름입니다.

phrases[]

Phrase

단어 및 구문 목록입니다.

boost

float

힌트 부스트. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스트 값은 편향 방지에 해당합니다. 편향 방지가 사용 설정되어 있지 않으므로 음수 부스트는 무시됩니다. boost는 다양한 양수 값을 허용하지만 대부분의 사용 사례에서는 0 초과 20 이하의 값을 사용하는 것이 가장 좋습니다. 바이너리 검색 방식을 사용하여 사용 사례의 최적값을 찾고 요청에 부스트 유무에 관계없이 구문을 추가하는 것이 좋습니다.

kms_key_name

string

출력 전용입니다. PhraseSet의 콘텐츠가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}입니다.

kms_key_version_name

string

출력 전용입니다. PhraseSet의 콘텐츠가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}입니다.

uid

string

출력 전용입니다. PhraseSet에 대해 시스템에서 할당된 고유 식별자입니다. 이 필드는 사용되지 않습니다.

display_name

string

출력 전용입니다. 사용자가 설정할 수 있고 인간이 읽을 수 있는 PhraseSet 이름입니다. 63자(영문 기준) 이하여야 합니다. 이 필드는 사용되지 않습니다.

state

State

출력 전용입니다. CustomClass 수명 주기 상태입니다. 이 필드는 사용되지 않습니다.

delete_time

Timestamp

출력 전용입니다. 이 리소스 삭제가 요청된 시간입니다. 이 필드는 사용되지 않습니다.

expire_time

Timestamp

출력 전용입니다. 이 리소스가 삭제될 시간입니다. 이 필드는 사용되지 않습니다.

annotations

map<string, string>

출력 전용입니다. 사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석은 최대 100개입니다. 이 필드는 사용되지 않습니다.

etag

string

출력 전용입니다. 이 체크섬은 다른 필드 값을 기준으로 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. 이 필드는 사용되지 않습니다.

reconciling

bool

출력 전용입니다. 이 PhraseSet가 업데이트되는 중인지 여부입니다. 이 필드는 사용되지 않습니다.

구문

음성 인식에서 인식할 수 있도록 단어 및 구문 '힌트'가 포함된 구문입니다. 예를 들어 사용자가 특정 명령을 자주 사용하는 경우 해당 단어와 구문의 정확성을 높이는 데 사용할 수 있습니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다. 사용량 한도를 참조하세요.

목록 항목에는 자연어에서 발생하는 일반적인 개념을 나타내는 단어 그룹이 포함된 사전 빌드된 클래스 또는 맞춤 클래스도 포함될 수 있습니다. 예를 들어 연중 각 월에 대한 구문 힌트를 제공하는 대신 (예: 'i was born in january', 'i was born in febuary', ...) 사전 빌드된 $MONTH 클래스를 사용하면 월이 포함된 오디오 (예: 'i was born in $month')를 올바르게 변환할 가능성이 높아집니다. 사전 빌드된 클래스를 참조하려면 $가 앞에 붙은 클래스 기호를 사용하세요(예: $MONTH). 요청에 인라인으로 정의된 맞춤 클래스를 참조하려면 클래스의 custom_class_id을 모든 클래스 리소스와 인라인 클래스에 고유한 문자열로 설정합니다. 그런 다음 ${...}로 래핑된 클래스의 ID를 사용합니다(예: '${my-months}'). 맞춤 클래스 리소스를 참조하려면 ${}로 래핑된 클래스의 ID를 사용합니다 (예: ${my-months}).

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

필드
value

string

구문 자체입니다.

boost

float

힌트 부스트. 구문 집합 수준에서 부스트 집합을 재정의합니다. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스팅은 무시됩니다. boost는 다양한 양수 값을 허용하지만 대부분의 사용 사례에서는 0~20 사이의 값을 사용하는 것이 가장 좋습니다. 바이너리 검색 방식을 사용하여 사용 사례의 최적값을 찾고 요청에 부스트 유무에 관계없이 구문을 추가하는 것이 좋습니다.

CustomClass의 수명 주기를 정의하는 상태 집합입니다.

열거형
STATE_UNSPECIFIED 지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다.
ACTIVE 정상 및 활성 상태.
DELETED 이 CustomClass가 삭제되었습니다.

RecognitionAudio

RecognitionConfig에 지정된 인코딩으로 오디오 데이터를 포함합니다. content 또는 uri를 제공해야 합니다. 둘 다 지정하거나 아무 것도 지정하지 않으면 google.rpc.Code.INVALID_ARGUMENT가 반환됩니다. 콘텐츠 한도를 참조하세요.

필드
통합 필드 audio_source. 인라인 콘텐츠 또는 Google Cloud Storage URI인 오디오 소스입니다. audio_source은 다음 중 하나여야 합니다.
content

bytes

RecognitionConfig에 지정된 대로 인코딩된 오디오 데이터 바이트입니다. 참고: JSON 표현은 base64를 사용하지만, proto 버퍼는 모든 bytes 필드와 마찬가지로 순수 바이너리 표현을 사용합니다.

uri

string

RecognitionConfig에 지정된 대로 오디오 데이터 바이트가 포함된 파일을 가리키는 URI입니다. gzip 등으로 압축되지 않은 파일이어야 합니다. 현재 Google Cloud Storage URI만 지원되며 gs://bucket_name/object_name 형식으로 지정해야 합니다(다른 URI 형식은 google.rpc.Code.INVALID_ARGUMENT 반환). 자세한 내용은 요청 URI를 참조하세요.

RecognitionConfig

인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.

필드
encoding

AudioEncoding

모든 RecognitionAudio 메시지에서 전송된 오디오 데이터 인코딩 이 필드는 FLACWAV 오디오 파일에는 선택사항이고 다른 모든 오디오 형식에는 필수입니다. 자세한 내용은 AudioEncoding을 참조하세요.

sample_rate_hertz

int32

모든 RecognitionAudio 메시지에서 전송된 오디오 데이터의 샘플링 레이트(Hz)입니다. 유효한 값은 8,000~48,000이며 최적값은 16,000입니다. 최상의 결과를 얻으려면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정하세요. 이 설정이 불가능하다면 다시 샘플링하지 말고 오디오 소스의 기본 샘플링 레이트를 사용하면 됩니다. 이 필드는 FLAC 및 WAV 오디오 파일에는 선택사항이지만 다른 모든 오디오 형식에는 필수입니다. 자세한 내용은 AudioEncoding를 참고하세요.

audio_channel_count

int32

입력 오디오 데이터의 채널 수입니다. MULTI-CHANNEL 인식에만 이 값을 설정합니다. LINEAR16, OGG_OPUS, FLAC의 유효한 값은 1~8입니다. MULAW, AMR, AMR_WB, SPEEX_WITH_HEADER_BYTE의 유효한 값은 1뿐입니다. 0이거나 생략된 경우 기본값은 단일 채널(모노)입니다. 참고: 기본적으로 첫 번째 채널만 인식됩니다. 각 채널에서 독립적인 인식을 수행하려면 enable_separate_recognition_per_channel을 'true'로 설정합니다.

enable_separate_recognition_per_channel

bool

각 채널을 별도로 인식하려면 이 값을 명시적으로 true로 설정해야 하고 audio_channel_count > 1이어야 합니다. 인식 결과에는 결과가 속한 채널을 나타내는 channel_tag 필드가 포함됩니다. true가 아니면 첫 번째 채널만 인식됩니다. 요청은 인식된 모든 채널에 대해 누적 방식으로 청구됩니다(audio_channel_count에 오디오 길이를 곱함).

language_code

string

필수 항목입니다. 제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 'en-US'를 예로 들 수 있습니다. 현재 지원되는 언어 코드 목록은 언어 지원을 참조하세요.

alternative_language_codes[]

string

최대 3개의 추가 BCP-47 언어 태그 목록으로, 제공된 오디오의 가능한 대체 언어를 나열합니다. 현재 지원되는 언어 코드 목록은 언어 지원을 참조하세요. 대체 언어가 나열되면 인식 결과에 기본 language_code를 포함하여 가능성이 가장 높은 것으로 감지된 언어 인식이 포함됩니다. 인식 결과에는 오디오에서 감지된 언어의 언어 태그가 포함됩니다. 참고: 이 기능은 음성 명령 및 음성 검색 사용 사례에만 지원되며 다른 사용 사례(예: 전화 통화 텍스트 변환)에서는 성능이 다를 수 있습니다.

max_alternatives

int32

반환되는 인식 가설의 최대 수입니다. 구체적으로 각 SpeechRecognitionResult 내의 최대 SpeechRecognitionAlternative 메시지 수입니다. 서버는 max_alternatives보다 적은 수를 반환할 수 있습니다. 유효한 값은 0~30입니다. 0 또는 1 값을 사용하면 최대 1개가 반환됩니다. 생략하면 최대 1개가 반환됩니다.

profanity_filter

bool

true로 설정하면 서버가 비속어를 필터링하려고 시도하며, 필터링된 각 단어에서 첫 번째 문자를 제외한 모든 문자를 별표로 바꿉니다(예: 'f***'). false로 설정하거나 생략하면 욕설이 필터링되지 않습니다.

adaptation

SpeechAdaptation

음성 적응 구성은 음성 인식의 정확도를 향상시킵니다. 자세한 내용은 음성 적응 문서를 참고하세요. 음성 적응이 설정되면 speech_contexts 필드가 대체됩니다.

transcript_normalization

TranscriptNormalization

(선택사항) 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다.

speech_contexts[]

SpeechContext

SpeechContext 배열입니다. 음성 인식을 지원하는 컨텍스트를 제공하는 수단입니다. 자세한 내용은 음성 적응을 참고하세요.

enable_word_time_offsets

bool

true인 경우 최상위 결과에 단어 목록과 해당 단어의 시작 및 종료 타임스탬프가 포함됩니다. false인 경우 단어 수준의 시간 타임스탬프 정보가 반환되지 않습니다. 기본값은 false입니다.

enable_word_confidence

bool

true인 경우 최상위 결과에 단어 목록과 해당 단어의 신뢰도가 포함됩니다. false인 경우 단어 수준의 신뢰도 정보가 반환되지 않습니다. 기본값은 false입니다.

enable_automatic_punctuation

bool

'true'인 경우 인식 결과 가설에 구두점이 추가됩니다. 이 기능은 특정 언어에서만 사용할 수 있습니다. 다른 언어에서는 요청에 이 값을 설정해도 효과가 없습니다. 기본값인 'false' 값은 결과 가설에 구두점을 추가하지 않습니다.

enable_spoken_punctuation

BoolValue

호출의 음성 구두점 동작입니다. 설정되지 않은 경우 선택한 모델에 따라 기본 동작을 사용합니다. 예를 들어 command_and_search는 기본적으로 음성 구두점을 사용 설정합니다. 'true'인 경우 요청에서 음성 구두점을 해당 기호로 바꿉니다. 예를 들어 '안녕하세요 물음표'는 '안녕하세요?'로 바뀝니다. 지원이 필요하면 https://cloud.google.com/speech-to-text/docs/spoken-punctuation를 참고하세요. 'false'인 경우 음성 구두점이 대체되지 않습니다.

enable_spoken_emojis

BoolValue

호출의 음성 이모티콘 동작입니다. 설정되지 않은 경우 선택한 모델에 따라 기본 동작이 사용됩니다. 'true'인 경우 요청에 음성 이모티콘 형식이 추가됩니다. 최종 스크립트에서는 음성 이모티콘이 해당 유니코드 기호로 바뀝니다. 'false'인 경우 말로 표현된 그림 이모티콘이 대체되지 않습니다.

enable_speaker_diarization
(deprecated)

bool

'true'인 경우 WordInfo에 제공된 speaker_label을 사용하여 인식 결과의 상위 대체 항목에 있는 인식된 각 단어에 대해 화자 감지를 사용 설정합니다. 참고: 대신 diarization_config를 사용하세요.

diarization_speaker_count
(deprecated)

int32

설정된 경우 대화의 예상 화자 수를 지정합니다. 기본값은 '2'입니다. enable_speaker_diarization이 true로 설정되지 않으면 무시됩니다. 참고: 대신 diarization_config를 사용하세요.

diarization_config

SpeakerDiarizationConfig

애플리케이션에 더 적합하게 분할하기 위해 화자 분할을 사용 설정하고 추가 파라미터를 설정하는 구성입니다. 참고: 이 구성이 사용 설정되면 모든 연속 스트리밍 응답에서 최상위 대안의 오디오 시작부터 모든 단어를 전송합니다. 그 이유는 시간이 지남에 따라 모델이 대화에서 화자를 구별하는 방법을 학습하므로 화자 태그를 개선하기 위함입니다. 스트리밍이 아닌 요청의 경우 최종 SpeechRecognitionResult의 최상위 대안에만 분할 결과가 제공됩니다.

metadata

RecognitionMetadata

이 요청에 관한 메타데이터입니다.

model

string

특정 요청에 선택할 수 있는 모델입니다. 최상의 결과를 얻으려면 도메인에 가장 적합한 모델을 선택합니다. 모델을 명시적으로 지정하지 않으면 RecognitionConfig의 매개변수를 기반으로 모델을 자동 선택합니다.

모델 설명

latest_long

미디어나 대화와 같은 긴 형식 콘텐츠에 가장 적합합니다.

latest_short

명령어 또는 단일 샷 지시 음성과 같은 짧은 형식 콘텐츠에 가장 적합합니다.

command_and_search

음성 명령이나 음성 검색과 같은 짧은 쿼리에 가장 적합합니다.

phone_call

전화 통화에서 나온 오디오에 가장 적합합니다. 대개 8kHz의 샘플링 레이트로 녹음된 통화를 사용합니다.

video

동영상 오디오나 여러 화자가 있는 오디오에 가장 적합합니다. 16kHz 이상의 샘플링 레이트로 녹음된 오디오가 좋습니다. 표준 요금보다 비싼 프리미엄 모델입니다.

default

특정 오디오 모델이 아닌 오디오에 가장 적합합니다. 예를 들어 긴 오디오가 여기에 포함됩니다. Hi-Fi이고 16kHz 이상의 샘플링 레이트로 녹음된 오디오가 좋습니다.

medical_conversation

의료인과 환자 간의 대화에서 나온 오디오에 가장 적합합니다.

medical_dictation

의료 서비스 제공자가 음성기록한 메모에서 나온 오디오에 가장 적합합니다.

use_enhanced

bool

음성 인식에 고급 모델을 사용하려면 true로 설정합니다. use_enhanced가 true로 설정되고 model 필드가 설정되지 않은 경우 오디오에 고급 모델이 있으면 적절한 고급 모델이 선택됩니다.

use_enhanced이 true이고 지정된 모델의 고급 버전이 없는 경우 지정된 모델의 표준 버전을 사용하여 음성을 인식합니다.

AudioEncoding

요청에서 전송한 오디오 데이터의 인코딩입니다.

audio_channel_countenable_separate_recognition_per_channel 필드가 설정되지 않은 경우 모든 인코딩은 단일 채널 (모노) 오디오만 지원합니다.

최상의 결과를 얻으려면 오디오 소스를 무손실 인코딩(FLAC 또는 LINEAR16)으로 캡처하고 전송해야 합니다. 특히 주변 소음이 있는 경우 손실 코덱을 사용하여 오디오를 캡처하거나 전송하는 경우 음성 인식의 정확도가 떨어질 수 있습니다. 손실 코덱에는 MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3, WEBM_OPUS 등이 있습니다.

FLACWAV 오디오 파일 형식에는 포함된 오디오 콘텐츠를 설명하는 헤더가 포함됩니다. LINEAR16 또는 MULAW 인코딩 오디오가 포함된 WAV 파일에 대한 인식을 요청할 수 있습니다. 요청에 FLAC 또는 WAV 오디오 파일 형식을 전송하는 경우 AudioEncoding를 지정할 필요가 없습니다. 오디오 인코딩 형식은 파일 헤더에서 결정됩니다. FLAC 또는 WAV 오디오를 보낼 때 AudioEncoding을 지정하는 경우 인코딩 구성은 오디오 헤더에 설명된 인코딩과 일치해야 합니다. 그렇지 않으면 요청은 google.rpc.Code.INVALID_ARGUMENT 오류 코드를 반환합니다.

열거형
ENCODING_UNSPECIFIED 지정되지 않음
LINEAR16 압축되지 않은 16비트 부호 Little Endian 샘플(리니어 PCM)입니다.
FLAC FLAC(무료 무손실 오디오 코덱)은 손실이 발생하지 않아 인식 성능이 저하되지 않고 필요한 대역폭이 LINEAR16의 약 절반에 불과하므로 이 인코딩이 권장됩니다. FLAC 스트림 인코딩은 16비트와 24비트 샘플을 지원하지만 STREAMINFO의 모든 필드가 지원되지는 않습니다.
MULAW G.711 PCMU/mu-law를 사용하여 14비트 오디오 샘플을 압축하는 8비트 샘플입니다.
AMR 적응형 다중 속도 협대역 코덱입니다. sample_rate_hertz는 8,000이어야 합니다.
AMR_WB 적응형 다중 속도 광대역 코덱입니다. sample_rate_hertz는 16,000이어야 합니다.
OGG_OPUS Ogg 컨테이너의 Opus 인코딩 오디오 프레임(OggOpus)입니다. sample_rate_hertz는 8,000, 12,000, 16,000, 24,000, 48,000 중 하나여야 합니다.
SPEEX_WITH_HEADER_BYTE 손실이 발생한 인코딩을 사용하지 않는 것이 좋습니다만, 매우 낮은 비트 전송률 인코딩이 필요한 경우 Speex 인코딩보다 OGG_OPUS를 사용하는 것이 좋습니다. Cloud Speech API에서 지원하는 Speex 인코딩에는 MIME 유형 audio/x-speex-with-header-byte의 경우와 같이 각 블록에 헤더 바이트가 있습니다. 이는 RFC 5574에 정의된 RTP Speex 인코딩의 변이입니다. 스트림은 RTP 패킷당 하나의 블록으로 연속된 블록입니다. 각 블록은 블록 길이가 바이트 단위로 포함된 바이트로 시작되며 RFC 5574에 지정된 정수 바이트 수(옥텟)로 패딩된 하나 이상의 Speex 데이터 프레임이 뒤따릅니다. 즉, 각 RTP 헤더는 블록 길이를 포함하는 단일 바이트로 바뀝니다. Speex 광대역만 지원되며, sample_rate_hertz는 16,000이어야 합니다.
MP3 MP3 오디오. MP3 인코딩은 베타 기능이며 v1p1beta1에서만 사용할 수 있습니다. 32~320kbps 범위의 모든 표준 MP3 비트 전송률을 지원합니다. 이 인코딩을 사용할 때 sample_rate_hertz는 사용 중인 파일의 샘플링 레이트와 일치해야 합니다.
WEBM_OPUS WebM 컨테이너의 Opus 인코딩 오디오 프레임입니다 (WebM). sample_rate_hertz는 8000, 12000, 16000, 24000, 48000 중 하나여야 합니다.
ALAW G.711 PCMU/a-law를 사용하여 13비트 오디오 샘플을 압축하는 8비트 샘플입니다.

RecognitionMetadata

인식할 오디오 데이터에 대한 설명입니다.

필드
interaction_type

InteractionType

인식할 오디오 콘텐츠를 가장 잘 설명하는 사용 사례입니다.

industry_naics_code_of_audio

uint32

이 음성 인식 요청이 가장 잘 적용되는 업종 카테고리입니다. 오디오에 포함된 주제를 가장 잘 나타냅니다. 6자리 NAICS 코드를 사용하여 업종 카테고리를 식별합니다. https://www.naics.com/search/를 참조하세요.

microphone_distance

MicrophoneDistance

인식되는 오디오를 가장 잘 설명하는 오디오 유형입니다.

original_media_type

OriginalMediaType

음성이 녹음된 원본 미디어입니다.

recording_device_type

RecordingDeviceType

음성을 녹음한 기기의 유형입니다.

recording_device_name

string

녹음에 사용된 기기입니다. 'Nexus 5X', 'Polycom SoundStation IP 6000', 'POTS', 'VoIP', 'Cardioid Microphone' 등을 예로 들 수 있습니다.

original_mime_type

string

원본 오디오 파일의 Mime 유형입니다. 예를 들면 audio/m4a, audio/x-alaw-basic, audio/mp3, audio/3gpp입니다. 가능한 오디오 MIME 유형 목록은 http://www.iana.org/assignments/media-types/media-types.xhtml#audio에서 유지관리됩니다.

obfuscated_id
(deprecated)

int64

서비스를 사용하는 고유 사용자의 번호를 식별하는 난독화(개인정보 보호)된 사용자 ID입니다.

audio_topic

string

콘텐츠에 대한 설명입니다. 예: '2012년 연방 대법원 청문회 녹음 파일'

InteractionType

오디오 인식 요청을 설명할 수 있는 사용 사례 카테고리입니다.

열거형
INTERACTION_TYPE_UNSPECIFIED 사용 사례를 알 수 없거나 아래의 다른 값 중 어느 것에도 해당하지 않습니다.
DISCUSSION 여러 사람이 대화 또는 토론에 참여하고 있습니다. 한 예로 두 명 이상이 적극적으로 참여하고 있는 회의를 들 수 있습니다. 일반적으로 말하는 모든 주요 화자가 같은 장소에 있을 것입니다. 그렇지 않은 경우 PHONE_CALL을 참조하세요.
PRESENTATION 한 명 이상의 사람이 다른 사람들에게 강의 또는 발표를 하며, 다른 사람이 거의 끼어들지 않습니다.
PHONE_CALL 같은 장소에 있지 않은 두 명 이상의 사람들이 전화 통화 또는 화상회의에 참석하여 말하고 있습니다.
VOICEMAIL 다른 사람에게 들려주고자 녹음된 메시지입니다.
PROFESSIONALLY_PRODUCED 전문적으로 제작된 오디오입니다(예: TV 프로그램, 팟캐스트).
VOICE_COMMAND 기기 제어와 같은 음성 명령을 텍스트로 변환합니다.
DICTATION 음성을 텍스트로 변환하여 SMS, 이메일, 보고서 등의 문서를 만듭니다.

MicrophoneDistance

오디오 파일을 설명하는 녹음 설정 유형을 열거합니다.

열거형
MICROPHONE_DISTANCE_UNSPECIFIED 오디오 유형을 알 수 없습니다.
NEARFIELD 가까운 위치의 마이크에서 녹음된 오디오입니다. 전화, 딕터폰, 휴대용 마이크 등을 예로 들 수 있습니다. 일반적으로 화자가 마이크에서 1미터 이내에 있는 경우입니다.
MIDFIELD 화자가 마이크에서 3미터 이내에 있는 경우입니다.
FARFIELD 화자가 마이크에서 3미터 이상 떨어져 있는 경우입니다.

OriginalMediaType

음성이 녹음된 원본 미디어입니다.

열거형
ORIGINAL_MEDIA_TYPE_UNSPECIFIED 알 수 없는 원본 미디어 유형입니다.
AUDIO 오디오 녹음 음성 데이터입니다.
VIDEO 원래 동영상에 녹음된 음성 데이터입니다.

RecordingDeviceType

음성을 녹음한 기기의 유형입니다.

열거형
RECORDING_DEVICE_TYPE_UNSPECIFIED 녹음 기기를 알 수 없습니다.
SMARTPHONE 음성이 스마트폰에서 녹음되었습니다.
PC 음성이 개인용 컴퓨터 또는 태블릿을 사용하여 녹음되었습니다.
PHONE_LINE 음성이 유선 전화를 통해 녹음되었습니다.
VEHICLE 음성이 차량에서 녹음되었습니다.
OTHER_OUTDOOR_DEVICE 음성이 실외에서 녹음되었습니다.
OTHER_INDOOR_DEVICE 음성이 실내에서 녹음되었습니다.

RecognizeRequest

Recognize 메서드에 대해 클라이언트가 보낸 최상위 메시지입니다.

필드
config

RecognitionConfig

필수 항목입니다. 인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.

audio

RecognitionAudio

필수 항목입니다. 인식할 오디오 데이터입니다.

RecognizeResponse

Recognize 메서드에서 클라이언트에 반환되는 유일한 메시지입니다. 결과가 0개 이상의 순차적 SpeechRecognitionResult 메시지로 포함됩니다.

필드
results[]

SpeechRecognitionResult

오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다.

total_billed_time

Duration

가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다.

speech_adaptation_info

SpeechAdaptationInfo

대답의 적응 동작에 관한 정보를 제공합니다.

request_id

int64

요청과 연결된 ID입니다. 지정된 요청에만 해당하는 고유 ID입니다.

using_legacy_models

bool

요청에서 기존 ASR 모델을 사용했는지 여부입니다 (컨포머 모델을 사용하도록 자동으로 이전되지 않음).

SpeakerDiarizationConfig

화자 분할을 사용 설정하는 구성입니다.

필드
enable_speaker_diarization

bool

'true'인 경우 WordInfo에 제공된 speaker_label을 사용하여 인식 결과의 상위 대체 항목에 있는 인식된 각 단어에 대해 화자 감지를 사용 설정합니다.

min_speaker_count

int32

대화의 최소 화자 수입니다. 범위를 지정하면 시스템에서 올바른 화자 수를 자동으로 확인할 수 있어 유연성이 늘어납니다. 설정하지 않으면 기본값은 2입니다.

max_speaker_count

int32

대화의 최대 화자 수입니다. 범위를 지정하면 시스템에서 올바른 화자 수를 자동으로 확인할 수 있어 유연성이 늘어납니다. 설정하지 않으면 기본값은 6입니다.

speaker_tag
(deprecated)

int32

출력 전용입니다. 사용되지 않습니다.

SpeechAdaptation

음성 적응 구성입니다.

필드
phrase_sets[]

PhraseSet

구문 세트의 모음입니다. 힌트를 인라인으로 지정하려면 문구 세트의 name를 비워 두고 나머지 필드를 작성합니다. 모든 구문 집합은 모든 맞춤 클래스를 사용할 수 있습니다.

phrase_set_references[]

string

사용할 구문 세트 리소스 이름의 컬렉션입니다.

custom_classes[]

CustomClass

맞춤 클래스의 컬렉션입니다. 클래스를 인라인으로 지정하려면 클래스의 name를 비워 두고 나머지 필드를 작성하여 고유한 custom_class_id를 부여합니다. custom_class_id로 구문 힌트에서 인라인 정의된 클래스를 참조합니다.

abnf_grammar

ABNFGrammar

증강된 Backus-Naur 형식 (ABNF)은 일련의 파생 규칙으로 구성된 표준화된 문법 표기법입니다. 사양은 https://www.w3.org/TR/speech-grammar를 참고하세요.

ABNFGrammar

필드
abnf_strings[]

string

연결되는 여러 문자열로 분할된 ABNF 문법의 모든 선언과 규칙입니다.

SpeechAdaptationInfo

결과에서 음성 적응 사용에 관한 정보

필드
adaptation_timeout

bool

음성 적응을 적용할 때 시간 초과가 발생했는지 여부입니다. true인 경우 적응이 응답 스크립트에 영향을 주지 않았습니다.

timeout_message

string

설정된 경우 음성 적응 요청 중 시간 초과된 부분을 지정하는 메시지를 반환합니다.

SpeechContext

결과에서 특정 단어나 구문을 우선시하도록 음성 인식기에 '힌트'를 제공합니다.

필드
phrases[]

string

음성 인식에서 인식할 수 있도록 단어 및 구문 '힌트'가 포함된 문자열 목록입니다. 예를 들어 사용자가 특정 명령을 자주 사용하는 경우 해당 단어와 구문의 정확성을 높이는 데 사용할 수 있습니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다. 사용량 한도를 참조하세요.

목록 항목은 자연어에서 발생하는 일반적인 개념을 나타내는 단어 그룹의 클래스로 설정할 수도 있습니다. 예를 들어 연중 각 월에 대한 구문 힌트를 제공하는 대신 $MONTH 클래스를 사용하면 월이 포함된 오디오를 올바르게 변환할 가능성이 높아집니다.

boost

float

힌트 부스트. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스트 값은 편향 방지에 해당합니다. 편향 방지가 사용 설정되어 있지 않으므로 음수 부스트는 무시됩니다. boost는 다양한 양수 값을 허용하지만 대부분의 사용 사례에서는 0~20 사이의 값을 사용하는 것이 가장 좋습니다. 바이너리 검색 방식을 사용하여 사용 사례의 최적값을 찾는 것이 좋습니다.

SpeechRecognitionAlternative

대체 가설로서 n-best 목록이라고도 합니다.

필드
transcript

string

사용자가 말한 단어를 나타내는 스크립트 텍스트입니다. 공백을 사용하여 단어를 구분하는 언어의 경우 첫 번째 결과가 아니면 스크립트에 선행 공백이 있을 수 있습니다. 구분 기호를 사용하지 않고 각 결과를 연결하여 전체 스크립트를 얻을 수 있습니다.

confidence

float

신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 is_final=true인 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 confidence가 설정되지 않았음을 나타내는 센티널 값입니다.

words[]

WordInfo

인식된 각 단어의 단어별 정보 목록입니다. 참고: enable_speaker_diarization가 true이면 오디오의 시작 부분부터 모든 단어가 표시됩니다.

SpeechRecognitionResult

오디오의 일부분에 해당되는 음성 인식 결과입니다.

필드
alternatives[]

SpeechRecognitionAlternative

하나 이상의 인식 가설 (max_alternatives에 지정된 최대값까지)이 포함될 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위 (첫 번째) 대안이 가장 가능성이 높습니다.

channel_tag

int32

다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. audio_channel_count = N이라면 출력 값의 범위는 '1'~'N'입니다.

result_end_time

Duration

오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다.

language_code

string

출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다.

StreamingRecognitionConfig

인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.

필드
config

RecognitionConfig

필수 항목입니다. 인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.

single_utterance

bool

false이거나 생략된 경우 인식기는 클라이언트가 입력 스트림(gRPC API)을 종료하거나 최대 제한 시간에 도달할 때까지 연속 인식을 수행합니다. 즉, 사용자가 말을 잠시 멈추더라도 계속 대기하면서 오디오를 처리합니다. is_final 플래그가 true로 설정된 여러 StreamingRecognitionResult를 반환할 수 있습니다.

true이면 인식기가 단일 발화를 감지합니다. 음성 인식기는 사용자가 말을 잠시 멈추거나 끝낸 것으로 인식하면 END_OF_SINGLE_UTTERANCE 이벤트를 반환하고 인식을 중단합니다. is_final 플래그가 true로 설정된 StreamingRecognitionResult를 하나 이하로 반환합니다.

single_utterance 필드는 지정된 모델에만 사용할 수 있으며, 그렇지 않으면 오류가 발생합니다. RecognitionConfigmodel 필드는 다음으로 설정되어야 합니다.

  • command_and_search
  • phone_call 및 추가 필드 useEnhanced=true
  • model 필드는 정의되지 않은 상태로 둡니다. 이 경우 API는 RecognitionConfig에서 설정한 다른 매개변수를 기반으로 모델을 자동 선택합니다.
interim_results

bool

true인 경우 중간 결과 (잠정 가설)가 제공되는 대로 반환될 수 있습니다 (이러한 중간 결과는 is_final=false 플래그로 표시됨). false이거나 생략된 경우 is_final=true 결과만 반환됩니다.

enable_voice_activity_events

bool

true인 경우 음성 활동 음성 이벤트가 포함된 응답이 감지되고 반환됩니다.

voice_activity_timeout

VoiceActivityTimeout

설정된 경우 서버는 마지막 VOICE_ACTIVITY 음성 이벤트가 전송된 후 지정된 시간이 경과하면 스트림을 자동으로 닫습니다. voice_activity_events 필드도 true로 설정해야 합니다.

VoiceActivityTimeout

음성 활동에 제한 시간을 설정할 수 있는 이벤트입니다.

필드
speech_start_timeout

Duration

음성이 시작되지 않은 경우 스트림이 제한 시간으로 설정되는 기간입니다.

speech_end_timeout

Duration

음성이 끝난 후 스트림이 타임아웃되는 시간입니다.

StreamingRecognitionResult

현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 인식 결과입니다.

필드
alternatives[]

SpeechRecognitionAlternative

하나 이상의 인식 가설 (max_alternatives에 지정된 최대값까지)이 포함될 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위 (첫 번째) 대안이 가장 가능성이 높습니다.

is_final

bool

false이면 이 StreamingRecognitionResult는 변경될 수 있는 중간 결과를 나타냅니다. true이면 음성 서비스에서 이 특정 StreamingRecognitionResult를 최종적으로 반환하는 경우입니다. 인식기는 스크립트 작성과 해당하는 오디오의 이 부분에 대해 더 이상 가설을 반환하지 않습니다.

stability

float

인식기가 이 중간 결과에 대한 추측을 변경하지 않을 가능성에 대한 추정치입니다. 값의 범위는 0.0(완전히 불안정함)~1.0(완전히 안정적임)입니다. 이 필드는 임시 결과(is_final=false)에만 제공됩니다. 기본값 0.0은 stability가 설정되지 않았음을 나타내는 전송값입니다.

result_end_time

Duration

오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다.

channel_tag

int32

다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. audio_channel_count = N이라면 출력 값의 범위는 '1'~'N'입니다.

language_code

string

출력 전용. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다.

StreamingRecognizeRequest

StreamingRecognize 메서드에 대해 클라이언트가 보낸 최상위 메시지입니다. 여러 StreamingRecognizeRequest 메시지가 전송됩니다. 첫 번째 메시지는 streaming_config 메시지를 포함해야 하며 audio_content를 포함해서는 안 됩니다. 이후의 모든 메시지는 audio_content를 포함해야 하며 streaming_config 메시지를 포함해서는 안 됩니다.

필드
통합 필드 streaming_request. 스트리밍 구성 또는 오디오 콘텐츠인 스트리밍 요청입니다. streaming_request은 다음 중 하나여야 합니다.
streaming_config

StreamingRecognitionConfig

인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. 첫 번째 StreamingRecognizeRequest 메시지는 streaming_config 메시지를 포함해야 합니다.

audio_content

bytes

인식할 오디오 데이터입니다. 오디오 데이터의 순차적인 청크가 순차적 StreamingRecognizeRequest 메시지로 전송됩니다. 첫 번째 StreamingRecognizeRequest 메시지는 audio_content 데이터를 포함해서는 안 되며 이후의 모든 StreamingRecognizeRequest 메시지는 audio_content 데이터를 포함해야 합니다. 오디오 바이트는 RecognitionConfig에 지정된 대로 인코딩되어야 합니다. 참고: 모든 bytes 필드와 마찬가지로 proto 버퍼는 base64가 아닌 순수 바이너리 표현을 사용합니다. 콘텐츠 한도를 참고하세요.

StreamingRecognizeResponse

StreamingRecognizeResponseStreamingRecognize에서 클라이언트로 반환하는 유일한 메시지입니다. 0개 이상의 StreamingRecognizeResponse 메시지가 클라이언트로 다시 스트리밍됩니다. 인식 가능한 오디오가 없고 single_utterance가 false로 설정되어 있으면 메시지가 클라이언트로 다시 스트리밍되지 않습니다.

다음은 오디오를 처리하는 동안 반환될 수 있는 일련의 StreamingRecognizeResponse 예시입니다.

  1. results { alternatives { transcript: "tube" } stability: 0.01 }

  2. results { alternatives { transcript: "to be a" } stability: 0.01 }

  3. results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }

  4. results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }

  5. results { alternatives { transcript: " that's" } stability: 0.01 }

  6. results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }

  7. results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }

참고:

  • 위의 응답 중 is_final: true로 표시된 #4와 #7에만 최종 결과가 있습니다. 이들을 연결하면 전체 스크립트('to be or not to be that is the question')가 만들어집니다.

  • 다른 응답에는 중간 results가 포함됩니다. #3과 #6에는 두 개의 중간 results가 포함되어 있습니다. 첫 번째 부분은 안정성이 높고 변경될 가능성이 낮습니다. 두 번째 부분은 안정성이 낮으며 변경될 가능성이 매우 높습니다. UI 디자이너는 재량에 따라 안정성이 높은 results만 표시할 수 있습니다.

  • 위에 표시된 특정 stabilityconfidence 값은 참고용이며 실제 값은 다를 수 있습니다.

  • 각 응답에서 error, speech_event_type, 하나 이상의 반복되는 results 필드 중 하나만 설정됩니다.

필드
error

Status

설정된 경우 작업의 오류를 특정하는 google.rpc.Status 메시지를 반환합니다.

results[]

StreamingRecognitionResult

반복되는 이 목록에는 현재 처리 중인 오디오의 연속 부분에 해당하는 0개 이상의 결과가 포함됩니다. 0개 이상의 is_final=true 결과 (새로 결정된 부분)가 포함되며, 그 뒤에 0개 이상의 is_final=false 결과 (중간 결과)가 나옵니다.

speech_event_type

SpeechEventType

음성 이벤트 유형을 나타냅니다.

speech_event_time

Duration

오디오 시작과 이벤트 방출 사이의 타임스탬프입니다.

total_billed_time

Duration

가능한 경우 스트림에서 요금이 청구되는 오디오 초입니다. 스트림의 마지막 응답인 경우에만 설정됩니다.

speech_adaptation_info

SpeechAdaptationInfo

대답의 적응 동작에 관한 정보를 제공합니다.

request_id

int64

요청과 연결된 ID입니다. 지정된 요청에만 해당하는 고유 ID입니다.

SpeechEventType

음성 이벤트 유형을 나타냅니다.

열거형
SPEECH_EVENT_UNSPECIFIED 음성 이벤트가 지정되지 않았습니다.
END_OF_SINGLE_UTTERANCE 이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않습니다. 하지만 나중에 추가 결과가 반환될 수 있습니다. 클라이언트는 추가 오디오 데이터 전송을 중단하고 gRPC 연결을 반쯤 닫은 후 서버가 gRPC 연결을 닫을 때까지 추가 결과를 기다려야 합니다. 이 이벤트는 single_utterancetrue로 설정된 경우에만 전송되며 다른 방식으로 사용되지 않습니다.
SPEECH_ACTIVITY_BEGIN 이 이벤트는 서버가 스트림에서 사람 음성 활동의 시작을 감지했음을 나타냅니다. 이 이벤트는 스트림 전체에서 음성이 반복적으로 시작되고 중지되면 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events가 true로 설정된 경우에만 전송됩니다.
SPEECH_ACTIVITY_END 이 이벤트는 서버가 스트림에서 사람 음성 활동의 끝을 감지했음을 나타냅니다. 이 이벤트는 스트림 전체에서 음성이 반복적으로 시작되고 중지되면 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events가 true로 설정된 경우에만 전송됩니다.
SPEECH_ACTIVITY_TIMEOUT 이 이벤트는 음성 활동 시작 또는 종료에 대해 사용자가 설정한 제한 시간이 초과되었음을 나타냅니다. 이 이벤트를 수신하면 클라이언트는 절반 닫기를 전송해야 합니다. 추가 오디오는 처리되지 않습니다.

TranscriptNormalization

스크립트 작성 정규화 구성입니다. 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다.

필드
entries[]

Entry

대체 항목 목록입니다. 한 번에 하나의 항목으로 교체됩니다. 예를 들어 ["cat" => "dog", "mountain cat" => "mountain dog"] 의 두 번째 항목은 항상 첫 번째 항목이 먼저 처리되기 때문에 적용되지 않습니다. 최대 100개 항목.

항목

단일 대체 구성.

필드
search

string

교체할 대상. 최대 길이는 100자(영문 기준)입니다.

replace

string

무엇으로 바꿀지. 최대 길이는 100자(영문 기준)입니다.

case_sensitive

bool

검색 시 대소문자를 구분하는지 여부입니다.

TranscriptOutputConfig

인식 결과의 선택적 대상 위치를 지정합니다.

필드

통합 필드 output_type.

output_type는 다음 중 하나여야 합니다.

gcs_uri

string

인식 결과의 Cloud Storage URI를 지정합니다. gs://bucket_name/object_name 형식으로 지정해야 하며 버킷이 이미 있어야 합니다.

UpdateCustomClassRequest

UpdateCustomClass 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
custom_class

CustomClass

필수 항목입니다. 업데이트할 맞춤 클래스입니다.

맞춤 클래스의 name 필드는 업데이트할 맞춤 클래스를 식별하는 데 사용됩니다. 형식:

projects/{project}/locations/{location}/customClasses/{custom_class}

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

승인을 처리하려면 지정된 리소스 customClass에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.customClasses.update
update_mask

FieldMask

업데이트할 필드 목록입니다.

UpdatePhraseSetRequest

UpdatePhraseSet 메서드에 대해 클라이언트가 보낸 메시지입니다.

필드
phrase_set

PhraseSet

필수 항목입니다. 업데이트할 구문 집합입니다.

업데이트할 세트를 식별하는 데 구문 세트의 name 필드가 사용됩니다. 형식:

projects/{project}/locations/{location}/phraseSets/{phrase_set}

Speech-to-Text는 global, us (미국 북미), eu (유럽)의 세 위치를 지원합니다. speech.googleapis.com 엔드포인트를 호출하는 경우 global 위치를 사용합니다. 리전을 지정하려면 일치하는 us 또는 eu 위치 값이 있는 리전 엔드포인트를 사용하세요.

승인을 처리하려면 지정된 리소스 phraseSet에 대해 다음과 같은 IAM 권한이 필요합니다.

  • speech.phraseSets.update
update_mask

FieldMask

업데이트할 필드 목록입니다.

WordInfo

인식된 단어의 단어별 정보입니다.

필드
start_time

Duration

오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 enable_word_time_offsets=true인 경우에만 설정되며 최상위 가설에만 설정됩니다. 시험용 기능이며 시간 오프셋의 정확성은 일정하지 않을 수 있습니다.

end_time

Duration

오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 enable_word_time_offsets=true인 경우에만 설정되며 최상위 가설에만 설정됩니다. 시험용 기능이며 시간 오프셋의 정확성은 일정하지 않을 수 있습니다.

word

string

이 정보 세트에 해당하는 단어입니다.

confidence

float

신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 is_final=true인 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 confidence가 설정되지 않았음을 나타내는 센티널 값입니다.

speaker_tag
(deprecated)

int32

출력 전용입니다. 오디오 내의 모든 화자에 고유한 정수 값이 할당됩니다. 이 필드는 화자 중 이 단어를 말한 것으로 감지된 화자를 지정합니다. 값은 '1'에서 diarization_speaker_count까지입니다. speaker_tag는 enable_speaker_diarization = 'true'인 경우에만 설정되며 최상위 대안에만 설정됩니다. 참고: 대신 speaker_label을 사용하세요.

speaker_label

string

출력 전용입니다. 오디오 내 모든 고유한 화자에게 할당된 라벨 값입니다. 이 필드는 이 단어를 말한 것으로 감지된 화자를 지정합니다. medical_conversation과 같은 일부 모델의 경우 실제 화자 역할(예: '환자' 또는 '의료인')일 수 있지만 일반적으로 화자를 식별하는 숫자입니다. 이 필드는 enable_speaker_diarization = 'true'인 경우에만 설정되며 최상위 대안에만 설정됩니다.