索引
Adaptation(接口)Speech(接口)CreateCustomClassRequest(消息)CreatePhraseSetRequest(消息)CustomClass(消息)CustomClass.ClassItem(消息)CustomClass.State(枚举)DeleteCustomClassRequest(消息)DeletePhraseSetRequest(消息)GetCustomClassRequest(消息)GetPhraseSetRequest(消息)ListCustomClassesRequest(消息)ListCustomClassesResponse(消息)ListPhraseSetRequest(消息)ListPhraseSetResponse(消息)LongRunningRecognizeMetadata(消息)LongRunningRecognizeRequest(消息)LongRunningRecognizeResponse(消息)PhraseSet(消息)PhraseSet.Phrase(消息)PhraseSet.State(枚举)RecognitionAudio(消息)RecognitionConfig(消息)RecognitionConfig.AudioEncoding(枚举)RecognitionMetadata(消息)(已弃用)RecognitionMetadata.InteractionType(枚举)RecognitionMetadata.MicrophoneDistance(枚举)RecognitionMetadata.OriginalMediaType(枚举)RecognitionMetadata.RecordingDeviceType(枚举)RecognizeRequest(消息)RecognizeResponse(消息)SpeakerDiarizationConfig(消息)SpeechAdaptation(消息)SpeechAdaptation.ABNFGrammar(消息)SpeechAdaptationInfo(消息)SpeechContext(消息)SpeechRecognitionAlternative(消息)SpeechRecognitionResult(消息)StreamingRecognitionConfig(消息)StreamingRecognitionConfig.VoiceActivityTimeout(消息)StreamingRecognitionResult(消息)StreamingRecognizeRequest(消息)StreamingRecognizeResponse(消息)StreamingRecognizeResponse.SpeechEventType(枚举)TranscriptNormalization(消息)TranscriptNormalization.Entry(消息)TranscriptOutputConfig(消息)UpdateCustomClassRequest(消息)UpdatePhraseSetRequest(消息)WordInfo(消息)
适应
实现 Google Cloud Speech Adaptation API 的服务。
| CreateCustomClass |
|---|
|
创建自定义类。
|
| CreatePhraseSet |
|---|
|
创建一组短语提示。集合中的每个项都可以是单个字词,也可以是多字词短语。当您发送包含 PhraseSet 的调用时,识别模型会优先考虑 PhraseSet 中的项。
|
| DeleteCustomClass |
|---|
|
删除自定义类。
|
| DeletePhraseSet |
|---|
|
删除短语集。
|
| GetCustomClass |
|---|
|
获取自定义类。
|
| GetPhraseSet |
|---|
|
获取短语集。
|
| ListCustomClasses |
|---|
|
列出自定义类。
|
| ListPhraseSet |
|---|
|
列出短语集。
|
| UpdateCustomClass |
|---|
|
更新自定义类。
|
| UpdatePhraseSet |
|---|
|
更新短语集。
|
语音
实施 Google Cloud Speech API 的服务。
| LongRunningRecognize |
|---|
|
执行异步语音识别:通过 google.longrunning.Operations 接口接收结果。返回
|
| 识别 |
|---|
|
执行同步语音识别:在发送和处理完所有音频后接收结果。
|
| StreamingRecognize |
|---|
|
执行双向流式语音识别:在发送音频时接收结果。此方法只能通过 gRPC API 使用,REST 不支持此方法。
|
CreateCustomClassRequest
客户端为 CreateCustomClass 方法发送的消息。
| 字段 | |
|---|---|
parent |
必需。将创建相应自定义类的父级资源。格式:
Speech-to-Text 支持三个位置: 必须对指定的资源
|
custom_class_id |
必需。要用于自定义类的 ID,该 ID 将成为自定义类资源名称的最后一个组成部分。 此值应限制为字母、数字和连字符,第一个字符必须是字母,最后一个字符必须是字母或数字,并且长度为 4-63 个字符。 |
custom_class |
必需。要创建的自定义类。 |
CreatePhraseSetRequest
客户端为 CreatePhraseSet 方法发送的消息。
| 字段 | |
|---|---|
parent |
必需。将创建相应短语集的父级资源。格式:
Speech-to-Text 支持三个位置: 必须对指定的资源
|
phrase_set_id |
必需。要用于词组集的 ID,该 ID 将成为词组集资源名称的最后一个组成部分。 此值应限制为字母、数字和连字符,第一个字符必须是字母,最后一个字符必须是字母或数字,并且长度为 4-63 个字符。 |
phrase_set |
必需。要创建的短语集。 |
CustomClass
一组表示音频中可能出现的常见概念的字词或短语,例如客船名称列表。您可以将 CustomClass 项替换为在 PhraseSet 短语中设置的占位符。
| 字段 | |
|---|---|
name |
自定义类的资源名称。 |
custom_class_id |
如果此自定义类是资源,则 custom_class_id 是 CustomClass 的资源 ID。区分大小写。 |
items[] |
类项的集合。 |
kms_key_name |
仅限输出。用于加密 ClassItem 内容的 KMS 密钥名称。格式应为 |
kms_key_version_name |
仅限输出。用于加密 ClassItem 内容的 KMS 密钥版本名称。格式应为 |
uid |
仅限输出。系统为 CustomClass 分配的唯一标识符。此字段未使用。 |
display_name |
仅限输出。用户可设置的 CustomClass 的人类可读名称。不得超过 63 个字符。此字段未使用。 |
state |
仅限输出。CustomClass 生命周期状态。此字段未使用。 |
delete_time |
仅限输出。请求删除相应资源的时间。此字段未使用。 |
expire_time |
仅限输出。相应资源将被清除的时间。此字段未使用。 |
annotations |
仅限输出。允许用户存储少量任意数据。键和值都不得超过 63 个字符。最多 100 条注释。此字段未使用。 |
etag |
仅限输出。此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。此字段未使用。 |
reconciling |
仅限输出。相应 CustomClass 是否正在更新。此字段未使用。 |
ClassItem
相应类别的商品。
| 字段 | |
|---|---|
value |
类商品的值。 |
州
定义了 CustomClass 生命周期的一系列状态。
| 枚举 | |
|---|---|
STATE_UNSPECIFIED |
未指定状态。此值仅用于区分未设置的值。 |
ACTIVE |
正常且有效状态。 |
DELETED |
此 CustomClass 已被删除。 |
DeleteCustomClassRequest
客户端为 DeleteCustomClass 方法发送的消息。
| 字段 | |
|---|---|
name |
必需。要删除的自定义类的名称。格式:
Speech-to-Text 支持三个位置: 必须对指定的资源
|
DeletePhraseSetRequest
客户端为 DeletePhraseSet 方法发送的消息。
| 字段 | |
|---|---|
name |
必需。要删除的短语集的名称。格式:
必须对指定的资源
|
GetCustomClassRequest
客户端为 GetCustomClass 方法发送的消息。
| 字段 | |
|---|---|
name |
必需。要检索的自定义类的名称。格式:
必须对指定的资源
|
GetPhraseSetRequest
客户端为 GetPhraseSet 方法发送的消息。
| 字段 | |
|---|---|
name |
必需。要检索的短语集的名称。格式:
Speech-to-Text 支持三个位置: 必须对指定的资源
|
ListCustomClassesRequest
客户端为 ListCustomClasses 方法发送的消息。
| 字段 | |
|---|---|
parent |
必需。拥有此自定义类集合的父级。格式:
Speech-to-Text 支持三个位置: 必须对指定的资源
|
page_size |
要返回的自定义类的数量上限。服务返回的值可能小于此值。如果未指定,则最多返回 50 个自定义类。最大值为 1,000;大于 1,000 的值将被强制转换为 1,000。 |
page_token |
从之前的 进行分页时,提供给 |
ListCustomClassesResponse
由 ListCustomClasses 方法返回给客户端的消息。
| 字段 | |
|---|---|
custom_classes[] |
自定义类。 |
next_page_token |
可作为 |
ListPhraseSetRequest
客户端为 ListPhraseSet 方法发送的消息。
| 字段 | |
|---|---|
parent |
必需。拥有此短语集集合的父级。格式:
Speech-to-Text 支持三个位置: 必须对指定的资源
|
page_size |
要返回的短语集数量上限。服务返回的值可能小于此值。如果未指定,则最多返回 50 个短语集。最大值为 1,000;大于 1,000 的值将被强制转换为 1,000。 |
page_token |
从之前的 进行分页时,提供给 |
ListPhraseSetResponse
由 ListPhraseSet 方法返回给客户端的消息。
| 字段 | |
|---|---|
phrase_sets[] |
短语集。 |
next_page_token |
可作为 |
LongRunningRecognizeMetadata
描述长时间运行的 LongRunningRecognize 调用的进度。这会包含在 google::longrunning::Operations 服务的 GetOperation 调用返回的 Operation 的 metadata 字段中。
| 字段 | |
|---|---|
progress_percent |
到目前为止已处理的音频的大致百分比。音频已完全处理且结果可用时保证为 100。 |
start_time |
收到请求的时间。 |
last_update_time |
最近一次处理更新的时间。 |
uri |
仅限输出。要转写的音频文件的 URI。如果音频是以字节内容的形式发送的,则为空。 |
LongRunningRecognizeRequest
客户端为 LongRunningRecognize 方法发送的顶级消息。
| 字段 | |
|---|---|
config |
必需。向识别器提供指定如何处理请求的信息。 |
audio |
必需。要识别的音频数据。 |
output_config |
可选。指定识别结果的可选目标。 |
LongRunningRecognizeResponse
LongRunningRecognize 方法返回给客户端的唯一消息。它包含零个或多个连续的 SpeechRecognitionResult 消息形式的结果。这会包含在 google::longrunning::Operations 服务的 GetOperation 调用返回的 Operation 的 result.response 字段中。
| 字段 | |
|---|---|
results[] |
对应于音频中几个连续部分的转录结果的连续列表。 |
total_billed_time |
相应请求的已结算音频秒数(如有)。 |
output_config |
请求中包含的原始输出配置(如果有)。 |
output_error |
如果转写输出失败,此字段会包含相关错误。 |
speech_adaptation_info |
提供有关响应中语音自适应行为的信息 |
request_id |
与请求关联的 ID。这是仅针对给定请求的唯一 ID。 |
PhraseSet
为语音识别器提供“提示”以支持结果中的特定字词和短语。
| 字段 | |
|---|---|
name |
短语集的资源名称。 |
phrases[] |
字词和短语的列表。 |
boost |
提示加成。正值会提高识别特定短语的概率,而不是其他发音类似的短语。提升越大,出现假正例识别的几率也越高。负提升值对应于反偏差。未启用反偏差功能,因此系统会直接忽略负向加权。虽然 |
kms_key_name |
仅限输出。用于加密 PhraseSet 内容的 KMS 密钥名称。格式应为 |
kms_key_version_name |
仅限输出。用于加密 PhraseSet 内容的 KMS 密钥版本名称。格式应为 |
uid |
仅限输出。系统为 PhraseSet 分配的唯一标识符。此字段未使用。 |
display_name |
仅限输出。用户可设置的 PhraseSet 人类可读名称。不得超过 63 个字符。此字段未使用。 |
state |
仅限输出。CustomClass 生命周期状态。此字段未使用。 |
delete_time |
仅限输出。请求删除相应资源的时间。此字段未使用。 |
expire_time |
仅限输出。相应资源将被清除的时间。此字段未使用。 |
annotations |
仅限输出。允许用户存储少量任意数据。键和值都不得超过 63 个字符。最多 100 条注释。此字段未使用。 |
etag |
仅限输出。此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。此字段未使用。 |
reconciling |
仅限输出。相应 PhraseSet 是否正在更新。此字段未使用。 |
短语
包含字词和短语“提示”的短语,以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度,例如,在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。请参阅使用限制。
列表项还可以包含预构建或自定义的类,这些类包含表示自然语言中常见概念的字词组。例如,使用预建的 $MONTH 类,而不是为一年中的每个月份提供短语提示(例如“我出生于 1 月”“我出生于 2 月”等),可以提高正确转录包含月份的音频的可能性(例如“我出生于 $month”)。如需引用预构建的类,请使用以 $ 开头的类符号,例如 $MONTH。如需引用在请求中内嵌定义的自定义类,请将该类的 custom_class_id 设置为对所有类资源和内嵌类而言唯一的字符串。然后,使用封装在 ${...} 中的类的 ID,例如“${my-months}”。如需引用自定义类资源,请使用封装在 ${} 中的类的 ID(例如 ${my-months})。
Speech-to-Text 支持三个位置:global、us(美国北美)和 eu(欧洲)。如果您要调用 speech.googleapis.com 端点,请使用 global 位置。如需指定区域,请使用与 us 或 eu 位置值相匹配的区域端点。
| 字段 | |
|---|---|
value |
短语本身。 |
boost |
提示加成。替换在短语集级别设置的提升值。正值会提高识别特定短语的概率,而不是其他发音类似的短语。提升越大,出现假正例识别的几率也越高。负值提升将直接被忽略。虽然 |
州
定义了 CustomClass 生命周期的一系列状态。
| 枚举 | |
|---|---|
STATE_UNSPECIFIED |
未指定状态。此值仅用于区分未设置的值。 |
ACTIVE |
正常且有效状态。 |
DELETED |
此 CustomClass 已被删除。 |
RecognitionAudio
包含按 RecognitionConfig 中指定的方式编码的音频数据。必须提供 content 或 uri。同时提供两者或两者都不提供会返回 google.rpc.Code.INVALID_ARGUMENT。请参阅内容限制。
| 字段 | |
|---|---|
联合字段 audio_source。音频源,可以是内嵌内容,也可以是 Google Cloud Storage URI。audio_source 只能是下列其中一项: |
|
content |
按 |
uri |
指向一个文件的 URI,该文件包含 |
RecognitionConfig
向识别器提供指定如何处理请求的信息。
| 字段 | |||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
encoding |
在所有 |
||||||||||||||||||
sample_rate_hertz |
在所有 |
||||||||||||||||||
audio_channel_count |
输入音频数据中的声道数量。仅适用于多声道音频识别。对 LINEAR16、OGG_OPUS 和 FLAC 而言有效值为 |
||||||||||||||||||
enable_separate_recognition_per_channel |
要单独识别每个声道,需将该字段明确设置为 |
||||||||||||||||||
language_code |
必需。所提供音频的语言,以 BCP-47 语言标记形式表示。示例:“en-US”。如需查看当前支持的语言代码列表,请参阅语言支持。 |
||||||||||||||||||
alternative_language_codes[] |
包含最多 3 个额外 BCP-47 语言标记的列表,列出所提供音频的可能备用语言。请参阅语言支持以获取当前支持的语言代码列表。如果列出了备用语言,则识别结果将包含以检测到最可能使用的语言识别出的内容(包括主要的 language_code)。识别结果将包括音频中检测到的语言的语言标记。注意:此功能仅支持语音指令和语音搜索用例,在其他用例(例如电话呼叫转录)中性能可能因具体情况而异。 |
||||||||||||||||||
max_alternatives |
要返回的识别假设数上限。具体而言,每个 |
||||||||||||||||||
profanity_filter |
如果设置为 |
||||||||||||||||||
adaptation |
语音自适应配置可提高语音识别的准确性。如需了解详情,请参阅语音自适应文档。设置语音自适应后,它会取代 |
||||||||||||||||||
transcript_normalization |
可选。使用转写内容标准化功能自动将转写内容的部分内容替换为您选择的短语。对于 StreamingRecognize,此归一化仅适用于稳定的部分转写(稳定性 > 0.8)和最终转写。 |
||||||||||||||||||
speech_contexts[] |
|
||||||||||||||||||
enable_word_time_offsets |
如果为 |
||||||||||||||||||
enable_word_confidence |
如果为 |
||||||||||||||||||
enable_automatic_punctuation |
如果为“true”,则在识别结果假设中添加标点符号。此功能仅适用于部分语言。为其他语言的请求设置此选项根本不起作用。 默认值“false”不会在结果假设中添加标点符号。 |
||||||||||||||||||
enable_spoken_punctuation |
通话的语音标点符号行为。如果未设置,则使用基于所选模型的默认行为,例如 command_and_search 会默认启用语音标点符号。如果为“true”,则在请求中将语音标点符号替换为相应的符号。例如,转写内容“how are you 英文问号”会变为“how are you?”。如需获得支持,请参阅 https://cloud.google.com/speech-to-text/docs/spoken-punctuation。如果为“false”,则不会替换语音标点符号。 |
||||||||||||||||||
enable_spoken_emojis |
通话的语音表情符号行为。如果未设置,则使用基于所选模型的默认行为。如果为“true”,则针对请求添加语音表情符号格式。这会在最终转写内容中将语音表情符号替换为相应的 Unicode 符号。如果为“false”,则不会替换语音表情符号。 |
||||||||||||||||||
diarization_config |
配置以启用讲话人区分功能并设置额外参数,从而使区分更适合您的应用。注意:启用此功能后,我们会针对每个连续的 STREAMING 响应,从音频开头开始发送排名最高的备选项中的所有字词。这样做是为了改进讲话人标记,以便模型逐渐学习识别对话中的讲话人。对于非流式请求,将仅在最终 SpeechRecognitionResult 的首选备用内容中提供讲话人分类结果。 |
||||||||||||||||||
metadata |
与此请求相关的元数据。 |
||||||||||||||||||
model |
要为给定请求选择的模型。请选择最适合您网域的模型,以获得最佳结果。如果未明确指定模型,则会根据 RecognitionConfig 中的参数自动选择模型。
|
||||||||||||||||||
use_enhanced |
设置为 true 可使用增强型模型进行语音识别。如果 如果 |
||||||||||||||||||
AudioEncoding
请求中发送的音频数据的编码。
除非设置了 audio_channel_count 和 enable_separate_recognition_per_channel 字段,否则所有编码仅支持 1 声道(单声道)音频。
为获得最佳结果,应使用无损编码(FLAC 或 LINEAR16)捕获和传输音频源。如果使用有损编解码器来捕获或传输音频,则会降低语音识别的准确性,尤其是在存在背景噪声的情况下。有损编解码器包括 MULAW、AMR、AMR_WB、OGG_OPUS、SPEEX_WITH_HEADER_BYTE、MP3 和 WEBM_OPUS。
FLAC 和 WAV 音频文件格式包括描述所含音频内容的文件头。您可以请求识别包含 WAV 或 LINEAR16 编码音频的 MULAW 文件。如果您在请求中发送 FLAC 或 WAV 音频文件格式,则无需指定 AudioEncoding;音频编码格式将根据文件头确定。如果在发送 FLAC 或 WAV 音频时指定 AudioEncoding,则编码配置必须与音频文件头中描述的编码匹配;否则请求将返回 google.rpc.Code.INVALID_ARGUMENT 错误代码。
| 枚举 | |
|---|---|
ENCODING_UNSPECIFIED |
未指定。 |
LINEAR16 |
未压缩的 16 位有符号小端字节序采样(线性 PCM)。 |
FLAC |
推荐的编码方式是 FLAC(免费无损音频编解码器),因为这种编码方式是无损的(因此丝毫不会影响到识别),并且所需带宽仅为 LINEAR16 的大致一半。FLAC 流编码支持 16 位和 24 位采样,但并不支持 STREAMINFO 中的所有字段。 |
MULAW |
8 位采样,使用 G.711 PCMU/mu-law 压缩 14 位音频采样。 |
AMR |
自适应多速率窄带编解码器。sample_rate_hertz 必须是 8000。 |
AMR_WB |
自适应多速率宽带编解码器。sample_rate_hertz 必须是 16000。 |
OGG_OPUS |
Ogg 容器中的 Opus 编码音频帧 (OggOpus)。sample_rate_hertz 必须是以下值之一:8000、12000、16000、24000 或 48000。 |
SPEEX_WITH_HEADER_BYTE |
尽管不推荐使用有损编码,但如果需要超低比特率编码,则 OGG_OPUS 要明显优于 Speex 编码。Cloud Speech API 支持的 Speex 编码在每个块中都有一个头字节,如在 MIME 类型 audio/x-speex-with-header-byte 中一样。它是 RFC 5574 中定义的 RTP Speex 编码的变体。流是一系列块,每个 RTP 包一个块。每个块均以包含块长度的字节开始(以字节为单位),后接一个或多个 Speex 数据帧,填充到 RFC 5574 中指定的整数个字节(八位字节)中。换句话说,每个 RTP 文件头均替换为包含块长度的单个字节。系统仅支持 Speex 宽带。sample_rate_hertz 必须是 16000。 |
MP3 |
MP3 音频。MP3 编码是一项 Beta 版功能,仅在 v1p1beta1 中提供。支持所有标准 MP3 比特率(范围为 32-320 kbps)。使用此编码时,sample_rate_hertz 必须与所用文件的采样率匹配。 |
WEBM_OPUS |
WebM 容器中的 Opus 编码音频帧 (WebM)。sample_rate_hertz 必须是 8000、12000、16000、24000 或 48000 之一。 |
ALAW |
8 位采样,使用 G.711 PCMU/a-law 压缩 13 位音频采样。 |
RecognitionMetadata
要识别的音频数据的描述。
| 字段 | |
|---|---|
interaction_type |
最能描述要识别的音频内容的用例。 |
industry_naics_code_of_audio |
此语音识别请求最接近的垂直行业。该字段最能体现音频中包含的主题。使用 6 位数的 NAICS 代码来确定行业垂直领域 - 请参阅 https://www.naics.com/search/。 |
microphone_distance |
最能描述所识别音频的音频类型。 |
original_media_type |
录制语音所用的原始媒体。 |
recording_device_type |
录制语音所用的设备类型。 |
recording_device_name |
用于制作录音的设备。例如:“Nexus 5X”、“Polycom SoundStation IP 6000”、“POTS”、“VoIP”或“心型指向麦克风”。 |
original_mime_type |
原始音频文件的 MIME 类型。例如 |
audio_topic |
内容说明。例如,“2012 年联邦最高法院听证会的录音”。 |
InteractionType
可以描述音频识别请求的用例类别。
| 枚举 | |
|---|---|
INTERACTION_TYPE_UNSPECIFIED |
用例未知或者不是下面其他值之一。 |
DISCUSSION |
对话或讨论中的多个人。例如,在有两个或更多人积极参与的会议中。通常所有主要讲话人都在同一个房间(如果不在同一个房间,请参见 PHONE_CALL) |
PRESENTATION |
一个或多个人向他人演讲或演示幻灯片,通常是不间断的。 |
PHONE_CALL |
电话呼叫或视频会议,有两个或多个不在同一房间的人员积极参与。 |
VOICEMAIL |
录制的消息,供另一个人收听。 |
PROFESSIONALLY_PRODUCED |
专业制作的音频(例如电视节目、播客)。 |
VOICE_SEARCH |
将语音问题和查询转录为文本。 |
VOICE_COMMAND |
转录语音指令,例如用于控制设备。 |
DICTATION |
将语音转录为文本以创建书面文档,例如文本消息、电子邮件或报告。 |
MicrophoneDistance
枚举描述音频文件的捕获设置类型。
| 枚举 | |
|---|---|
MICROPHONE_DISTANCE_UNSPECIFIED |
音频类型未知。 |
NEARFIELD |
从近处的麦克风捕获音频。例如,电话、录音机或手持麦克风。通常,讲话人距离麦克风 1 米以内。 |
MIDFIELD |
讲话人距离麦克风 3 米以内。 |
FARFIELD |
讲话人距离麦克风超过 3 米。 |
OriginalMediaType
录制语音所用的原始媒体。
| 枚举 | |
|---|---|
ORIGINAL_MEDIA_TYPE_UNSPECIFIED |
未知的原始媒体类型。 |
AUDIO |
语音数据是录制的音频。 |
VIDEO |
语音数据最初是用视频录制的。 |
RecordingDeviceType
录制语音所用的设备类型。
| 枚举 | |
|---|---|
RECORDING_DEVICE_TYPE_UNSPECIFIED |
未知录音设备。 |
SMARTPHONE |
语音是用智能手机录制的。 |
PC |
语音是用个人计算机或平板电脑录制的。 |
PHONE_LINE |
语音是用有线电话录制的。 |
VEHICLE |
语音是在车内录制的。 |
OTHER_OUTDOOR_DEVICE |
语音是在户外录制的。 |
OTHER_INDOOR_DEVICE |
语音是在室内录制的。 |
RecognizeRequest
客户端为 Recognize 方法发送的顶级消息。
| 字段 | |
|---|---|
config |
必需。向识别器提供指定如何处理请求的信息。 |
audio |
必需。要识别的音频数据。 |
RecognizeResponse
Recognize 方法返回给客户端的唯一消息。它包含零个或多个连续的 SpeechRecognitionResult 消息形式的结果。
| 字段 | |
|---|---|
results[] |
对应于音频中几个连续部分的转录结果的连续列表。 |
total_billed_time |
相应请求的已结算音频秒数(如有)。 |
speech_adaptation_info |
提供有关响应中自适应行为的信息 |
request_id |
与请求关联的 ID。这是仅针对给定请求的唯一 ID。 |
using_legacy_models |
请求是否使用了旧版 ASR 模型(未自动迁移到使用 Conformer 模型)。 |
SpeakerDiarizationConfig
用于启用讲话人区分功能的配置。
| 字段 | |
|---|---|
enable_speaker_diarization |
如果为“true”,则使用 WordInfo 中提供的 speaker_label 为识别结果的首选备选方案中的每个已识别的字词启用说话人检测。 |
min_speaker_count |
对话中讲话人的数量下限。系统利用此范围可自动确定正确的讲话人数量,从而为您提供更高的灵活性。如果未设置,则默认值为 2。 |
max_speaker_count |
会话中讲话人的数量上限。系统利用此范围可自动确定正确的讲话人数量,从而为您提供更高的灵活性。如果未设置,则默认值为 6。 |
speaker_tag |
仅限输出。未使用。 |
SpeechAdaptation
语音自适应配置。
| 字段 | |
|---|---|
phrase_sets[] |
短语集的集合。如需内嵌指定提示,请将短语集的 |
phrase_set_references[] |
要使用的一组短语集资源名称。 |
custom_classes[] |
自定义类的集合。如需内嵌指定类,请将类的 |
abnf_grammar |
增强巴科斯范式 (ABNF) 是一种由一组推导规则组成的标准化语法表示法。请参阅规范:https://www.w3.org/TR/speech-grammar |
ABNFGrammar
| 字段 | |
|---|---|
abnf_strings[] |
ABNF 语法的所有声明和规则都分解为多个最终会串联在一起的字符串。 |
SpeechAdaptationInfo
有关在结果中使用语音自适应的信息
| 字段 | |
|---|---|
adaptation_timeout |
应用语音自适应时是否超时。如果为 true,则自适应对响应转写内容没有影响。 |
timeout_message |
如果设置了此字段,则返回一条消息,指明语音转写请求的哪个部分超时。 |
SpeechContext
为语音识别器提供“提示”以支持结果中的特定字词和短语。
| 字段 | |
|---|---|
phrases[] |
包含字词和短语“提示”的字符串的列表,以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度,例如,在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。请参阅使用限制。 还可以将列表项设置为表示自然语言中常见概念的字词组的类。例如,使用 $MONTH 类可提高正确转录包含月份的音频的可能性,而无需为一年中的每个月都提供短语提示。 |
boost |
提示加成。正值会提高识别特定短语的概率,而不是其他发音类似的短语。提升越大,出现假正例识别的几率也越高。负提升值对应于反偏差。未启用反偏差功能,因此系统会直接忽略负向加权。虽然 |
SpeechRecognitionAlternative
备用假设(又称为 n 最佳列表)。
| 字段 | |
|---|---|
transcript |
表示用户所说字词的转录文本。在用空格分隔字词的语言中,如果转写内容不是第一个结果,则可能包含前导空格。您可以连接每个结果以获得完整转写内容,而无需使用分隔符。 |
confidence |
介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段仅针对非流式结果的首选备用内容或 |
words[] |
每个已识别字词的字词特定信息列表。注意:当 |
SpeechRecognitionResult
对应于音频的一部分的语音识别结果。
| 字段 | |
|---|---|
alternatives[] |
可能包含一个或多个识别假设(最多为 |
channel_tag |
对于多声道音频,这是与识别出的音频所属声道相对应的声道编号。对于 audio_channel_count = N,其输出值的范围可以从“1”到“N”。 |
result_end_time |
此结果的结束相对于音频开头的时间偏移。 |
language_code |
仅限输出。此结果中语言的 BCP-47 语言标记。检测到该语言代码表示音频中最有可能使用的是该语言。 |
StreamingRecognitionConfig
向识别器提供指定如何处理请求的信息。
| 字段 | |
|---|---|
config |
必需。向识别器提供指定如何处理请求的信息。 |
single_utterance |
如果为 如果为
|
interim_results |
如果为 |
enable_voice_activity_events |
如果值为 |
voice_activity_timeout |
如果设置了此值,服务器会在发送最后一个 VOICE_ACTIVITY 语音事件后,经过指定时长后自动关闭数据流。 |
VoiceActivityTimeout
可针对语音活动设置超时的事件。
| 字段 | |
|---|---|
speech_start_timeout |
如果未开始说话,则使数据流超时的时长。 |
speech_end_timeout |
在语音结束之后,将流设为超时的时长。 |
StreamingRecognitionResult
对应于当前正在处理的音频的一部分的流式语音识别结果。
| 字段 | |
|---|---|
alternatives[] |
可能包含一个或多个识别假设(最多为 |
is_final |
如果为 |
stability |
对识别器不会改变对此临时结果的猜测的可能性估计。值范围为 0.0(完全不稳定)到 1.0(完全稳定)。此字段仅适用于临时结果 ( |
result_end_time |
此结果的结束相对于音频开头的时间偏移。 |
channel_tag |
对于多声道音频,这是与识别出的音频所属声道相对应的声道编号。对于 audio_channel_count = N,其输出值的范围可以从“1”到“N”。 |
language_code |
仅限输出。此结果中语言的 BCP-47 语言标记。检测到该语言代码表示音频中最有可能使用的是该语言。 |
StreamingRecognizeRequest
客户端为 StreamingRecognize 方法发送的顶级消息。此时会发送多条 StreamingRecognizeRequest 消息。第一条消息必须包含 streaming_config 消息,且不得包含 audio_content。所有后续消息都必须包含 audio_content,且不得包含 streaming_config 消息。
| 字段 | |
|---|---|
联合字段 streaming_request。流式传输请求,可以是流式传输配置或音频内容。streaming_request 只能是下列其中一项: |
|
streaming_config |
向识别器提供指定如何处理请求的信息。 第一条 |
audio_content |
要识别的音频数据。连续的音频数据块在连续的 |
StreamingRecognizeResponse
StreamingRecognizeResponse 是 StreamingRecognize 返回给客户端的唯一消息。一系列零个或零个以上 StreamingRecognizeResponse 消息将流式传输回客户端。如果没有可识别的音频,并且 single_utterance 设置为 false,则不会向客户端流式返回任何消息。
以下示例展示了处理音频时可能返回的一系列 StreamingRecognizeResponse:
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
注意:
在上述响应中,只有两条响应(第 4 条和第 7 条)包含最终结果,由
is_final: true表示。将这些响应连接在一起即可获得完整的转录内容:“to be or not to be that is the question”。其他响应包含临时
results。第 3 条和第 6 条包含两个临时results:第一部分稳定性高,不太可能改变;第二部分稳定性低,很可能会改变。界面设计人员可能会选择仅显示高稳定性results。上面显示的特定
stability和confidence值仅用于说明目的。实际值可能会有所不同。在每个响应中,只会设置以下字段之一:
error、speech_event_type或一个或多个(重复)results。
| 字段 | |
|---|---|
error |
如果设置了此字段,则返回 |
results[] |
该重复列表包含零个或零个以上结果,这些结果对应于当前正在处理的音频的连续部分。它包含零个或一个 |
speech_event_type |
表示语音事件的类型。 |
speech_event_time |
音频开头与发出事件之时的时间偏移。 |
total_billed_time |
相应视频流的音频秒数(如果适用,则为已结算的音频秒数)。仅当这是流中的最后一个响应时才设置。 |
speech_adaptation_info |
提供有关响应中自适应行为的信息 |
request_id |
与请求关联的 ID。这是仅针对给定请求的唯一 ID。 |
SpeechEventType
表示语音事件的类型。
| 枚举 | |
|---|---|
SPEECH_EVENT_UNSPECIFIED |
未指定语音事件。 |
END_OF_SINGLE_UTTERANCE |
该事件表明服务器已经检测到用户所说话语结束,并且预计不会有额外的语音。因此,服务器不会处理额外的音频(尽管后续可能会返回额外的结果)。客户端应停止发送额外的音频数据,半关闭 gRPC 连接,并等待其他结果,直至服务器关闭 gRPC 连接为止。仅当 single_utterance 设置为 true 时才发送此事件,否则不使用此事件。 |
SPEECH_ACTIVITY_BEGIN |
此事件表示服务器已检测到数据流中人类语音活动的开始。如果语音在整个数据流中反复开始和停止,则此事件可能会多次返回。仅当 voice_activity_events 设置为 true 时,系统才会发送此事件。 |
SPEECH_ACTIVITY_END |
此事件表示服务器已检测到数据流中人类语音活动的结束。如果语音在整个数据流中反复开始和停止,则此事件可能会多次返回。仅当 voice_activity_events 设置为 true 时,系统才会发送此事件。 |
SPEECH_ACTIVITY_TIMEOUT |
此事件表示用户设置的语音活动开始或结束超时时间已过。收到此事件后,客户端应发送半关闭。系统不会再处理任何音频。 |
TranscriptNormalization
转写内容标准化配置。使用转写内容标准化功能自动将转写内容的部分内容替换为您选择的短语。对于 StreamingRecognize,此归一化仅适用于稳定的部分转写(稳定性 > 0.8)和最终转写。
| 字段 | |
|---|---|
entries[] |
替换条目的列表。我们将一次替换一个条目。例如,["cat" => "dog", "mountain cat" => "mountain dog"] 中的第二个条目永远不会被应用,因为我们始终会先处理第一个条目。最多 100 个条目。 |
条目
单个替换配置。
| 字段 | |
|---|---|
search |
要替换的内容。长度上限为 100 个字符。 |
replace |
要替换为的内容。长度上限为 100 个字符。 |
case_sensitive |
搜索是否区分大小写。 |
TranscriptOutputConfig
指定识别结果的可选目标。
| 字段 | |
|---|---|
联合字段
|
|
gcs_uri |
指定识别结果的 Cloud Storage URI。必须采用以下格式指定: |
UpdateCustomClassRequest
客户端为 UpdateCustomClass 方法发送的消息。
| 字段 | |
|---|---|
custom_class |
必需。要更新的自定义类。 自定义类的
Speech-to-Text 支持三个位置: 必须对指定的资源
|
update_mask |
要更新的字段的列表。 |
UpdatePhraseSetRequest
客户端为 UpdatePhraseSet 方法发送的消息。
| 字段 | |
|---|---|
phrase_set |
必需。要更新的短语集。 短语集的
Speech-to-Text 支持三个位置: 必须对指定的资源
|
update_mask |
要更新的字段的列表。 |
WordInfo
已识别字词的字词特定信息。
| 字段 | |
|---|---|
start_time |
相对于音频开头的时间偏移,并且对应于所说字词的开头。此字段仅在 |
end_time |
相对于音频开头的时间偏移,并且对应于所说字词的末尾。此字段仅在 |
word |
对应于该组信息的字词。 |
confidence |
介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段仅针对非流式结果的首选备用内容或 |
speaker_tag |
仅限输出。为音频中的每个讲话人分配不同的整数值。此字段指定检测哪个讲话人说出了此字词。值范围从“1”到 diarization_speaker_count。当 enable_speaker_diarization = 'true' 时设置 speaker_tag(仅适用于首选备用内容)。注意:请改用 speaker_label。 |
speaker_label |
仅限输出。为音频中的每个唯一说话者分配的标签值。此字段用于指定检测到哪个讲话者说了这个字词。对于某些模型(如 medical_conversation),这可以是实际的说话者角色,例如“患者”或“提供方”,但通常情况下,这会是用于标识说话者的数字。仅当 enable_speaker_diarization = 'true' 时,此字段才会被设置,并且仅适用于首选备用内容。 |