索引
Speech(接口)AccessMetadata(消息)AccessMetadata.ConstraintType(枚举)AutoDetectDecodingConfig(消息)BatchRecognizeFileMetadata(消息)BatchRecognizeFileResult(消息)BatchRecognizeMetadata(消息)BatchRecognizeRequest(消息)BatchRecognizeRequest.ProcessingStrategy(枚举)BatchRecognizeResponse(消息)BatchRecognizeResults(消息)BatchRecognizeTranscriptionMetadata(消息)CloudStorageResult(消息)Config(消息)CreateCustomClassRequest(消息)CreatePhraseSetRequest(消息)CreateRecognizerRequest(消息)CustomClass(消息)CustomClass.ClassItem(消息)CustomClass.State(枚举)DeleteCustomClassRequest(消息)DeletePhraseSetRequest(消息)DeleteRecognizerRequest(消息)DenoiserConfig(消息)ExplicitDecodingConfig(消息)ExplicitDecodingConfig.AudioEncoding(枚举)GcsOutputConfig(消息)GetConfigRequest(消息)GetCustomClassRequest(消息)GetPhraseSetRequest(消息)GetRecognizerRequest(消息)InlineOutputConfig(消息)InlineResult(消息)LanguageMetadata(消息)ListCustomClassesRequest(消息)ListCustomClassesResponse(消息)ListPhraseSetsRequest(消息)ListPhraseSetsResponse(消息)ListRecognizersRequest(消息)ListRecognizersResponse(消息)LocationsMetadata(消息)ModelFeature(消息)ModelFeatures(消息)ModelMetadata(消息)NativeOutputFileFormatConfig(消息)OperationMetadata(消息)OutputFormatConfig(消息)PhraseSet(消息)PhraseSet.Phrase(消息)PhraseSet.State(枚举)RecognitionConfig(消息)RecognitionFeatures(消息)RecognitionFeatures.MultiChannelMode(枚举)RecognitionOutputConfig(消息)RecognitionResponseMetadata(消息)RecognizeRequest(消息)RecognizeResponse(消息)Recognizer(消息)Recognizer.State(枚举)SpeakerDiarizationConfig(消息)SpeechAdaptation(消息)SpeechAdaptation.AdaptationPhraseSet(消息)SpeechRecognitionAlternative(消息)SpeechRecognitionResult(消息)SrtOutputFileFormatConfig(消息)StreamingRecognitionConfig(消息)StreamingRecognitionFeatures(消息)StreamingRecognitionFeatures.VoiceActivityTimeout(消息)StreamingRecognitionResult(消息)StreamingRecognizeRequest(消息)StreamingRecognizeResponse(消息)StreamingRecognizeResponse.SpeechEventType(枚举)TranscriptNormalization(消息)TranscriptNormalization.Entry(消息)TranslationConfig(消息)UndeleteCustomClassRequest(消息)UndeletePhraseSetRequest(消息)UndeleteRecognizerRequest(消息)UpdateConfigRequest(消息)UpdateCustomClassRequest(消息)UpdatePhraseSetRequest(消息)UpdateRecognizerRequest(消息)VttOutputFileFormatConfig(消息)WordInfo(消息)
语音
能够进行语音转写和资源管理。
| BatchRecognize |
|---|
|
执行批量异步语音识别:发送包含 N 个音频文件的请求,并接收长时间运行的操作(可以轮询该操作以查看转写完成时间)。
|
| CreateCustomClass |
|---|
|
创建
|
| CreatePhraseSet |
|---|
|
创建
|
| CreateRecognizer |
|---|
|
创建
|
| DeleteCustomClass |
|---|
|
删除
|
| DeletePhraseSet |
|---|
|
删除
|
| DeleteRecognizer |
|---|
|
删除
|
| GetConfig |
|---|
|
返回所请求的
|
| GetCustomClass |
|---|
|
返回所请求的
|
| GetPhraseSet |
|---|
|
返回所请求的
|
| GetRecognizer |
|---|
|
返回所请求的
|
| ListCustomClasses |
|---|
|
列出 CustomClass。
|
| ListPhraseSets |
|---|
|
列出 PhraseSet。
|
| ListRecognizers |
|---|
|
列出识别器。
|
| 识别 |
|---|
|
执行同步语音识别:在发送和处理完所有音频后接收结果。
|
| StreamingRecognize |
|---|
|
执行双向流式语音识别:在发送音频时接收结果。此方法只能通过 gRPC API 使用,REST 不支持此方法。
|
| UndeleteCustomClass |
|---|
|
取消删除
|
| UndeletePhraseSet |
|---|
|
取消删除
|
| UndeleteRecognizer |
|---|
|
取消删除
|
| UpdateConfig |
|---|
|
更新
|
| UpdateCustomClass |
|---|
|
更新
|
| UpdatePhraseSet |
|---|
|
更新
|
| UpdateRecognizer |
|---|
|
更新
|
AccessMetadata
特定区域的访问权限元数据。如果给定项目的组织政策不允许使用特定区域,则可以应用此政策。
| 字段 | |
|---|---|
constraint_type |
介绍所应用的不同类型的限制条件。 |
ConstraintType
介绍可应用于区域的不同类型的限制。
| 枚举 | |
|---|---|
CONSTRAINT_TYPE_UNSPECIFIED |
应用了未指定的限制条件。 |
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT |
项目的组织政策不允许使用指定区域。 |
AutoDetectDecodingConfig
此类型没有字段。
自动检测到的解码参数。支持以下编码:
WAV_LINEAR16:WAV 容器中的 16 位有符号小端字节序 PCM 样本。
WAV_MULAW:WAV 容器中的 8 位压缩 mulaw 样本。
WAV_ALAW:WAV 容器中的 8 位压缩 alaw 样本。
RFC4867_5_AMR:带有 rfc4867.5 标头的 AMR 帧。
RFC4867_5_AMRWB:带有 rfc4867.5 标头的 AMR-WB 帧。
FLAC:采用“原生 FLAC”容器格式的 FLAC 帧。
MP3:带有可选(忽略)ID3 元数据的 MPEG 音频帧。
OGG_OPUS:Ogg 容器中的 Opus 音频帧。
WEBM_OPUS:WebM 容器中的 Opus 音频帧。
MP4_AAC:MP4 容器中的 AAC 音频帧。
M4A_AAC:M4A 容器中的 AAC 音频帧。
MOV_AAC:MOV 容器中的 AAC 音频帧。
BatchRecognizeFileMetadata
BatchRecognize 批处理中单个文件的元数据。
| 字段 | |
|---|---|
config |
用于自动语音识别的特征和音频元数据。此字段可与 |
config_mask |
|
联合字段 audio_source。音频源,即 Google Cloud Storage URI。audio_source 只能是下列其中一项: |
|
uri |
音频文件的 Cloud Storage URI。 |
BatchRecognizeFileResult
单个文件的最终结果。
| 字段 | |
|---|---|
error |
如果遇到错误,则为相应错误。 |
metadata |
|
uri |
已弃用。请改用 |
transcript |
已弃用。请改用 |
联合字段
|
|
cloud_storage_result |
写入 Cloud Storage 的识别结果。仅当在 [RecognitionOutputConfig][ |
inline_result |
识别结果。仅当在 [RecognitionOutputConfig][ |
BatchRecognizeMetadata
BatchRecognize 的操作元数据。
| 字段 | |
|---|---|
transcription_metadata |
从提供的文件名到相应文件的转写元数据的映射。 |
BatchRecognizeRequest
对 BatchRecognize 方法的请求消息。
| 字段 | |
|---|---|
recognizer |
必需。识别期间要使用的识别器的名称。格式应为 |
config |
用于自动语音识别的特征和音频元数据。此字段可与 |
config_mask |
|
files[] |
包含文件元数据的音频文件,用于 ASR。最多可指定 15 个文件。 |
recognition_output_config |
用于配置每个文件的转写内容输出位置的选项。 |
processing_strategy |
用于此请求的处理策略。 |
ProcessingStrategy
批量请求的可能处理策略。
| 枚举 | |
|---|---|
PROCESSING_STRATEGY_UNSPECIFIED |
处理策略的默认值。系统会在收到请求后立即处理。 |
DYNAMIC_BATCHING |
如果选择此选项,系统会在利用率较低的期间处理请求,以享受价格折扣。请求会在 24 小时内得到处理。 |
BatchRecognizeResponse
封装到长时间运行的 Operation 中的 BatchRecognize 的响应消息。
| 字段 | |
|---|---|
results |
从文件名到相应文件的最终结果的映射。 |
total_billed_duration |
相应请求的已结算音频秒数(如有)。 |
BatchRecognizeResults
BatchRecognize 转写的 Cloud Storage 输出类型。虽然此 proto 未在此 API 中返回,但 Cloud Storage 转写内容将是此 proto 的序列化版本,应按此方式进行解析。
| 字段 | |
|---|---|
results[] |
对应于音频中几个连续部分的转录结果的连续列表。 |
metadata |
有关识别的元数据。 |
BatchRecognizeTranscriptionMetadata
有关单个文件转写的元数据(例如,进度百分比)。
| 字段 | |
|---|---|
progress_percent |
目前已转写多少文件内容。 |
error |
如果遇到错误,则为相应错误。 |
uri |
将写入识别结果的 Cloud Storage URI。 |
CloudStorageResult
最终结果写入 Cloud Storage。
| 字段 | |
|---|---|
uri |
写入识别结果的 Cloud Storage URI。 |
vtt_format_uri |
写入识别结果的 Cloud Storage URI(采用 VTT 格式的字幕)。仅当请求 |
srt_format_uri |
写入识别结果的 Cloud Storage URI(采用 SRT 格式的字幕)。仅当请求 |
配置
表示 Speech-to-Text API 配置的消息。这包括一个可选的 KMS 密钥,传入的数据将使用该密钥进行加密。
| 字段 | |
|---|---|
name |
仅限输出。标识符。配置资源的名称。每个项目在每个位置都只有一个配置资源。格式应为 |
kms_key_name |
可选。一个可选的 KMS 密钥名称,如果存在,将用于对 Speech-to-Text 资源进行静态加密。更新此密钥不会使用此密钥加密现有资源;只有新资源会使用此密钥加密。格式应为 |
update_time |
仅限输出。相应资源最近一次修改的时间。 |
CreateCustomClassRequest
对 CreateCustomClass 方法的请求消息。
| 字段 | |
|---|---|
custom_class |
必需。要创建的 CustomClass。 |
validate_only |
如果进行了设置,则验证请求并预览 CustomClass,但不会实际创建该 CustomClass。 |
custom_class_id |
要用于 CustomClass 的 ID,该 ID 将成为 CustomClass 资源名称的最后一个组成部分。 此值应为 4-63 个字符,有效字符为 /[a-z][0-9]-/。 |
parent |
必需。将在其中创建此 CustomClass 的项目和位置。格式应为 |
CreatePhraseSetRequest
对 CreatePhraseSet 方法的请求消息。
| 字段 | |
|---|---|
phrase_set |
必需。要创建的 PhraseSet。 |
validate_only |
如果进行了设置,则验证请求并预览 PhraseSet,但不会实际创建该 PhraseSet。 |
phrase_set_id |
要用于 PhraseSet 的 ID,该 ID 将成为 PhraseSet 资源名称的最后一个组成部分。 此值应为 4-63 个字符,有效字符为 /[a-z][0-9]-/。 |
parent |
必需。将创建此 PhraseSet 的项目和位置。格式应为 |
CreateRecognizerRequest
对 CreateRecognizer 方法的请求消息。
| 字段 | |
|---|---|
recognizer |
必需。要创建的识别器。 |
validate_only |
如果进行了设置,则验证请求并预览识别器,但不会实际创建识别器。 |
recognizer_id |
要用于识别器的 ID,该 ID 将成为识别器资源名称的最后一个组成部分。 此值应为 4-63 个字符,有效字符为 /[a-z][0-9]-/。 |
parent |
必需。将创建此识别器的项目和位置。格式应为 |
CustomClass
用于在语音识别中设置偏差的 CustomClass。用于定义一组可能出现在音频中的代表常见概念或主题的字词或短语,例如客轮名称列表。
| 字段 | |
|---|---|
name |
仅限输出。标识符。CustomClass 的资源名称。格式: |
uid |
仅限输出。系统为 CustomClass 分配的唯一标识符。 |
display_name |
可选。用户可设置的 CustomClass 的人类可读名称。不得超过 63 个字符。 |
items[] |
类项的集合。 |
state |
仅限输出。CustomClass 生命周期状态。 |
create_time |
仅限输出。创建时间。 |
update_time |
仅限输出。相应资源最近一次修改的时间。 |
delete_time |
仅限输出。请求删除此资源的时间。 |
expire_time |
仅限输出。相应资源将被清除的时间。 |
annotations |
可选。允许用户存储少量任意数据。键和值都不得超过 63 个字符。最多 100 条注释。 |
etag |
仅限输出。此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
reconciling |
仅限输出。相应 CustomClass 是否正在更新。 |
kms_key_name |
仅限输出。用于加密 CustomClass 的 KMS 密钥名称。格式应为 |
kms_key_version_name |
仅限输出。用于加密 CustomClass 的 KMS 密钥版本名称。格式应为 |
ClassItem
相应类别的商品。
| 字段 | |
|---|---|
value |
类商品的值。 |
州
定义了 CustomClass 生命周期的一系列状态。
| 枚举 | |
|---|---|
STATE_UNSPECIFIED |
未指定状态。此值仅用于区分未设置的值。 |
ACTIVE |
正常且有效状态。 |
DELETED |
此 CustomClass 已被删除。 |
DeleteCustomClassRequest
对 DeleteCustomClass 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要删除的 CustomClass 的名称。格式: |
validate_only |
如果进行了设置,则验证请求并预览已删除的 CustomClass,但不会实际删除它。 |
allow_missing |
如果设为 true,并且未找到 CustomClass,则请求会成功,但不会执行任何操作(在这种情况下不会记录任何操作)。 |
etag |
此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
DeletePhraseSetRequest
对 DeletePhraseSet 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要删除的 PhraseSet 的名称。格式: |
validate_only |
如果进行了设置,则验证请求并预览已删除的 PhraseSet,但不会实际删除它。 |
allow_missing |
如果设为 true,并且未找到 PhraseSet,则请求会成功,但不会执行任何操作(在这种情况下,不会记录任何操作)。 |
etag |
此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
DeleteRecognizerRequest
对 DeleteRecognizer 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要删除的识别器的名称。格式: |
validate_only |
如果进行了设置,则验证请求并预览已删除的识别器,但不会实际删除该识别器。 |
allow_missing |
如果设为 true,并且未找到识别器,则请求会成功,但不会执行任何操作(在这种情况下,不会记录任何操作)。 |
etag |
此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
DenoiserConfig
降噪器配置。可能不支持所有型号,也可能没有效果。
| 字段 | |
|---|---|
denoise_audio |
在将音频发送到转写模型之前先对其进行降噪处理。 |
snr_threshold |
降噪器的信噪比 (SNR) 阈值。这里的 SNR 是指语音信号的响度。如果音频的信噪比低于此阈值(意味着语音太小),则系统会阻止将该音频发送到转写模型。 如果 snr_threshold=0,则不会应用任何过滤条件。 |
ExplicitDecodingConfig
明确指定的解码参数。
| 字段 | |
|---|---|
encoding |
必需。发送以供识别的音频数据的编码。 |
sample_rate_hertz |
可选。发送进行识别的音频数据的采样率(单位为赫兹)。有效值包括:8000-48000,最佳值为 16000。为获得最佳效果,请将音频源的采样率设置为 16000 Hz。如果无法实现,则请使用音频源的原生采样率(而不是重新采样)。请注意,出于向后兼容性方面的考虑,此字段标记为“可选”。实际上是(并且一直都是)必需的。 |
audio_channel_count |
可选。发送进行识别的音频数据中存在的声道数量。请注意,出于向后兼容性方面的考虑,此字段标记为“可选”。实际上是(并且一直都是)必需的。 允许的最大值为 8。 |
AudioEncoding
支持的音频数据编码。
| 枚举 | |
|---|---|
AUDIO_ENCODING_UNSPECIFIED |
默认值。此值未使用。 |
LINEAR16 |
无标头的 16 位有符号小端字节序 PCM 样本。 |
MULAW |
无标头的 8 位压缩 mulaw 样本。 |
ALAW |
无标头的 8 位压缩 alaw 样本。 |
AMR |
带有 rfc4867.5 标头的 AMR 帧。 |
AMR_WB |
带有 rfc4867.5 标头的 AMR-WB 帧。 |
FLAC |
“原生 FLAC”容器格式中的 FLAC 帧。 |
MP3 |
带有可选(忽略)ID3 元数据的 MPEG 音频帧。 |
OGG_OPUS |
Ogg 容器中的 Opus 音频帧。 |
WEBM_OPUS |
WebM 容器中的 Opus 音频帧。 |
MP4_AAC |
MP4 容器中的 AAC 音频帧。 |
M4A_AAC |
M4A 容器中的 AAC 音频帧。 |
MOV_AAC |
MOV 容器中的 AAC 音频帧。 |
GcsOutputConfig
Cloud Storage 的输出配置。
| 字段 | |
|---|---|
uri |
将写入识别结果的 Cloud Storage URI 前缀。 |
GetConfigRequest
对 GetConfig 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要检索的配置的名称。每个项目在每个位置都只有一个配置资源。格式应为 |
GetCustomClassRequest
对 GetCustomClass 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要检索的 CustomClass 的名称。格式应为 |
GetPhraseSetRequest
对 GetPhraseSet 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要检索的 PhraseSet 的名称。格式应为 |
GetRecognizerRequest
对 GetRecognizer 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要检索的识别器的名称。格式应为 |
InlineOutputConfig
此类型没有字段。
内嵌回答的输出配置。
InlineResult
在识别响应中内嵌返回的最终结果。
| 字段 | |
|---|---|
transcript |
音频文件的转写内容。 |
vtt_captions |
音频文件的转写内容,以 VTT 格式的字幕呈现。仅当请求 |
srt_captions |
音频文件的转写内容,以 SRT 格式的字幕呈现。仅当请求 |
LanguageMetadata
有关给定区域中可用语言区域的元数据。目前,这只是每个语言区域可用的模型
| 字段 | |
|---|---|
models |
语言区域(语言代码)到模型的映射 |
ListCustomClassesRequest
对 ListCustomClasses 方法的请求消息。
| 字段 | |
|---|---|
parent |
必需。要列出的 CustomClass 资源的相应项目和位置。格式应为 |
page_size |
每次请求的结果数。有效的 page_size 范围为 0 到 100(含 0 和 100)。如果 page_size 为零或未指定,则将选择 5 作为页面大小。如果页面大小超过 100,则会强制转换为 100。请注意,调用返回的结果数量可能少于所请求的页面大小。 |
page_token |
从之前的 进行分页时,提供给 |
show_deleted |
是否显示已删除的资源。 |
ListCustomClassesResponse
ListCustomClasses 方法的响应消息。
| 字段 | |
|---|---|
custom_classes[] |
所请求的 CustomClass 的列表。 |
next_page_token |
可作为 |
ListPhraseSetsRequest
对 ListPhraseSets 方法的请求消息。
| 字段 | |
|---|---|
parent |
必需。要列出的 PhraseSet 资源的项目和位置。格式应为 |
page_size |
要返回的 PhraseSet 数量上限。服务返回的值可能小于此值。如果未指定,则最多返回 5 个 PhraseSet。最大值为 100;高于 100 的值将被强制转换为 100。 |
page_token |
从之前的 进行分页时,提供给 |
show_deleted |
是否显示已删除的资源。 |
ListPhraseSetsResponse
ListPhraseSets 方法的响应消息。
| 字段 | |
|---|---|
phrase_sets[] |
所请求的 PhraseSet 的列表。 |
next_page_token |
可作为 |
ListRecognizersRequest
对 ListRecognizers 方法的请求消息。
| 字段 | |
|---|---|
parent |
必需。要列出的识别器的项目和位置。格式应为 |
page_size |
要返回的识别器数量上限。服务返回的值可能小于此值。如果未指定,则最多返回 5 个识别器。最大值为 100;高于 100 的值将被强制转换为 100。 |
page_token |
从之前的 进行分页时,提供给 |
show_deleted |
是否显示已删除的资源。 |
ListRecognizersResponse
ListRecognizers 方法的响应消息。
| 字段 | |
|---|---|
recognizers[] |
所请求的识别器列表。 |
next_page_token |
可作为 |
LocationsMetadata
STT V2 的 Locations API 的主要元数据。目前,这只是有关语言区域、模型和功能的元数据
| 字段 | |
|---|---|
languages |
有关可用语言区域、模型和功能的信息,以语言区域 -> 模型 -> 功能的分层结构表示 |
access_metadata |
有关相应区域和指定项目的访问元数据的信息。 |
ModelFeature
表示模型的单个功能。如果相应功能为 recognizer,则相应功能的 release_state 表示相应模型的 release_state
| 字段 | |
|---|---|
feature |
功能名称(注意:功能可以是 |
release_state |
功能的发布状态 |
ModelFeatures
表示属于模型的功能集合
| 字段 | |
|---|---|
model_feature[] |
包含模型所有特征的重复字段 |
ModelMetadata
指定语言区域中给定区域内模型的相关元数据。目前,这只是模型的功能
| 字段 | |
|---|---|
model_features |
模型名称 -> 相应模型的功能的映射 |
NativeOutputFileFormatConfig
此类型没有字段。
序列化 BatchRecognizeResults proto 的输出配置。
OperationMetadata
表示长时间运行的操作的元数据。
| 字段 | |
|---|---|
create_time |
操作的创建时间。 |
update_time |
上次更新操作的时间。 |
resource |
操作目标的资源路径。 |
method |
触发操作的方法。 |
kms_key_name |
用于加密操作内容的 KMS 密钥名称。格式应为 |
kms_key_version_name |
用于加密操作内容的 KMS 密钥版本名称。格式应为 |
progress_percent |
操作的进度百分比。值的范围为 0-100。如果值为 100,则表示操作已完成。 |
联合字段 request。生成操作的请求。request 只能是下列其中一项: |
|
batch_recognize_request |
生成相应操作的 BatchRecognizeRequest。 |
create_recognizer_request |
生成操作的 CreateRecognizerRequest。 |
update_recognizer_request |
生成操作的 UpdateRecognizerRequest。 |
delete_recognizer_request |
生成操作的 DeleteRecognizerRequest。 |
undelete_recognizer_request |
生成相应操作的 UndeleteRecognizerRequest。 |
create_custom_class_request |
生成相应操作的 CreateCustomClassRequest。 |
update_custom_class_request |
生成相应操作的 UpdateCustomClassRequest。 |
delete_custom_class_request |
生成相应操作的 DeleteCustomClassRequest。 |
undelete_custom_class_request |
生成操作的 UndeleteCustomClassRequest。 |
create_phrase_set_request |
生成相应操作的 CreatePhraseSetRequest。 |
update_phrase_set_request |
生成相应操作的 UpdatePhraseSetRequest。 |
delete_phrase_set_request |
生成相应操作的 DeletePhraseSetRequest。 |
undelete_phrase_set_request |
生成相应操作的 UndeletePhraseSetRequest。 |
update_config_request |
生成相应操作的 UpdateConfigRequest。 |
联合字段 metadata。每个 RPC 的特定元数据。metadata 只能是下列其中一项: |
|
batch_recognize_metadata |
特定于 BatchRecognize 方法的元数据。 |
OutputFormatConfig
存储到 output 的结果的格式配置。
| 字段 | |
|---|---|
native |
原生输出格式的配置。如果设置了此字段,或者未设置任何其他输出格式字段,则转写内容将以原生格式写入接收器。 |
vtt |
VTT 输出格式的配置。如果设置了此字段,则系统会将转写内容以 VTT 格式写入接收器。 |
srt |
SRT 输出格式的配置。如果设置了此字段,则系统会将转写内容以 SRT 格式写入接收器。 |
PhraseSet
用于在语音识别中进行偏向的 PhraseSet。PhraseSet 用于为语音识别器提供“提示”,以支持结果中的特定字词和短语。
| 字段 | |
|---|---|
name |
仅限输出。标识符。PhraseSet 的资源名称。格式: |
uid |
仅限输出。系统为 PhraseSet 分配的唯一标识符。 |
phrases[] |
字词和短语的列表。 |
boost |
提示加成。正值会提高识别特定短语的概率,而不是其他发音类似的短语。提升越大,出现假正例识别的几率也越高。有效的 |
display_name |
用户可设置的 PhraseSet 人类可读名称。不得超过 63 个字符。 |
state |
仅限输出。PhraseSet 生命周期状态。 |
create_time |
仅限输出。创建时间。 |
update_time |
仅限输出。相应资源最近一次修改的时间。 |
delete_time |
仅限输出。请求删除此资源的时间。 |
expire_time |
仅限输出。相应资源将被清除的时间。 |
annotations |
允许用户存储少量任意数据。键和值都不得超过 63 个字符。最多 100 条注释。 |
etag |
仅限输出。此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
reconciling |
仅限输出。相应 PhraseSet 是否正在更新。 |
kms_key_name |
仅限输出。用于加密 PhraseSet 的 KMS 密钥名称。格式应为 |
kms_key_version_name |
仅限输出。用于加密 PhraseSet 的 KMS 密钥版本名称。格式应为 |
短语
Phrase 包含字词和短语“提示”,以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度,例如,在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。
列表项还可以包含 CustomClass 引用,其中包含表示自然语言中常见概念的字词组。
| 字段 | |
|---|---|
value |
短语本身。 |
boost |
提示加成。替换在短语集级别设置的提升值。正值会提高识别特定短语的概率,而不是其他发音类似的短语。提升越大,出现假正例识别的几率也越高。负提升值对应于反偏差。未启用反偏差功能,因此负提升值会返回错误。提升值必须介于 0 到 20 之间。超出该范围的任何值都会返回错误。我们建议您使用二分搜索方法来找到适合您使用情形的最佳值,并在请求中添加带提升和不带提升的短语。 |
州
定义了 PhraseSet 生命周期的一系列状态。
| 枚举 | |
|---|---|
STATE_UNSPECIFIED |
未指定状态。此值仅用于区分未设置的值。 |
ACTIVE |
正常且有效状态。 |
DELETED |
相应 PhraseSet 已被删除。 |
RecognitionConfig
向识别器提供指定如何处理识别器请求的信息。
| 字段 | |
|---|---|
model |
可选。用于识别请求的模型。请选择最适合您网域的模型,以获得最佳结果。 |
language_codes[] |
可选。所提供音频的语言,以 BCP-47 语言标记形式表示。语言标记在使用前会规范化为 BCP-47 格式,例如“en-us”会变为“en-US”。 支持的型号表格中列出了每种型号支持的语言。 如果提供了其他语言,识别结果将包含检测到的最可能语言的识别结果。识别结果将包括音频中检测到的语言的语言标记。 |
features |
要启用的语音识别功能。 |
adaptation |
一种语音自适应上下文,用于对特定字词和短语的识别器预测结果进行加权。 |
transcript_normalization |
可选。使用转写内容标准化功能自动将转写内容的部分内容替换为您选择的短语。对于 StreamingRecognize,此归一化仅适用于稳定的部分转写(稳定性 > 0.8)和最终转写。 |
translation_config |
可选。可选配置,用于自动将给定音频翻译成所需语言(适用于支持的模型)。 |
denoiser_config |
可选。可选的降噪器配置。可能不支持所有型号,也可能没有效果。 |
联合字段 decoding_config。要发送以进行识别的音频的解码参数。decoding_config 只能是下列其中一项: |
|
auto_decoding_config |
自动检测解码参数。首选支持的格式。 |
explicit_decoding_config |
明确指定的解码参数。如果使用无标头的 PCM 音频(linear16、mulaw、alaw),则为必需。 |
RecognitionFeatures
可用的识别功能。
| 字段 | |
|---|---|
profanity_filter |
如果设置为 |
enable_word_time_offsets |
如果为 |
enable_word_confidence |
如果为 |
enable_automatic_punctuation |
如果为 |
enable_spoken_punctuation |
通话的语音标点符号行为。如果为 |
enable_spoken_emojis |
通话的语音表情符号行为。如果为 |
multi_channel_mode |
识别多声道音频的模式。 |
diarization_config |
用于启用讲话人区分功能的配置。如需启用讲话人区分功能,请将此字段设置为空的 SpeakerDiarizationConfig 消息。 |
max_alternatives |
要返回的识别假设数上限。服务器返回的数量可能少于 |
MultiChannelMode
用于指定如何识别多声道音频的选项。
| 枚举 | |
|---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
多声道模式的默认值。如果音频包含多个声道,则只会转写第一个声道;其他声道将被忽略。 |
SEPARATE_RECOGNITION_PER_CHANNEL |
如果选中此选项,则所提供的音频中的每个声道都会单独转写。如果所选 model 为 latest_short,则无法选择此选项。 |
RecognitionOutputConfig
识别输出的配置选项。
| 字段 | |
|---|---|
output_format_config |
可选。存储到 |
联合字段
|
|
gcs_output_config |
如果填充了此消息,识别结果将写入所提供的 Google Cloud Storage URI。 |
inline_response_config |
如果填充了此消息,则在操作完成时,识别结果会显示在操作的 |
RecognitionResponseMetadata
有关识别请求和响应的元数据。
| 字段 | |
|---|---|
request_id |
由 API 自动生成的全局请求标识符。 |
total_billed_duration |
相应请求的已结算音频秒数(如有)。 |
RecognizeRequest
针对 Recognize 方法的请求消息。必须提供 content 或 uri。同时提供两者或两者都不提供会返回 INVALID_ARGUMENT。请参阅内容限制。
| 字段 | |
|---|---|
recognizer |
必需。识别期间要使用的识别器的名称。格式应为 |
config |
用于自动语音识别的特征和音频元数据。此字段可与 |
config_mask |
|
联合字段 audio_source。音频源,可以是内嵌内容,也可以是 Google Cloud Storage URI。audio_source 只能是下列其中一项: |
|
content |
按 |
uri |
指向一个文件的 URI,该文件包含 |
RecognizeResponse
Recognize 方法的响应消息。
| 字段 | |
|---|---|
results[] |
对应于音频中几个连续部分的转录结果的连续列表。 |
metadata |
有关识别的元数据。 |
识别器
识别器消息。存储识别配置和元数据。
| 字段 | |
|---|---|
name |
仅限输出。标识符。识别器的资源名称。格式: |
uid |
仅限输出。识别器的系统分配唯一标识符。 |
display_name |
识别器的用户可设置的人类可读名称。不得超过 63 个字符。 |
model |
可选。此字段现已弃用。首选 用于识别请求的模型。请选择最适合您网域的模型,以获得最佳结果。 |
language_codes[] |
可选。此字段现已弃用。首选 所提供音频的语言,以 BCP-47 语言标记形式表示。 支持的型号表格中列出了每种型号支持的语言。 如果提供了其他语言,识别结果将包含检测到的最可能语言的识别结果。识别结果将包括音频中检测到的语言的语言标记。创建或更新识别器时,这些值会以规范化的 BCP-47 形式存储。例如,“en-us”存储为“en-US”。 |
default_recognition_config |
用于此识别器的请求的默认配置。 |
annotations |
允许用户存储少量任意数据。键和值都不得超过 63 个字符。最多 100 条注释。 |
state |
仅限输出。识别器的生命周期状态。 |
create_time |
仅限输出。创建时间。 |
update_time |
仅限输出。相应识别器最近一次修改的时间。 |
delete_time |
仅限输出。相应识别器被请求删除的时间。 |
expire_time |
仅限输出。相应识别器的清除时间。 |
etag |
仅限输出。此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
reconciling |
仅限输出。相应识别器是否正在更新。 |
kms_key_name |
仅限输出。用于加密识别器的 KMS 密钥名称。格式应为 |
kms_key_version_name |
仅限输出。识别器加密所用的 KMS 密钥版本名称。格式应为 |
州
定义了识别器生命周期的一系列状态。
| 枚举 | |
|---|---|
STATE_UNSPECIFIED |
默认值。如果省略状态,则使用此值。 |
ACTIVE |
识别器处于有效状态,可供使用。 |
DELETED |
此识别器已被删除。 |
SpeakerDiarizationConfig
用于启用讲话人区分功能的配置。
| 字段 | |
|---|---|
min_speaker_count |
可选。系统会自动确定讲话人数量。此值目前未使用。 |
max_speaker_count |
可选。系统会自动确定讲话人数量。此值目前未使用。 |
SpeechAdaptation
为语音识别器提供“提示”以支持结果中的特定字词和短语。 PhraseSet 可以指定为内嵌资源,也可以指定为对现有 PhraseSet 资源的引用。
| 字段 | |
|---|---|
phrase_sets[] |
内嵌或引用的 PhraseSet 的列表。 |
custom_classes[] |
内嵌 CustomClass 的列表。您可以在 PhraseSet 中直接引用现有的 CustomClass 资源。 |
AdaptationPhraseSet
一种偏向性 PhraseSet,可以是引用现有 PhraseSet 资源名称的字符串,也可以是 PhraseSet 的内嵌定义。
| 字段 | |
|---|---|
联合字段
|
|
phrase_set |
现有 PhraseSet 资源的名称。用户必须具有对资源的读取访问权限,且资源不得被删除。 |
inline_phrase_set |
内嵌定义的 PhraseSet。 |
SpeechRecognitionAlternative
备用假设(又称为 n 最佳列表)。
| 字段 | |
|---|---|
transcript |
表示用户所说字词的转录文本。 |
confidence |
介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段仅针对非流式结果的首选备用内容或 |
words[] |
每个已识别字词的字词特定信息列表。设置 |
SpeechRecognitionResult
对应于音频的一部分的语音识别结果。
| 字段 | |
|---|---|
alternatives[] |
可以包含一个或多个识别假设。这些备用内容由识别器按照准确性进行排序,最前面的(第一个)备用内容是最有可能的。 |
channel_tag |
对于多声道音频,这是与识别出的音频所属声道相对应的声道编号。如果 |
result_end_offset |
此结果的结束相对于音频开头的时间偏移。 |
language_code |
仅限输出。此结果中语言的 BCP-47 语言标记。检测到该语言代码表示音频中最有可能使用的是该语言。 |
SrtOutputFileFormatConfig
此类型没有字段。
输出配置:SubRip Text 格式的字幕文件。
StreamingRecognitionConfig
为 StreamingRecognize 请求提供配置信息。
| 字段 | |
|---|---|
config |
必需。用于自动语音识别的特征和音频元数据。此字段可与 |
config_mask |
|
streaming_features |
用于专门启用流式音频识别请求的语音识别功能。 |
StreamingRecognitionFeatures
可用于流式识别请求的特定识别功能。
| 字段 | |
|---|---|
enable_voice_activity_events |
如果值为 |
interim_results |
是否将临时结果流式传输到客户端。如果设置为 true,则会将临时结果流式传输到客户端。否则,系统只会流式传输最终响应。 |
voice_activity_timeout |
如果设置了此值,服务器会在发送最后一个 VOICE_ACTIVITY 语音事件后,经过指定时长后自动关闭数据流。 |
VoiceActivityTimeout
可针对语音活动设置超时的事件。
| 字段 | |
|---|---|
speech_start_timeout |
如果未开始说话,则使数据流超时的时长。如果设置了此参数,并且在数据流开始时,在此时长内未检测到任何语音,服务器将关闭数据流。 |
speech_end_timeout |
语音结束后的流超时时长。如果设置了此值,并且在检测到语音后,在此时长内未检测到语音,服务器将关闭数据流。 |
StreamingRecognitionResult
对应于当前正在处理的音频的一部分的流式语音识别结果。
| 字段 | |
|---|---|
alternatives[] |
可以包含一个或多个识别假设。这些备用内容由识别器按照准确性进行排序,最前面的(第一个)备用内容是最有可能的。 |
is_final |
如果为 |
stability |
对识别器不会改变对此临时结果的猜测的可能性估计。值范围为 0.0(完全不稳定)到 1.0(完全稳定)。此字段仅适用于临时结果 ( |
result_end_offset |
此结果的结束相对于音频开头的时间偏移。 |
channel_tag |
对于多声道音频,这是与识别出的音频所属声道相对应的声道编号。如果 |
language_code |
仅限输出。此结果中语言的 BCP-47 语言标记。检测到该语言代码表示音频中最有可能使用的是该语言。 |
StreamingRecognizeRequest
针对 StreamingRecognize 方法的请求消息。在一次调用中发送多条 StreamingRecognizeRequest 消息。
如果 recognizer 引用的 Recognizer 包含完全指定的请求配置,则该流可能仅包含仅设置了 audio 的消息。
否则,第一条消息必须包含 recognizer 和 streaming_config 消息,这两条消息共同完整指定请求配置,且不得包含 audio。后续的所有消息都必须仅设置 audio。
| 字段 | |
|---|---|
recognizer |
必需。识别期间要使用的识别器的名称。格式应为 |
联合字段
|
|
streaming_config |
在此识别尝试中要使用的 StreamingRecognitionConfig。如果提供,则会替换识别器中存储的默认 RecognitionConfig。 |
audio |
要识别的内嵌音频字节。此字段的大小上限为每个请求 15 KB。 |
StreamingRecognizeResponse
StreamingRecognizeResponse 是 StreamingRecognize 返回给客户端的唯一消息。一系列零个或零个以上 StreamingRecognizeResponse 消息将流式传输回客户端。如果没有可识别的音频,则不会向客户端流式返回任何消息。
以下示例展示了处理音频时可能返回的一些 StreamingRecognizeResponse:
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
注意:
在上述响应中,只有两条响应(第 4 条和第 7 条)包含最终结果,由
is_final: true表示。将这些响应连接在一起即可获得完整的转录内容:“to be or not to be that is the question”。其他响应包含临时
results。第 3 条和第 6 条包含两个临时results:第一部分稳定性高,不太可能改变;第二部分稳定性低,很可能会改变。界面设计人员可能会选择仅显示高稳定性results。上面显示的特定
stability和confidence值仅用于说明目的。实际值可能会有所不同。在每个响应中,只会设置以下字段之一:
error、speech_event_type或一个或多个(重复)results。
| 字段 | |
|---|---|
results[] |
该重复列表包含零个或零个以上结果,这些结果对应于当前正在处理的音频的连续部分。它包含零个或一个 |
speech_event_type |
表示语音事件的类型。 |
speech_event_offset |
音频开头与发出事件之时的时间偏移。 |
metadata |
有关识别的元数据。 |
SpeechEventType
表示语音事件的类型。
| 枚举 | |
|---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
未指定语音事件。 |
END_OF_SINGLE_UTTERANCE |
该事件表明服务器已经检测到用户所说话语结束,并且预计不会有额外的语音。因此,服务器不会处理额外的音频,并将关闭 gRPC 双向流。仅当因提前检测到静音而强制中断时,系统才会发送此事件。此活动仅通过 latest_short model 提供。 |
SPEECH_ACTIVITY_BEGIN |
此事件表示服务器已检测到数据流中人类语音活动的开始。如果语音在整个数据流中反复开始和停止,则此事件可能会多次返回。仅当 voice_activity_events 设置为 true 时,系统才会发送此事件。 |
SPEECH_ACTIVITY_END |
此事件表示服务器已检测到数据流中人类语音活动的结束。如果语音在整个数据流中反复开始和停止,则此事件可能会多次返回。仅当 voice_activity_events 设置为 true 时,系统才会发送此事件。 |
TranscriptNormalization
转写内容标准化配置。使用转写内容标准化功能自动将转写内容的部分内容替换为您选择的短语。对于 StreamingRecognize,此归一化仅适用于稳定的部分转写(稳定性 > 0.8)和最终转写。
| 字段 | |
|---|---|
entries[] |
替换条目的列表。我们将一次替换一个条目。例如,["cat" => "dog", "mountain cat" => "mountain dog"] 中的第二个条目永远不会被应用,因为我们始终会先处理第一个条目。最多 100 个条目。 |
条目
单个替换配置。
| 字段 | |
|---|---|
search |
要替换的内容。长度上限为 100 个字符。 |
replace |
要替换为的内容。长度上限为 100 个字符。 |
case_sensitive |
搜索是否区分大小写。 |
TranslationConfig
翻译配置。用于将给定的音频翻译成所需语言的文本。
| 字段 | |
|---|---|
target_language |
必需。要翻译成的语言的代码。 |
UndeleteCustomClassRequest
对 UndeleteCustomClass 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要取消删除的 CustomClass 的名称。格式: |
validate_only |
如果进行了设置,则验证请求并预览未删除的 CustomClass,但不会实际取消删除。 |
etag |
此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
UndeletePhraseSetRequest
对 UndeletePhraseSet 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要恢复的 PhraseSet 的名称。格式: |
validate_only |
如果进行了设置,则验证请求并预览未删除的 PhraseSet,但不会实际取消删除。 |
etag |
此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
UndeleteRecognizerRequest
对 UndeleteRecognizer 方法的请求消息。
| 字段 | |
|---|---|
name |
必需。要恢复的识别器的名称。格式: |
validate_only |
如果进行了设置,则验证请求并预览未删除的识别器,但不会实际取消删除该识别器。 |
etag |
此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。 |
UpdateConfigRequest
对 UpdateConfig 方法的请求消息。
| 字段 | |
|---|---|
config |
必需。要更新的配置。 配置的 |
update_mask |
要更新的字段的列表。 |
UpdateCustomClassRequest
对 UpdateCustomClass 方法的请求消息。
| 字段 | |
|---|---|
custom_class |
必需。要更新的 CustomClass。 CustomClass 的 |
update_mask |
要更新的字段的列表。如果为空,则系统会考虑更新所有字段。 |
validate_only |
如果进行了设置,则验证请求并预览更新后的 CustomClass,但不会实际更新它。 |
UpdatePhraseSetRequest
对 UpdatePhraseSet 方法的请求消息。
| 字段 | |
|---|---|
phrase_set |
必需。要更新的 PhraseSet。 PhraseSet 的 |
update_mask |
要更新的字段的列表。如果为空,则系统会考虑更新所有非默认值字段。使用 |
validate_only |
如果进行了设置,则验证请求并预览更新后的 PhraseSet,但不会实际更新它。 |
UpdateRecognizerRequest
对 UpdateRecognizer 方法的请求消息。
| 字段 | |
|---|---|
recognizer |
必需。要更新的识别器。 识别器的 |
update_mask |
要更新的字段的列表。如果为空,则系统会考虑更新所有非默认值字段。使用 |
validate_only |
如果进行了设置,则验证请求并预览更新后的识别器,但不会实际更新识别器。 |
VttOutputFileFormatConfig
此类型没有字段。
WebVTT 格式的字幕文件的输出配置。
WordInfo
已识别字词的字词特定信息。
| 字段 | |
|---|---|
start_offset |
相对于音频开头的时间偏移,并且对应于所说字词的开头。此字段仅在 |
end_offset |
相对于音频开头的时间偏移,并且对应于所说字词的末尾。此字段仅在 |
word |
对应于该组信息的字词。 |
confidence |
介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段仅针对非流式结果的首选备用内容或 |
speaker_label |
为音频中的每位发言者分配一个不同的标签。此字段指定检测哪个讲话人说出了此字词。如果提供了 |