Package google.cloud.speech.v2

索引

语音

能够进行语音转写和资源管理。

BatchRecognize

rpc BatchRecognize(BatchRecognizeRequest) returns (Operation)

执行批量异步语音识别:发送包含 N 个音频文件的请求,并接收长时间运行的操作(可以轮询该操作以查看转写完成时间)。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 recognizer 资源的以下 IAM 权限:

  • speech.recognizers.recognize

如需了解详情,请参阅 IAM 文档

CreateCustomClass

rpc CreateCustomClass(CreateCustomClassRequest) returns (Operation)

创建 CustomClass

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 parent 资源的以下 IAM 权限:

  • speech.customClasses.create

如需了解详情,请参阅 IAM 文档

CreatePhraseSet

rpc CreatePhraseSet(CreatePhraseSetRequest) returns (Operation)

创建 PhraseSet

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 parent 资源的以下 IAM 权限:

  • speech.phraseSets.create

如需了解详情,请参阅 IAM 文档

CreateRecognizer

rpc CreateRecognizer(CreateRecognizerRequest) returns (Operation)

创建 Recognizer

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 parent 资源的以下 IAM 权限:

  • speech.recognizers.create

如需了解详情,请参阅 IAM 文档

DeleteCustomClass

rpc DeleteCustomClass(DeleteCustomClassRequest) returns (Operation)

删除 CustomClass

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.customClasses.delete

如需了解详情,请参阅 IAM 文档

DeletePhraseSet

rpc DeletePhraseSet(DeletePhraseSetRequest) returns (Operation)

删除 PhraseSet

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.phraseSets.delete

如需了解详情,请参阅 IAM 文档

DeleteRecognizer

rpc DeleteRecognizer(DeleteRecognizerRequest) returns (Operation)

删除 Recognizer

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.recognizers.delete

如需了解详情,请参阅 IAM 文档

GetConfig

rpc GetConfig(GetConfigRequest) returns (Config)

返回所请求的 Config

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.config.get

如需了解详情,请参阅 IAM 文档

GetCustomClass

rpc GetCustomClass(GetCustomClassRequest) returns (CustomClass)

返回所请求的 CustomClass

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.customClasses.get

如需了解详情,请参阅 IAM 文档

GetPhraseSet

rpc GetPhraseSet(GetPhraseSetRequest) returns (PhraseSet)

返回所请求的 PhraseSet

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.phraseSets.get

如需了解详情,请参阅 IAM 文档

GetRecognizer

rpc GetRecognizer(GetRecognizerRequest) returns (Recognizer)

返回所请求的 Recognizer。如果请求的识别器不存在,则会失败并显示 NOT_FOUND

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.recognizers.get

如需了解详情,请参阅 IAM 文档

ListCustomClasses

rpc ListCustomClasses(ListCustomClassesRequest) returns (ListCustomClassesResponse)

列出 CustomClass。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 parent 资源的以下 IAM 权限:

  • speech.customClasses.list

如需了解详情,请参阅 IAM 文档

ListPhraseSets

rpc ListPhraseSets(ListPhraseSetsRequest) returns (ListPhraseSetsResponse)

列出 PhraseSet。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 parent 资源的以下 IAM 权限:

  • speech.phraseSets.list

如需了解详情,请参阅 IAM 文档

ListRecognizers

rpc ListRecognizers(ListRecognizersRequest) returns (ListRecognizersResponse)

列出识别器。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 parent 资源的以下 IAM 权限:

  • speech.recognizers.list

如需了解详情,请参阅 IAM 文档

识别

rpc Recognize(RecognizeRequest) returns (RecognizeResponse)

执行同步语音识别:在发送和处理完所有音频后接收结果。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 recognizer 资源的以下 IAM 权限:

  • speech.recognizers.recognize

如需了解详情,请参阅 IAM 文档

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

执行双向流式语音识别:在发送音频时接收结果。此方法只能通过 gRPC API 使用,REST 不支持此方法。

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 recognizer 资源的以下 IAM 权限:

  • speech.recognizers.recognize

如需了解详情,请参阅 IAM 文档

UndeleteCustomClass

rpc UndeleteCustomClass(UndeleteCustomClassRequest) returns (Operation)

取消删除 CustomClass

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.customClasses.undelete

如需了解详情,请参阅 IAM 文档

UndeletePhraseSet

rpc UndeletePhraseSet(UndeletePhraseSetRequest) returns (Operation)

取消删除 PhraseSet

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.phraseSets.undelete

如需了解详情,请参阅 IAM 文档

UndeleteRecognizer

rpc UndeleteRecognizer(UndeleteRecognizerRequest) returns (Operation)

取消删除 Recognizer

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.recognizers.undelete

如需了解详情,请参阅 IAM 文档

UpdateConfig

rpc UpdateConfig(UpdateConfigRequest) returns (Config)

更新 Config

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.config.update

如需了解详情,请参阅 IAM 文档

UpdateCustomClass

rpc UpdateCustomClass(UpdateCustomClassRequest) returns (Operation)

更新 CustomClass

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.customClasses.update

如需了解详情,请参阅 IAM 文档

UpdatePhraseSet

rpc UpdatePhraseSet(UpdatePhraseSetRequest) returns (Operation)

更新 PhraseSet

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.phraseSets.update

如需了解详情,请参阅 IAM 文档

UpdateRecognizer

rpc UpdateRecognizer(UpdateRecognizerRequest) returns (Operation)

更新 Recognizer

授权范围

需要以下 OAuth 范围:

  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅 Authentication Overview

IAM 权限

需要拥有 name 资源的以下 IAM 权限:

  • speech.recognizers.update

如需了解详情,请参阅 IAM 文档

AccessMetadata

特定区域的访问权限元数据。如果给定项目的组织政策不允许使用特定区域,则可以应用此政策。

字段
constraint_type

ConstraintType

介绍所应用的不同类型的限制条件。

ConstraintType

介绍可应用于区域的不同类型的限制。

枚举
CONSTRAINT_TYPE_UNSPECIFIED 应用了未指定的限制条件。
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT 项目的组织政策不允许使用指定区域。

AutoDetectDecodingConfig

此类型没有字段。

自动检测到的解码参数。支持以下编码:

  • WAV_LINEAR16:WAV 容器中的 16 位有符号小端字节序 PCM 样本。

  • WAV_MULAW:WAV 容器中的 8 位压缩 mulaw 样本。

  • WAV_ALAW:WAV 容器中的 8 位压缩 alaw 样本。

  • RFC4867_5_AMR:带有 rfc4867.5 标头的 AMR 帧。

  • RFC4867_5_AMRWB:带有 rfc4867.5 标头的 AMR-WB 帧。

  • FLAC:采用“原生 FLAC”容器格式的 FLAC 帧。

  • MP3:带有可选(忽略)ID3 元数据的 MPEG 音频帧。

  • OGG_OPUS:Ogg 容器中的 Opus 音频帧。

  • WEBM_OPUS:WebM 容器中的 Opus 音频帧。

  • MP4_AAC:MP4 容器中的 AAC 音频帧。

  • M4A_AAC:M4A 容器中的 AAC 音频帧。

  • MOV_AAC:MOV 容器中的 AAC 音频帧。

BatchRecognizeFileMetadata

BatchRecognize 批处理中单个文件的元数据。

字段
config

RecognitionConfig

用于自动语音识别的特征和音频元数据。此字段可与 config_mask 字段结合使用,以在请求级替换识别器资源的 default_recognition_config 的部分内容以及 config

config_mask

FieldMask

config 中的字段列表,用于在此识别请求期间替换识别器的 default_recognition_config 中的值。如果未提供掩码,则 config 中的所有非默认值字段都将替换此识别请求所使用的识别器中的值。如果提供了掩码,则只有掩码中列出的字段才会替换此识别请求所使用的识别器中的配置。如果提供了通配符 (*),则 config 将完全替换此识别请求所使用的识别器中的配置。

联合字段 audio_source。音频源,即 Google Cloud Storage URI。audio_source 只能是下列其中一项:
uri

string

音频文件的 Cloud Storage URI。

BatchRecognizeFileResult

单个文件的最终结果。

字段
error

Status

如果遇到错误,则为相应错误。

metadata

RecognitionResponseMetadata

uri
(deprecated)

string

已弃用。请改用 cloud_storage_result.native_format_uri

transcript
(deprecated)

BatchRecognizeResults

已弃用。请改用 inline_result.transcript

联合字段 result

result 只能是下列其中一项:

cloud_storage_result

CloudStorageResult

写入 Cloud Storage 的识别结果。仅当在 [RecognitionOutputConfig][google.cloud.speech.v2.RecognitionOutputConfig 中设置了 GcsOutputConfig 时,系统才会填充此字段。

inline_result

InlineResult

识别结果。仅当在 [RecognitionOutputConfig][google.cloud.speech.v2.RecognitionOutputConfig 中设置了 InlineOutputConfig 时,系统才会填充此字段。

BatchRecognizeMetadata

BatchRecognize 的操作元数据。

字段
transcription_metadata

map<string, BatchRecognizeTranscriptionMetadata>

从提供的文件名到相应文件的转写元数据的映射。

BatchRecognizeRequest

BatchRecognize 方法的请求消息。

字段
recognizer

string

必需。识别期间要使用的识别器的名称。格式应为 projects/{project}/locations/{location}/recognizers/{recognizer}。{recognizer} 段可以设置为 _,以使用空的隐式识别器。

config

RecognitionConfig

用于自动语音识别的特征和音频元数据。此字段可与 config_mask 字段结合使用,以替换识别器资源的部分 default_recognition_config

config_mask

FieldMask

config 中的字段列表,用于在此识别请求期间替换识别器的 default_recognition_config 中的值。如果未提供掩码,则 config 中的所有指定字段都将替换此识别请求所使用的识别器中的值。如果提供了掩码,则只有掩码中列出的字段才会替换此识别请求所使用的识别器中的配置。如果提供了通配符 (*),则 config 将完全替换此识别请求所使用的识别器中的配置。

files[]

BatchRecognizeFileMetadata

包含文件元数据的音频文件,用于 ASR。最多可指定 15 个文件。

recognition_output_config

RecognitionOutputConfig

用于配置每个文件的转写内容输出位置的选项。

processing_strategy

ProcessingStrategy

用于此请求的处理策略。

ProcessingStrategy

批量请求的可能处理策略。

枚举
PROCESSING_STRATEGY_UNSPECIFIED 处理策略的默认值。系统会在收到请求后立即处理。
DYNAMIC_BATCHING 如果选择此选项,系统会在利用率较低的期间处理请求,以享受价格折扣。请求会在 24 小时内得到处理。

BatchRecognizeResponse

封装到长时间运行的 Operation 中的 BatchRecognize 的响应消息。

字段
results

map<string, BatchRecognizeFileResult>

从文件名到相应文件的最终结果的映射。

total_billed_duration

Duration

相应请求的已结算音频秒数(如有)。

BatchRecognizeResults

BatchRecognize 转写的 Cloud Storage 输出类型。虽然此 proto 未在此 API 中返回,但 Cloud Storage 转写内容将是此 proto 的序列化版本,应按此方式进行解析。

字段
results[]

SpeechRecognitionResult

对应于音频中几个连续部分的转录结果的连续列表。

metadata

RecognitionResponseMetadata

有关识别的元数据。

BatchRecognizeTranscriptionMetadata

有关单个文件转写的元数据(例如,进度百分比)。

字段
progress_percent

int32

目前已转写多少文件内容。

error

Status

如果遇到错误,则为相应错误。

uri

string

将写入识别结果的 Cloud Storage URI。

CloudStorageResult

最终结果写入 Cloud Storage。

字段
uri

string

写入识别结果的 Cloud Storage URI。

vtt_format_uri

string

写入识别结果的 Cloud Storage URI(采用 VTT 格式的字幕)。仅当请求 VTT 输出时,系统才会填充此字段。

srt_format_uri

string

写入识别结果的 Cloud Storage URI(采用 SRT 格式的字幕)。仅当请求 SRT 输出时,系统才会填充此字段。

配置

表示 Speech-to-Text API 配置的消息。这包括一个可选的 KMS 密钥,传入的数据将使用该密钥进行加密。

字段
name

string

仅限输出。标识符。配置资源的名称。每个项目在每个位置都只有一个配置资源。格式应为 projects/{project}/locations/{location}/config

kms_key_name

string

可选。一个可选的 KMS 密钥名称,如果存在,将用于对 Speech-to-Text 资源进行静态加密。更新此密钥不会使用此密钥加密现有资源;只有新资源会使用此密钥加密。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}

update_time

Timestamp

仅限输出。相应资源最近一次修改的时间。

CreateCustomClassRequest

CreateCustomClass 方法的请求消息。

字段
custom_class

CustomClass

必需。要创建的 CustomClass。

validate_only

bool

如果进行了设置,则验证请求并预览 CustomClass,但不会实际创建该 CustomClass。

custom_class_id

string

要用于 CustomClass 的 ID,该 ID 将成为 CustomClass 资源名称的最后一个组成部分。

此值应为 4-63 个字符,有效字符为 /[a-z][0-9]-/。

parent

string

必需。将在其中创建此 CustomClass 的项目和位置。格式应为 projects/{project}/locations/{location}

CreatePhraseSetRequest

CreatePhraseSet 方法的请求消息。

字段
phrase_set

PhraseSet

必需。要创建的 PhraseSet。

validate_only

bool

如果进行了设置,则验证请求并预览 PhraseSet,但不会实际创建该 PhraseSet。

phrase_set_id

string

要用于 PhraseSet 的 ID,该 ID 将成为 PhraseSet 资源名称的最后一个组成部分。

此值应为 4-63 个字符,有效字符为 /[a-z][0-9]-/。

parent

string

必需。将创建此 PhraseSet 的项目和位置。格式应为 projects/{project}/locations/{location}

CreateRecognizerRequest

CreateRecognizer 方法的请求消息。

字段
recognizer

Recognizer

必需。要创建的识别器。

validate_only

bool

如果进行了设置,则验证请求并预览识别器,但不会实际创建识别器。

recognizer_id

string

要用于识别器的 ID,该 ID 将成为识别器资源名称的最后一个组成部分。

此值应为 4-63 个字符,有效字符为 /[a-z][0-9]-/。

parent

string

必需。将创建此识别器的项目和位置。格式应为 projects/{project}/locations/{location}

CustomClass

用于在语音识别中设置偏差的 CustomClass。用于定义一组可能出现在音频中的代表常见概念或主题的字词或短语,例如客轮名称列表。

字段
name

string

仅限输出。标识符。CustomClass 的资源名称。格式:projects/{project}/locations/{location}/customClasses/{custom_class}

uid

string

仅限输出。系统为 CustomClass 分配的唯一标识符。

display_name

string

可选。用户可设置的 CustomClass 的人类可读名称。不得超过 63 个字符。

items[]

ClassItem

类项的集合。

state

State

仅限输出。CustomClass 生命周期状态。

create_time

Timestamp

仅限输出。创建时间。

update_time

Timestamp

仅限输出。相应资源最近一次修改的时间。

delete_time

Timestamp

仅限输出。请求删除此资源的时间。

expire_time

Timestamp

仅限输出。相应资源将被清除的时间。

annotations

map<string, string>

可选。允许用户存储少量任意数据。键和值都不得超过 63 个字符。最多 100 条注释。

etag

string

仅限输出。此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

reconciling

bool

仅限输出。相应 CustomClass 是否正在更新。

kms_key_name

string

仅限输出。用于加密 CustomClass 的 KMS 密钥名称。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}

kms_key_version_name

string

仅限输出。用于加密 CustomClass 的 KMS 密钥版本名称。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}

ClassItem

相应类别的商品。

字段
value

string

类商品的值。

定义了 CustomClass 生命周期的一系列状态。

枚举
STATE_UNSPECIFIED 未指定状态。此值仅用于区分未设置的值。
ACTIVE 正常且有效状态。
DELETED 此 CustomClass 已被删除。

DeleteCustomClassRequest

DeleteCustomClass 方法的请求消息。

字段
name

string

必需。要删除的 CustomClass 的名称。格式:projects/{project}/locations/{location}/customClasses/{custom_class}

validate_only

bool

如果进行了设置,则验证请求并预览已删除的 CustomClass,但不会实际删除它。

allow_missing

bool

如果设为 true,并且未找到 CustomClass,则请求会成功,但不会执行任何操作(在这种情况下不会记录任何操作)。

etag

string

此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

DeletePhraseSetRequest

DeletePhraseSet 方法的请求消息。

字段
name

string

必需。要删除的 PhraseSet 的名称。格式:projects/{project}/locations/{location}/phraseSets/{phrase_set}

validate_only

bool

如果进行了设置,则验证请求并预览已删除的 PhraseSet,但不会实际删除它。

allow_missing

bool

如果设为 true,并且未找到 PhraseSet,则请求会成功,但不会执行任何操作(在这种情况下,不会记录任何操作)。

etag

string

此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

DeleteRecognizerRequest

DeleteRecognizer 方法的请求消息。

字段
name

string

必需。要删除的识别器的名称。格式:projects/{project}/locations/{location}/recognizers/{recognizer}

validate_only

bool

如果进行了设置,则验证请求并预览已删除的识别器,但不会实际删除该识别器。

allow_missing

bool

如果设为 true,并且未找到识别器,则请求会成功,但不会执行任何操作(在这种情况下,不会记录任何操作)。

etag

string

此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

DenoiserConfig

降噪器配置。可能不支持所有型号,也可能没有效果。

字段
denoise_audio

bool

在将音频发送到转写模型之前先对其进行降噪处理。

snr_threshold

float

降噪器的信噪比 (SNR) 阈值。这里的 SNR 是指语音信号的响度。如果音频的信噪比低于此阈值(意味着语音太小),则系统会阻止将该音频发送到转写模型。

如果 snr_threshold=0,则不会应用任何过滤条件。

ExplicitDecodingConfig

明确指定的解码参数。

字段
encoding

AudioEncoding

必需。发送以供识别的音频数据的编码。

sample_rate_hertz

int32

可选。发送进行识别的音频数据的采样率(单位为赫兹)。有效值包括:8000-48000,最佳值为 16000。为获得最佳效果,请将音频源的采样率设置为 16000 Hz。如果无法实现,则请使用音频源的原生采样率(而不是重新采样)。请注意,出于向后兼容性方面的考虑,此字段标记为“可选”。实际上是(并且一直都是)必需的。

audio_channel_count

int32

可选。发送进行识别的音频数据中存在的声道数量。请注意,出于向后兼容性方面的考虑,此字段标记为“可选”。实际上是(并且一直都是)必需的。

允许的最大值为 8。

AudioEncoding

支持的音频数据编码。

枚举
AUDIO_ENCODING_UNSPECIFIED 默认值。此值未使用。
LINEAR16 无标头的 16 位有符号小端字节序 PCM 样本。
MULAW 无标头的 8 位压缩 mulaw 样本。
ALAW 无标头的 8 位压缩 alaw 样本。
AMR 带有 rfc4867.5 标头的 AMR 帧。
AMR_WB 带有 rfc4867.5 标头的 AMR-WB 帧。
FLAC “原生 FLAC”容器格式中的 FLAC 帧。
MP3 带有可选(忽略)ID3 元数据的 MPEG 音频帧。
OGG_OPUS Ogg 容器中的 Opus 音频帧。
WEBM_OPUS WebM 容器中的 Opus 音频帧。
MP4_AAC MP4 容器中的 AAC 音频帧。
M4A_AAC M4A 容器中的 AAC 音频帧。
MOV_AAC MOV 容器中的 AAC 音频帧。

GcsOutputConfig

Cloud Storage 的输出配置。

字段
uri

string

将写入识别结果的 Cloud Storage URI 前缀。

GetConfigRequest

GetConfig 方法的请求消息。

字段
name

string

必需。要检索的配置的名称。每个项目在每个位置都只有一个配置资源。格式应为 projects/{project}/locations/{location}/config

GetCustomClassRequest

GetCustomClass 方法的请求消息。

字段
name

string

必需。要检索的 CustomClass 的名称。格式应为 projects/{project}/locations/{location}/customClasses/{custom_class}

GetPhraseSetRequest

GetPhraseSet 方法的请求消息。

字段
name

string

必需。要检索的 PhraseSet 的名称。格式应为 projects/{project}/locations/{location}/phraseSets/{phrase_set}

GetRecognizerRequest

GetRecognizer 方法的请求消息。

字段
name

string

必需。要检索的识别器的名称。格式应为 projects/{project}/locations/{location}/recognizers/{recognizer}

InlineOutputConfig

此类型没有字段。

内嵌回答的输出配置。

InlineResult

在识别响应中内嵌返回的最终结果。

字段
transcript

BatchRecognizeResults

音频文件的转写内容。

vtt_captions

string

音频文件的转写内容,以 VTT 格式的字幕呈现。仅当请求 VTT 输出时,系统才会填充此字段。

srt_captions

string

音频文件的转写内容,以 SRT 格式的字幕呈现。仅当请求 SRT 输出时,系统才会填充此字段。

LanguageMetadata

有关给定区域中可用语言区域的元数据。目前,这只是每个语言区域可用的模型

字段
models

map<string, ModelMetadata>

语言区域(语言代码)到模型的映射

ListCustomClassesRequest

ListCustomClasses 方法的请求消息。

字段
parent

string

必需。要列出的 CustomClass 资源的相应项目和位置。格式应为 projects/{project}/locations/{location}

page_size

int32

每次请求的结果数。有效的 page_size 范围为 0 到 100(含 0 和 100)。如果 page_size 为零或未指定,则将选择 5 作为页面大小。如果页面大小超过 100,则会强制转换为 100。请注意,调用返回的结果数量可能少于所请求的页面大小。

page_token

string

从之前的 ListCustomClasses 调用接收的页面令牌。利用其进行后续页面检索。

进行分页时,提供给 ListCustomClasses 的所有其他参数必须与提供页面令牌的调用匹配。

show_deleted

bool

是否显示已删除的资源。

ListCustomClassesResponse

ListCustomClasses 方法的响应消息。

字段
custom_classes[]

CustomClass

所请求的 CustomClass 的列表。

next_page_token

string

可作为 page_token 发送并用于检索下一页的令牌。如果省略此字段,则不存在后续页面。 此令牌会在 72 小时后过期。

ListPhraseSetsRequest

ListPhraseSets 方法的请求消息。

字段
parent

string

必需。要列出的 PhraseSet 资源的项目和位置。格式应为 projects/{project}/locations/{location}

page_size

int32

要返回的 PhraseSet 数量上限。服务返回的值可能小于此值。如果未指定,则最多返回 5 个 PhraseSet。最大值为 100;高于 100 的值将被强制转换为 100。

page_token

string

从之前的 ListPhraseSets 调用接收的页面令牌。利用其进行后续页面检索。

进行分页时,提供给 ListPhraseSets 的所有其他参数必须与提供页面令牌的调用匹配。

show_deleted

bool

是否显示已删除的资源。

ListPhraseSetsResponse

ListPhraseSets 方法的响应消息。

字段
phrase_sets[]

PhraseSet

所请求的 PhraseSet 的列表。

next_page_token

string

可作为 page_token 发送并用于检索下一页的令牌。如果省略此字段,则不存在后续页面。 此令牌会在 72 小时后过期。

ListRecognizersRequest

ListRecognizers 方法的请求消息。

字段
parent

string

必需。要列出的识别器的项目和位置。格式应为 projects/{project}/locations/{location}

page_size

int32

要返回的识别器数量上限。服务返回的值可能小于此值。如果未指定,则最多返回 5 个识别器。最大值为 100;高于 100 的值将被强制转换为 100。

page_token

string

从之前的 ListRecognizers 调用接收的页面令牌。利用其进行后续页面检索。

进行分页时,提供给 ListRecognizers 的所有其他参数必须与提供页面令牌的调用匹配。

show_deleted

bool

是否显示已删除的资源。

ListRecognizersResponse

ListRecognizers 方法的响应消息。

字段
recognizers[]

Recognizer

所请求的识别器列表。

next_page_token

string

可作为 page_token 发送并用于检索下一页的令牌。如果省略此字段,则不存在后续页面。 此令牌会在 72 小时后过期。

LocationsMetadata

STT V2 的 Locations API 的主要元数据。目前,这只是有关语言区域、模型和功能的元数据

字段
languages

LanguageMetadata

有关可用语言区域、模型和功能的信息,以语言区域 -> 模型 -> 功能的分层结构表示

access_metadata

AccessMetadata

有关相应区域和指定项目的访问元数据的信息。

ModelFeature

表示模型的单个功能。如果相应功能为 recognizer,则相应功能的 release_state 表示相应模型的 release_state

字段
feature

string

功能名称(注意:功能可以是 recognizer

release_state

string

功能的发布状态

ModelFeatures

表示属于模型的功能集合

字段
model_feature[]

ModelFeature

包含模型所有特征的重复字段

ModelMetadata

指定语言区域中给定区域内模型的相关元数据。目前,这只是模型的功能

字段
model_features

map<string, ModelFeatures>

模型名称 -> 相应模型的功能的映射

NativeOutputFileFormatConfig

此类型没有字段。

序列化 BatchRecognizeResults proto 的输出配置。

OperationMetadata

表示长时间运行的操作的元数据。

字段
create_time

Timestamp

操作的创建时间。

update_time

Timestamp

上次更新操作的时间。

resource

string

操作目标的资源路径。

method

string

触发操作的方法。

kms_key_name

string

用于加密操作内容的 KMS 密钥名称。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}

kms_key_version_name

string

用于加密操作内容的 KMS 密钥版本名称。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}

progress_percent

int32

操作的进度百分比。值的范围为 0-100。如果值为 100,则表示操作已完成。

联合字段 request。生成操作的请求。request 只能是下列其中一项:
batch_recognize_request

BatchRecognizeRequest

生成相应操作的 BatchRecognizeRequest。

create_recognizer_request

CreateRecognizerRequest

生成操作的 CreateRecognizerRequest。

update_recognizer_request

UpdateRecognizerRequest

生成操作的 UpdateRecognizerRequest。

delete_recognizer_request

DeleteRecognizerRequest

生成操作的 DeleteRecognizerRequest。

undelete_recognizer_request

UndeleteRecognizerRequest

生成相应操作的 UndeleteRecognizerRequest。

create_custom_class_request

CreateCustomClassRequest

生成相应操作的 CreateCustomClassRequest。

update_custom_class_request

UpdateCustomClassRequest

生成相应操作的 UpdateCustomClassRequest。

delete_custom_class_request

DeleteCustomClassRequest

生成相应操作的 DeleteCustomClassRequest。

undelete_custom_class_request

UndeleteCustomClassRequest

生成操作的 UndeleteCustomClassRequest。

create_phrase_set_request

CreatePhraseSetRequest

生成相应操作的 CreatePhraseSetRequest。

update_phrase_set_request

UpdatePhraseSetRequest

生成相应操作的 UpdatePhraseSetRequest。

delete_phrase_set_request

DeletePhraseSetRequest

生成相应操作的 DeletePhraseSetRequest。

undelete_phrase_set_request

UndeletePhraseSetRequest

生成相应操作的 UndeletePhraseSetRequest。

update_config_request
(deprecated)

UpdateConfigRequest

生成相应操作的 UpdateConfigRequest。

联合字段 metadata。每个 RPC 的特定元数据。metadata 只能是下列其中一项:
batch_recognize_metadata

BatchRecognizeMetadata

特定于 BatchRecognize 方法的元数据。

OutputFormatConfig

存储到 output 的结果的格式配置。

字段
native

NativeOutputFileFormatConfig

原生输出格式的配置。如果设置了此字段,或者未设置任何其他输出格式字段,则转写内容将以原生格式写入接收器。

vtt

VttOutputFileFormatConfig

VTT 输出格式的配置。如果设置了此字段,则系统会将转写内容以 VTT 格式写入接收器。

srt

SrtOutputFileFormatConfig

SRT 输出格式的配置。如果设置了此字段,则系统会将转写内容以 SRT 格式写入接收器。

PhraseSet

用于在语音识别中进行偏向的 PhraseSet。PhraseSet 用于为语音识别器提供“提示”,以支持结果中的特定字词和短语。

字段
name

string

仅限输出。标识符。PhraseSet 的资源名称。格式:projects/{project}/locations/{location}/phraseSets/{phrase_set}

uid

string

仅限输出。系统为 PhraseSet 分配的唯一标识符。

phrases[]

Phrase

字词和短语的列表。

boost

float

提示加成。正值会提高识别特定短语的概率,而不是其他发音类似的短语。提升越大,出现假正例识别的几率也越高。有效的 boost 值介于 0(不含)到 20 之间。我们建议您使用二分搜索方法来找到适合您使用情形的最佳值,并在请求中添加带提升和不带提升的短语。

display_name

string

用户可设置的 PhraseSet 人类可读名称。不得超过 63 个字符。

state

State

仅限输出。PhraseSet 生命周期状态。

create_time

Timestamp

仅限输出。创建时间。

update_time

Timestamp

仅限输出。相应资源最近一次修改的时间。

delete_time

Timestamp

仅限输出。请求删除此资源的时间。

expire_time

Timestamp

仅限输出。相应资源将被清除的时间。

annotations

map<string, string>

允许用户存储少量任意数据。键和值都不得超过 63 个字符。最多 100 条注释。

etag

string

仅限输出。此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

reconciling

bool

仅限输出。相应 PhraseSet 是否正在更新。

kms_key_name

string

仅限输出。用于加密 PhraseSet 的 KMS 密钥名称。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}

kms_key_version_name

string

仅限输出。用于加密 PhraseSet 的 KMS 密钥版本名称。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}

短语

Phrase 包含字词和短语“提示”,以便语音识别更有可能识别出它们。该字段可用于提高识别特定字词和短语的准确度,例如,在用户经常说出特定指令的情况下。该字段也可以用于向识别器的词汇表中添加更多字词。

列表项还可以包含 CustomClass 引用,其中包含表示自然语言中常见概念的字词组。

字段
value

string

短语本身。

boost

float

提示加成。替换在短语集级别设置的提升值。正值会提高识别特定短语的概率,而不是其他发音类似的短语。提升越大,出现假正例识别的几率也越高。负提升值对应于反偏差。未启用反偏差功能,因此负提升值会返回错误。提升值必须介于 0 到 20 之间。超出该范围的任何值都会返回错误。我们建议您使用二分搜索方法来找到适合您使用情形的最佳值,并在请求中添加带提升和不带提升的短语。

定义了 PhraseSet 生命周期的一系列状态。

枚举
STATE_UNSPECIFIED 未指定状态。此值仅用于区分未设置的值。
ACTIVE 正常且有效状态。
DELETED 相应 PhraseSet 已被删除。

RecognitionConfig

向识别器提供指定如何处理识别器请求的信息。

字段
model

string

可选。用于识别请求的模型。请选择最适合您网域的模型,以获得最佳结果。

如需了解如何选择要使用的模型,请参阅转写模型文档;如需了解每个区域支持的模型,请参阅支持的模型表格

language_codes[]

string

可选。所提供音频的语言,以 BCP-47 语言标记形式表示。语言标记在使用前会规范化为 BCP-47 格式,例如“en-us”会变为“en-US”。

支持的型号表格中列出了每种型号支持的语言。

如果提供了其他语言,识别结果将包含检测到的最可能语言的识别结果。识别结果将包括音频中检测到的语言的语言标记。

features

RecognitionFeatures

要启用的语音识别功能。

adaptation

SpeechAdaptation

一种语音自适应上下文,用于对特定字词和短语的识别器预测结果进行加权。

transcript_normalization

TranscriptNormalization

可选。使用转写内容标准化功能自动将转写内容的部分内容替换为您选择的短语。对于 StreamingRecognize,此归一化仅适用于稳定的部分转写(稳定性 > 0.8)和最终转写。

translation_config

TranslationConfig

可选。可选配置,用于自动将给定音频翻译成所需语言(适用于支持的模型)。

denoiser_config

DenoiserConfig

可选。可选的降噪器配置。可能不支持所有型号,也可能没有效果。

联合字段 decoding_config。要发送以进行识别的音频的解码参数。decoding_config 只能是下列其中一项:
auto_decoding_config

AutoDetectDecodingConfig

自动检测解码参数。首选支持的格式。

explicit_decoding_config

ExplicitDecodingConfig

明确指定的解码参数。如果使用无标头的 PCM 音频(linear16、mulaw、alaw),则为必需。

RecognitionFeatures

可用的识别功能。

字段
profanity_filter

bool

如果设置为 true,服务器将尝试过滤出不文明用语,并用星号替换每个过滤出的字词中除首字母外的所有字符,例如“f***”。如果设置为 false 或省略该值,则不会过滤不文明用语。

enable_word_time_offsets

bool

如果为 true,则首选结果将包含一个字词列表以及这些字词的开始和结束时间偏移(时间戳)。如果为 false,则不返回字词级的时间偏移信息。默认值为 false

enable_word_confidence

bool

如果为 true,则首选结果将包含一个字词列表以及这些字词的置信度。如果为 false,则不返回字词级的置信度信息。默认值为 false

enable_automatic_punctuation

bool

如果为 true,则在识别结果假设中添加标点符号。此功能仅适用于部分语言。默认值 false 不会在结果假设中添加标点符号。

enable_spoken_punctuation

bool

通话的语音标点符号行为。如果为 true,则在请求中将语音标点符号替换为相应的符号。例如,转写内容“how are you 英文问号”会变为“how are you?”。如需获得支持,请参阅 https://cloud.google.com/speech-to-text/docs/spoken-punctuation。如果为 false,则不会替换语音标点符号。

enable_spoken_emojis

bool

通话的语音表情符号行为。如果为 true,则针对请求添加语音表情符号格式。这会在最终转写内容中将语音表情符号替换为相应的 Unicode 符号。如果为 false,则不会替换语音表情符号。

multi_channel_mode

MultiChannelMode

识别多声道音频的模式。

diarization_config

SpeakerDiarizationConfig

用于启用讲话人区分功能的配置。如需启用讲话人区分功能,请将此字段设置为空的 SpeakerDiarizationConfig 消息。

max_alternatives

int32

要返回的识别假设数上限。服务器返回的数量可能少于 max_alternatives。有效值为 0-30。值为 01 时,将返回最多一个结果。如果省略,将最多返回一个。

MultiChannelMode

用于指定如何识别多声道音频的选项。

枚举
MULTI_CHANNEL_MODE_UNSPECIFIED 多声道模式的默认值。如果音频包含多个声道,则只会转写第一个声道;其他声道将被忽略。
SEPARATE_RECOGNITION_PER_CHANNEL 如果选中此选项,则所提供的音频中的每个声道都会单独转写。如果所选 modellatest_short,则无法选择此选项。

RecognitionOutputConfig

识别输出的配置选项。

字段
output_format_config

OutputFormatConfig

可选。存储到 output 的结果的格式配置。如果未指定,转写内容将仅以 NATIVE 格式写入。

联合字段 output

output 只能是下列其中一项:

gcs_output_config

GcsOutputConfig

如果填充了此消息,识别结果将写入所提供的 Google Cloud Storage URI。

inline_response_config

InlineOutputConfig

如果填充了此消息,则在操作完成时,识别结果会显示在操作的 BatchRecognizeResponse 消息中。仅当使用一个音频文件调用 BatchRecognize 时支持此功能。

RecognitionResponseMetadata

有关识别请求和响应的元数据。

字段
request_id

string

由 API 自动生成的全局请求标识符。

total_billed_duration

Duration

相应请求的已结算音频秒数(如有)。

RecognizeRequest

针对 Recognize 方法的请求消息。必须提供 contenturi。同时提供两者或两者都不提供会返回 INVALID_ARGUMENT。请参阅内容限制

字段
recognizer

string

必需。识别期间要使用的识别器的名称。格式应为 projects/{project}/locations/{location}/recognizers/{recognizer}。{recognizer} 段可以设置为 _,以使用空的隐式识别器。

config

RecognitionConfig

用于自动语音识别的特征和音频元数据。此字段可与 config_mask 字段结合使用,以替换识别器资源的部分 default_recognition_config

config_mask

FieldMask

config 中的字段列表,用于在此识别请求期间替换识别器的 default_recognition_config 中的值。如果未提供掩码,则 config 中的所有非默认值字段都将替换此识别请求所使用的识别器中的值。如果提供了掩码,则只有掩码中列出的字段才会替换此识别请求所使用的识别器中的配置。如果提供了通配符 (*),则 config 将完全替换此识别请求所使用的识别器中的配置。

联合字段 audio_source。音频源,可以是内嵌内容,也可以是 Google Cloud Storage URI。audio_source 只能是下列其中一项:
content

bytes

RecognitionConfig 中所指定的方式编码的音频数据字节。与所有字节字段一样,协议缓冲区使用纯二进制表示法,而 JSON 表示法使用 base64。

uri

string

指向一个文件的 URI,该文件包含 RecognitionConfig 中指定的音频数据字节。文件不得压缩(例如,不支持 gzip 格式的文件)。目前,仅支持 Google Cloud Storage URI,且必须使用以下格式指定:gs://bucket_name/object_name(其他 URI 格式返回 INVALID_ARGUMENT)。如需了解详情,请参阅请求 URI

RecognizeResponse

Recognize 方法的响应消息。

字段
results[]

SpeechRecognitionResult

对应于音频中几个连续部分的转录结果的连续列表。

metadata

RecognitionResponseMetadata

有关识别的元数据。

识别器

识别器消息。存储识别配置和元数据。

字段
name

string

仅限输出。标识符。识别器的资源名称。格式:projects/{project}/locations/{location}/recognizers/{recognizer}

uid

string

仅限输出。识别器的系统分配唯一标识符。

display_name

string

识别器的用户可设置的人类可读名称。不得超过 63 个字符。

model
(deprecated)

string

可选。此字段现已弃用。首选 RecognitionConfig 消息中的 model 字段。

用于识别请求的模型。请选择最适合您网域的模型,以获得最佳结果。

有关选择使用哪个模型的指导,请参阅转写模型文档;有关每个区域支持的模型,请参阅支持的模型表

language_codes[]
(deprecated)

string

可选。此字段现已弃用。首选 RecognitionConfig 消息中的 language_codes 字段。

所提供音频的语言,以 BCP-47 语言标记形式表示。

支持的型号表格中列出了每种型号支持的语言。

如果提供了其他语言,识别结果将包含检测到的最可能语言的识别结果。识别结果将包括音频中检测到的语言的语言标记。创建或更新识别器时,这些值会以规范化的 BCP-47 形式存储。例如,“en-us”存储为“en-US”。

default_recognition_config

RecognitionConfig

用于此识别器的请求的默认配置。RecognizeRequest.config 字段中的内嵌配置可能会覆盖此配置。

annotations

map<string, string>

允许用户存储少量任意数据。键和值都不得超过 63 个字符。最多 100 条注释。

state

State

仅限输出。识别器的生命周期状态。

create_time

Timestamp

仅限输出。创建时间。

update_time

Timestamp

仅限输出。相应识别器最近一次修改的时间。

delete_time

Timestamp

仅限输出。相应识别器被请求删除的时间。

expire_time

Timestamp

仅限输出。相应识别器的清除时间。

etag

string

仅限输出。此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

reconciling

bool

仅限输出。相应识别器是否正在更新。

kms_key_name

string

仅限输出。用于加密识别器的 KMS 密钥名称。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}

kms_key_version_name

string

仅限输出。识别器加密所用的 KMS 密钥版本名称。格式应为 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}

定义了识别器生命周期的一系列状态。

枚举
STATE_UNSPECIFIED 默认值。如果省略状态,则使用此值。
ACTIVE 识别器处于有效状态,可供使用。
DELETED 此识别器已被删除。

SpeakerDiarizationConfig

用于启用讲话人区分功能的配置。

字段
min_speaker_count

int32

可选。系统会自动确定讲话人数量。此值目前未使用。

max_speaker_count

int32

可选。系统会自动确定讲话人数量。此值目前未使用。

SpeechAdaptation

为语音识别器提供“提示”以支持结果中的特定字词和短语。 PhraseSet 可以指定为内嵌资源,也可以指定为对现有 PhraseSet 资源的引用。

字段
phrase_sets[]

AdaptationPhraseSet

内嵌或引用的 PhraseSet 的列表。

custom_classes[]

CustomClass

内嵌 CustomClass 的列表。您可以在 PhraseSet 中直接引用现有的 CustomClass 资源。

AdaptationPhraseSet

一种偏向性 PhraseSet,可以是引用现有 PhraseSet 资源名称的字符串,也可以是 PhraseSet 的内嵌定义。

字段

联合字段 value

value 只能是下列其中一项:

phrase_set

string

现有 PhraseSet 资源的名称。用户必须具有对资源的读取访问权限,且资源不得被删除。

inline_phrase_set

PhraseSet

内嵌定义的 PhraseSet。

SpeechRecognitionAlternative

备用假设(又称为 n 最佳列表)。

字段
transcript

string

表示用户所说字词的转录文本。

confidence

float

介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段仅针对非流式结果的首选备用内容或 is_final 设置为 true 的流式结果设置。此字段不能保证准确无误,也不能保证总会为用户提供。默认值 0.0 是一个标记值,表示未设置 confidence

words[]

WordInfo

每个已识别字词的字词特定信息列表。设置 SpeakerDiarizationConfig 后,您会看到音频开头的所有字词。

SpeechRecognitionResult

对应于音频的一部分的语音识别结果。

字段
alternatives[]

SpeechRecognitionAlternative

可以包含一个或多个识别假设。这些备用内容由识别器按照准确性进行排序,最前面的(第一个)备用内容是最有可能的。

channel_tag

int32

对于多声道音频,这是与识别出的音频所属声道相对应的声道编号。如果 audio_channel_count = N,则其输出值的范围可以从 1N

result_end_offset

Duration

此结果的结束相对于音频开头的时间偏移。

language_code

string

仅限输出。此结果中语言的 BCP-47 语言标记。检测到该语言代码表示音频中最有可能使用的是该语言。

SrtOutputFileFormatConfig

此类型没有字段。

输出配置:SubRip Text 格式的字幕文件。

StreamingRecognitionConfig

为 StreamingRecognize 请求提供配置信息。

字段
config

RecognitionConfig

必需。用于自动语音识别的特征和音频元数据。此字段可与 config_mask 字段结合使用,以替换识别器资源的部分 default_recognition_config

config_mask

FieldMask

config 中的字段列表,用于在此识别请求期间替换识别器的 default_recognition_config 中的值。如果未提供掩码,则 config 中的所有非默认值字段都将替换此识别请求所使用的识别器中的值。如果提供了掩码,则只有掩码中列出的字段才会替换此识别请求所使用的识别器中的配置。如果提供了通配符 (*),则 config 将完全替换此识别请求所使用的识别器中的配置。

streaming_features

StreamingRecognitionFeatures

用于专门启用流式音频识别请求的语音识别功能。

StreamingRecognitionFeatures

可用于流式识别请求的特定识别功能。

字段
enable_voice_activity_events

bool

如果值为 true,则系统会在检测到语音活动语音事件时立即返回包含这些事件的响应。

interim_results

bool

是否将临时结果流式传输到客户端。如果设置为 true,则会将临时结果流式传输到客户端。否则,系统只会流式传输最终响应。

voice_activity_timeout

VoiceActivityTimeout

如果设置了此值,服务器会在发送最后一个 VOICE_ACTIVITY 语音事件后,经过指定时长后自动关闭数据流。voice_activity_events 字段也必须设置为 true。

VoiceActivityTimeout

可针对语音活动设置超时的事件。

字段
speech_start_timeout

Duration

如果未开始说话,则使数据流超时的时长。如果设置了此参数,并且在数据流开始时,在此时长内未检测到任何语音,服务器将关闭数据流。

speech_end_timeout

Duration

语音结束后的流超时时长。如果设置了此值,并且在检测到语音后,在此时长内未检测到语音,服务器将关闭数据流。

StreamingRecognitionResult

对应于当前正在处理的音频的一部分的流式语音识别结果。

字段
alternatives[]

SpeechRecognitionAlternative

可以包含一个或多个识别假设。这些备用内容由识别器按照准确性进行排序,最前面的(第一个)备用内容是最有可能的。

is_final

bool

如果为 false,则此 StreamingRecognitionResult 表示可能会更改的临时结果。如果为 true,则表示语音服务返回此特定 StreamingRecognitionResult 的最后时间,识别器不会针对该部分转写内容和相应音频返回任何进一步的假设。

stability

float

对识别器不会改变对此临时结果的猜测的可能性估计。值范围为 0.0(完全不稳定)到 1.0(完全稳定)。此字段仅适用于临时结果 (is_final=false)。默认值 0.0 是一个标记值,表示未设置 stability

result_end_offset

Duration

此结果的结束相对于音频开头的时间偏移。

channel_tag

int32

对于多声道音频,这是与识别出的音频所属声道相对应的声道编号。如果 audio_channel_count = N,则其输出值的范围可以从 1N

language_code

string

仅限输出。此结果中语言的 BCP-47 语言标记。检测到该语言代码表示音频中最有可能使用的是该语言。

StreamingRecognizeRequest

针对 StreamingRecognize 方法的请求消息。在一次调用中发送多条 StreamingRecognizeRequest 消息。

如果 recognizer 引用的 Recognizer 包含完全指定的请求配置,则该流可能仅包含仅设置了 audio 的消息。

否则,第一条消息必须包含 recognizerstreaming_config 消息,这两条消息共同完整指定请求配置,且不得包含 audio。后续的所有消息都必须仅设置 audio

字段
recognizer

string

必需。识别期间要使用的识别器的名称。格式应为 projects/{project}/locations/{location}/recognizers/{recognizer}。{recognizer} 段可以设置为 _,以使用空的隐式识别器。

联合字段 streaming_request

streaming_request 只能是下列其中一项:

streaming_config

StreamingRecognitionConfig

在此识别尝试中要使用的 StreamingRecognitionConfig。如果提供,则会替换识别器中存储的默认 RecognitionConfig。

audio

bytes

要识别的内嵌音频字节。此字段的大小上限为每个请求 15 KB。

StreamingRecognizeResponse

StreamingRecognizeResponseStreamingRecognize 返回给客户端的唯一消息。一系列零个或零个以上 StreamingRecognizeResponse 消息将流式传输回客户端。如果没有可识别的音频,则不会向客户端流式返回任何消息。

以下示例展示了处理音频时可能返回的一些 StreamingRecognizeResponse

  1. results { alternatives { transcript: "tube" } stability: 0.01 }

  2. results { alternatives { transcript: "to be a" } stability: 0.01 }

  3. results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }

  4. results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }

  5. results { alternatives { transcript: " that's" } stability: 0.01 }

  6. results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }

  7. results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }

注意:

  • 在上述响应中,只有两条响应(第 4 条和第 7 条)包含最终结果,由 is_final: true 表示。将这些响应连接在一起即可获得完整的转录内容:“to be or not to be that is the question”。

  • 其他响应包含临时 results。第 3 条和第 6 条包含两个临时 results:第一部分稳定性高,不太可能改变;第二部分稳定性低,很可能会改变。界面设计人员可能会选择仅显示高稳定性 results

  • 上面显示的特定 stabilityconfidence 值仅用于说明目的。实际值可能会有所不同。

  • 在每个响应中,只会设置以下字段之一:errorspeech_event_type 或一个或多个(重复)results

字段
results[]

StreamingRecognitionResult

该重复列表包含零个或零个以上结果,这些结果对应于当前正在处理的音频的连续部分。它包含零个或一个 is_final=true 结果(新结算的部分),后跟零个或多个 is_final=false 结果(临时结果)。

speech_event_type

SpeechEventType

表示语音事件的类型。

speech_event_offset

Duration

音频开头与发出事件之时的时间偏移。

metadata

RecognitionResponseMetadata

有关识别的元数据。

SpeechEventType

表示语音事件的类型。

枚举
SPEECH_EVENT_TYPE_UNSPECIFIED 未指定语音事件。
END_OF_SINGLE_UTTERANCE 该事件表明服务器已经检测到用户所说话语结束,并且预计不会有额外的语音。因此,服务器不会处理额外的音频,并将关闭 gRPC 双向流。仅当因提前检测到静音而强制中断时,系统才会发送此事件。此活动仅通过 latest_short model 提供。
SPEECH_ACTIVITY_BEGIN 此事件表示服务器已检测到数据流中人类语音活动的开始。如果语音在整个数据流中反复开始和停止,则此事件可能会多次返回。仅当 voice_activity_events 设置为 true 时,系统才会发送此事件。
SPEECH_ACTIVITY_END 此事件表示服务器已检测到数据流中人类语音活动的结束。如果语音在整个数据流中反复开始和停止,则此事件可能会多次返回。仅当 voice_activity_events 设置为 true 时,系统才会发送此事件。

TranscriptNormalization

转写内容标准化配置。使用转写内容标准化功能自动将转写内容的部分内容替换为您选择的短语。对于 StreamingRecognize,此归一化仅适用于稳定的部分转写(稳定性 > 0.8)和最终转写。

字段
entries[]

Entry

替换条目的列表。我们将一次替换一个条目。例如,["cat" => "dog", "mountain cat" => "mountain dog"] 中的第二个条目永远不会被应用,因为我们始终会先处理第一个条目。最多 100 个条目。

条目

单个替换配置。

字段
search

string

要替换的内容。长度上限为 100 个字符。

replace

string

要替换为的内容。长度上限为 100 个字符。

case_sensitive

bool

搜索是否区分大小写。

TranslationConfig

翻译配置。用于将给定的音频翻译成所需语言的文本。

字段
target_language

string

必需。要翻译成的语言的代码。

UndeleteCustomClassRequest

UndeleteCustomClass 方法的请求消息。

字段
name

string

必需。要取消删除的 CustomClass 的名称。格式:projects/{project}/locations/{location}/customClasses/{custom_class}

validate_only

bool

如果进行了设置,则验证请求并预览未删除的 CustomClass,但不会实际取消删除。

etag

string

此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

UndeletePhraseSetRequest

UndeletePhraseSet 方法的请求消息。

字段
name

string

必需。要恢复的 PhraseSet 的名称。格式:projects/{project}/locations/{location}/phraseSets/{phrase_set}

validate_only

bool

如果进行了设置,则验证请求并预览未删除的 PhraseSet,但不会实际取消删除。

etag

string

此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

UndeleteRecognizerRequest

UndeleteRecognizer 方法的请求消息。

字段
name

string

必需。要恢复的识别器的名称。格式:projects/{project}/locations/{location}/recognizers/{recognizer}

validate_only

bool

如果进行了设置,则验证请求并预览未删除的识别器,但不会实际取消删除该识别器。

etag

string

此校验和由服务器根据其他字段的值计算得出。可在更新、取消删除和删除请求中发送,以确保客户端在继续操作之前具有最新值。

UpdateConfigRequest

UpdateConfig 方法的请求消息。

字段
config

Config

必需。要更新的配置。

配置的 name 字段用于标识要更新的配置。格式应为 projects/{project}/locations/{location}/config

update_mask

FieldMask

要更新的字段的列表。

UpdateCustomClassRequest

UpdateCustomClass 方法的请求消息。

字段
custom_class

CustomClass

必需。要更新的 CustomClass。

CustomClass 的 name 字段用于标识要更新的 CustomClass。格式:projects/{project}/locations/{location}/customClasses/{custom_class}

update_mask

FieldMask

要更新的字段的列表。如果为空,则系统会考虑更新所有字段。

validate_only

bool

如果进行了设置,则验证请求并预览更新后的 CustomClass,但不会实际更新它。

UpdatePhraseSetRequest

UpdatePhraseSet 方法的请求消息。

字段
phrase_set

PhraseSet

必需。要更新的 PhraseSet。

PhraseSet 的 name 字段用于标识要更新的 PhraseSet。格式:projects/{project}/locations/{location}/phraseSets/{phrase_set}

update_mask

FieldMask

要更新的字段的列表。如果为空,则系统会考虑更新所有非默认值字段。使用 * 更新整个 PhraseSet 资源。

validate_only

bool

如果进行了设置,则验证请求并预览更新后的 PhraseSet,但不会实际更新它。

UpdateRecognizerRequest

UpdateRecognizer 方法的请求消息。

字段
recognizer

Recognizer

必需。要更新的识别器。

识别器的 name 字段用于标识要更新的识别器。格式:projects/{project}/locations/{location}/recognizers/{recognizer}

update_mask

FieldMask

要更新的字段的列表。如果为空,则系统会考虑更新所有非默认值字段。使用 * 更新整个识别器资源。

validate_only

bool

如果进行了设置,则验证请求并预览更新后的识别器,但不会实际更新识别器。

VttOutputFileFormatConfig

此类型没有字段。

WebVTT 格式的字幕文件的输出配置。

WordInfo

已识别字词的字词特定信息。

字段
start_offset

Duration

相对于音频开头的时间偏移,并且对应于所说字词的开头。此字段仅在 enable_word_time_offsetstrue 时设置,且仅适用于首选假设。这是一项实验性功能,时间偏移的准确性可能会有所不同。

end_offset

Duration

相对于音频开头的时间偏移,并且对应于所说字词的末尾。此字段仅在 enable_word_time_offsetstrue 时设置,且仅适用于首选假设。这是一项实验性功能,时间偏移的准确性可能会有所不同。

word

string

对应于该组信息的字词。

confidence

float

介于 0.0 和 1.0 之间的置信度估计值。数字越高表示单词被正确识别的估计可能性越大。此字段仅针对非流式结果的首选备用内容或 is_final 设置为 true 的流式结果设置。此字段不能保证准确无误,也不能保证总会为用户提供。默认值 0.0 是一个标记值,表示未设置 confidence

speaker_label

string

为音频中的每位发言者分配一个不同的标签。此字段指定检测哪个讲话人说出了此字词。如果提供了 SpeakerDiarizationConfig,则设置 speaker_label,且仅适用于首选备用内容。