最新模型简介

Cloud Speech-to-Text API 中的“最新”模型标签提供对两个新模型标签的访问权限,您可以在指定模型字段时使用这些标签。这些模型旨在让您能够利用 Google 最新的语音技术和机器学习研究成果,并且与任何其他可用模型相比,它们能提供更高的语音识别准确率。但是,“最新”模型尚不支持其他可用模型支持的某些功能。

最新模型基于 Google 的 Conformer Speech Model 技术。如需了解详情,请参阅 Google 研究报告

要使用最新模型,需要大致了解如何使用 Cloud Speech-to-Text API 或其界面。

模型标识符

最新模型以两种不同的版本提供:

  • latest_short 模型适用于持续时间仅几秒的简短话语。它有助于捕获命令或其他单次定向语音使用场景。考虑使用 latest_short 而非 command_and_search 模型。

  • latest_long 模型适用于任何类型的长篇内容,例如媒体、自然言语和对话。考虑使用 latest_long 来代替 video,尤其是在目标语言不支持 video 的情况下。您还可以使用 latest_long 来代替 default 模型。

模型技术

最新模型的目标是直接引入最新的语音技术供 Google Cloud 用户使用。目前,最新模型基于 Google 的 Conformer Speech Model 技术,但未来可能会发生变化。如需了解详情,请参阅 Google 研究报告列表。

价格

latest_longlatest_short 模型按“标准”方案计费,其用量和费用与 command_and_searchdefault 模型相同。如需了解详情,请参阅价格

模型更新

最新模型基于快速发展的机器学习技术。因此,相较于其他模型,我们可能会更频繁地对最新模型执行更新。这些更新可能会添加额外的功能,也可能只是对准确率或延迟时间进行略微的改进。

语言

最新模型支持 20 多种语言和 50 多个变体。我们将持续添加更多语言,因此请参阅语言以获取最新列表。

功能支持和限制

支持的功能因语言而异。如需查看支持的功能的完整列表,请参阅语言

最新模型不支持以下功能:

  • 置信度分数 - API 会返回一个值,但该值并非真正的置信度分数。

模型服务等级协议

最新模型被视为 Cloud Speech-to-Text API 的正式版部分。因此,它们支持的功能在 V1 API 中提供,并且适用于正式版产品和功能享有的相同服务等级协议以及其他保护措施。