您可以指定 Speech-to-Text 为转录文本中的每个字词指示准确度(置信度)值。
字词级置信度
在 Speech-to-Text 转写音频片段时,也会测量响应的准确度。Speech-to-Text 发送的响应以介于 0.0 与 1.0 之间的数值表示整个转录请求的置信度。 以下代码示例展示了 Speech-to-Text 返回的一个示例置信度值。
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.96748614
}
]
}
]
}
除了整个转录的置信度之外,Speech-to-Text 还可以提供转录内各个字词的置信度。在这种情况下,响应会在转录中包含 WordInfo 详细信息,表明各个字词的置信度,如以下示例所示。
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98360395,
"words": [
{
"startTime": "0s",
"endTime": "0.300s",
"word": "how",
"confidence": SOME NUMBER
},
...
]
}
]
}
]
}
在请求中启用字词级置信度
以下代码段演示了如何使用本地和远程文件在发送给 Speech-to-Text 的转录请求中启用字词级置信度功能。
使用本地文件
协议
如需了解完整的详细信息,请参阅 speech:recognize API 端点。
如需执行同步语音识别,请发出 POST 请求并提供相应的请求正文。以下示例展示了一个使用 curl 发出的 POST 请求。该示例使用 Google Cloud CLI 生成访问令牌。如需了解如何安装 gcloud CLI,请参阅快速入门。
以下示例展示了如何使用 curl 发送 POST 请求,其中请求正文启用了字词级置信度。
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": true, "enableWordConfidence": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" } }' > word-level-confidence.txt
如果请求成功,服务器将返回一个 200 OK HTTP 状态代码以及 JSON 格式的响应(该响应会保存到名为 word-level-confidence.txt 的文件中)。
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98360395,
"words": [
{
"startTime": "0s",
"endTime": "0.300s",
"word": "how",
"confidence": 0.98762906
},
{
"startTime": "0.300s",
"endTime": "0.600s",
"word": "old",
"confidence": 0.96929157
},
{
"startTime": "0.600s",
"endTime": "0.800s",
"word": "is",
"confidence": 0.98271006
},
{
"startTime": "0.800s",
"endTime": "0.900s",
"word": "the",
"confidence": 0.98271006
},
{
"startTime": "0.900s",
"endTime": "1.100s",
"word": "Brooklyn",
"confidence": 0.98762906
},
{
"startTime": "1.100s",
"endTime": "1.500s",
"word": "Bridge",
"confidence": 0.98762906
}
]
}
],
"languageCode": "en-us"
}
]
}
Java
如需了解如何安装和使用 Speech-to-Text 客户端库,请参阅 Speech-to-Text 客户端库。 如需了解详情,请参阅 Speech-to-Text Java API 参考文档。
如需向 Speech-to-Text 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。
Node.js
如需了解如何安装和使用 Speech-to-Text 客户端库,请参阅 Speech-to-Text 客户端库。 如需了解详情,请参阅 Speech-to-Text Node.js API 参考文档。
如需向 Speech-to-Text 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。
Python
如需了解如何安装和使用 Speech-to-Text 客户端库,请参阅 Speech-to-Text 客户端库。 如需了解详情,请参阅 Speech-to-Text Python API 参考文档。
如需向 Speech-to-Text 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。
使用远程文件
Java
如需了解如何安装和使用 Speech-to-Text 客户端库,请参阅 Speech-to-Text 客户端库。 如需了解详情,请参阅 Speech-to-Text Java API 参考文档。
如需向 Speech-to-Text 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。
Node.js
如需了解如何安装和使用 Speech-to-Text 客户端库,请参阅 Speech-to-Text 客户端库。 如需了解详情,请参阅 Speech-to-Text Node.js API 参考文档。
如需向 Speech-to-Text 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。
Python
如需了解如何安装和使用 Speech-to-Text 客户端库,请参阅 Speech-to-Text 客户端库。 如需了解详情,请参阅 Speech-to-Text Python API 参考文档。
如需向 Speech-to-Text 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。