本頁面說明如何使用特定的機器學習模型,向 Speech-to-Text 提出音訊轉錄要求。
選取合適的轉錄模型
Speech-to-Text 可以將輸入內容與機器學習「模型」進行比較,藉此偵測音訊剪輯內的字詞。每個模型都經過訓練,分析過數百萬名說話者的錄音內容。
Speech-to-Text 的特殊模型是使用特定來源的音訊進行訓練。當您將經過這類訓練程序的模型運用至類似的音訊資料時,就能獲得更好的結果。
下表說明可與 Speech-to-Text V2 API 搭配使用的轉錄模型。
模型名稱 | 說明 |
---|---|
chirp_3 |
根據意見回饋和體驗,使用最新一代的 Google 多語言自動語音辨識 (ASR) 專用生成模型,滿足使用者的需求。Chirp 3 的準確度和速度都比先前的 Chirp 模型更出色,並提供說話者區分和自動語言偵測功能。 |
chirp_2 |
使用通用大型語音模型 (USM),透過大型語言模型 (LLM) 技術進行串流和批次處理,並提供各種語言內容的轉錄稿和翻譯,以及多語言功能。 |
telephony |
這個模型適用於電話語音,錄音取樣率通常為 8 kHz。非常適合用於客戶服務、電話會議和自動化資訊站應用程式。 |
選擇用於音訊轉錄的模型
如要轉錄短音訊片段 (不超過 60 秒),最簡單的方法是使用同步辨識。系統會處理音訊,並在處理完所有音訊後,於單一回應中傳回完整轉錄結果。
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
如要轉錄超過 60 秒的音訊檔案,或即時轉錄音訊,請使用下列其中一種方法:
- 批次辨識:適合轉錄儲存在 Cloud Storage 值區中的長音訊檔 (幾分鐘到幾小時)。這項作業是非同步作業。如要進一步瞭解批次辨識,請參閱「批次辨識」。
- 串流辨識:非常適合即時擷取及轉錄音訊,例如麥克風輸入或直播。如要進一步瞭解串流辨識,請參閱「串流辨識」。