本頁面由 Cloud Translation API 翻譯而成。

比較轉錄模型

本頁面說明如何使用特定的機器學習模型，向 Cloud 語音轉文字提出音訊轉錄要求。

選取合適的轉錄模型

Cloud 語音轉文字會將輸入內容與機器學習「模型」進行比較，藉此偵測音訊剪輯內的字詞。每個模型都經過訓練，分析過數百萬名說話者的錄音內容。

Cloud STT 的特殊模型是使用特定來源的音訊進行訓練。當您將這些模型運用至類似的音訊資料時，就能獲得更好的結果。

下表說明可與 Cloud Speech-to-Text API V2 搭配使用的轉錄模型。

模型名稱	說明
`chirp_3`	根據意見回饋和體驗，使用最新一代的 Google 多語言自動語音辨識 (ASR) 專用生成模型，滿足使用者的需求。Chirp 3 的準確度和速度都比先前的 Chirp 模型更出色，並提供說話者區分和自動語言偵測功能。
`chirp_2`	使用通用大型語音模型 (USM)，透過大型語言模型 (LLM) 技術進行串流和批次處理，並提供各種語言內容的轉錄稿和翻譯，以及多語言功能。
`telephony`	這個模型適用於電話語音，錄音取樣率通常為 8 kHz。非常適合用於客戶服務、電話會議和自動化資訊站應用程式。

選擇用於音訊轉錄的模型

如要轉錄短音訊片段 (不超過 60 秒)，最簡單的方法是使用同步辨識。系統會處理音訊，並在處理完所有音訊後，以單一回應傳回完整轉錄結果。

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

如要轉錄超過 60 秒的音訊檔案，或即時轉錄音訊，請使用下列其中一種方法：

批次辨識：適合轉錄儲存在 Cloud Storage bucket 中的長音訊檔案 (幾分鐘到幾小時)。這是一項非同步作業。如要進一步瞭解批次辨識，請參閱「批次辨識」。

串流辨識：非常適合即時擷取及轉錄音訊，例如麥克風輸入或直播。如要進一步瞭解串流辨識，請參閱「串流辨識」。

後續步驟

瞭解如何轉錄串流音訊。
瞭解如何轉錄長音訊檔案。
瞭解如何轉錄短音訊檔案。
如要獲得最佳效能、準確率與其他提示，請參閱最佳做法說明文件。

比較轉錄模型 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

選取合適的轉錄模型

選擇用於音訊轉錄的模型

Python

後續步驟

比較轉錄模型