音声文字変換モデルを比較する

このページでは、Cloud Speech-to-Text の音声文字変換リクエストにおいて、特定の ML モデルを使用する方法について説明します。

適切な音声文字変換モデルを選択する

Cloud Speech-to-Text は、多数の ML モデルのいずれか 1 つと入力を比較して、音声クリップ内の単語を検出します。各モデルは、膨大な数のサンプル（この場合は人の会話に関する多数の音声録音）を分析することでトレーニングを行ってきました。

Cloud STT には、特定のソースの音声からトレーニングされた特殊なモデルがあります。これらのモデルは、トレーニングされたデータと同様の種類の音声データに適用した場合、より良い結果をもたらします。

次の表に、Cloud Speech-to-Text API V2 で使用可能な音声文字変換モデルを示します。

モデル名	説明
`chirp_3`	フィードバックと経験に基づいてユーザーのニーズを満たすように設計された、Google の最新世代の多言語自動音声認識（ASR）専用生成モデルを使用します。Chirp 3 は、以前の Chirp モデルよりも精度と速度が向上しており、ダイアライゼーションと自動言語検出を提供します。
`chirp_2`	大規模言語モデル（LLM）技術を搭載したユニバーサル大規模音声モデル（USM）は、ストリーミングとバッチ、多様な言語コンテンツと多言語機能における音声文字変換と翻訳に使用します。
`telephony`	このモデルは、電話の音声から取得された音声（通常は 8 kHz のサンプリングレートで録音）に使用します。カスタマーサービス、電話会議、自動キオスクアプリケーションに適しています。

音声文字変換のモデルを選択する

短い音声クリップ（60 秒未満）を文字に変換するには、同期音声認識が最も簡単な方法です。音声が処理され、完全な音声文字変換結果がすべての音声が処理された後に 1 つのレスポンスで返されます。

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

60 秒を超える音声ファイルを文字変換する場合や、音声をリアルタイムで文字変換する場合は、次のいずれかの方法を使用します。

一括認識: Cloud Storage バケットに保存されている長い音声ファイル（数分から数時間）の文字変換に最適です。これは非同期オペレーションです。一括認識の詳細については、一括認識をご覧ください。

ストリーミング認識: マイクフィードやライブストリームなど、音声のリアルタイムでのキャプチャと文字変換に最適です。ストリーミング認識の詳細については、ストリーミング認識をご覧ください。

次のステップ

ストリーミング音声を文字に変換する方法を学習する。
長い音声ファイルを文字に変換する方法を学習する。
短い音声ファイルを文字に変換する方法を学習する。
ベストプラクティスのドキュメントで、最高のパフォーマンスと精度を実現するための方法やヒントを確認する。

音声文字変換モデルを比較する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

適切な音声文字変換モデルを選択する

音声文字変換のモデルを選択する

Python

次のステップ

音声文字変換モデルを比較する