このページでは、Speech-to-Text の音声文字変換リクエストにおいて、特定の機械学習モデルを使用する方法について説明します。
適切な音声文字変換モデルを選択する
Speech-to-Text は、入力音声を多数の機械学習モデルのいずれか 1 つと比較して、音声クリップ内の単語を検出します。各モデルは、膨大な数のサンプル(この場合は人の会話に関する多数の音声録音)を分析することでトレーニングを行ってきました。
Speech-to-Text には、特定のソースの音声からトレーニングされた特殊なモデルがあります。これらのモデルは、トレーニングされたデータと同様の種類の音声データに適用した場合、より良い結果をもたらします。
次の表に、Speech-to-Text V2 API で使用可能な音声文字変換モデルを示します。
モデル名 | 説明 |
---|---|
chirp_3 |
フィードバックと経験に基づいてユーザーのニーズを満たすように設計された、Google の最新世代の多言語自動音声認識(ASR)専用生成モデルを使用します。Chirp 3 は、以前の Chirp モデルよりも精度と速度が向上しており、ダイアライゼーションと自動言語検出を提供します。 |
chirp_2 |
大規模言語モデル(LLM)技術を搭載したユニバーサル大規模音声モデル(USM)は、ストリーミングとバッチ、多様な言語コンテンツと多言語機能における音声文字変換と翻訳に使用します。 |
telephony |
このモデルは、電話の音声(通常は 8 kHz のサンプリング レートで録音)に使用します。カスタマー サービス、電話会議、自動キオスク アプリケーションに適しています。 |
音声文字変換のモデルを選択する
短い音声クリップ(60 秒未満)を文字に変換するには、同期認識が最も簡単な方法です。音声が処理されると、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、音声が処理された後に、
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
60 秒を超える音声ファイルの文字起こしや、リアルタイムでの音声の文字起こしを行うには、次のいずれかの方法を使用します。
- バッチ認識: Cloud Storage バケットに保存されている長い音声ファイル(数分~数時間)の文字起こしに最適です。これは非同期オペレーションです。バッチ認識の詳細については、バッチ認識をご覧ください。
- ストリーミング認識: マイクフィードやライブ ストリームなど、音声をリアルタイムでキャプチャして文字に変換する場合に最適です。ストリーミング認識の詳細については、ストリーミング認識をご覧ください。
次のステップ
- ストリーミング音声を文字に変換する方法を学習する。
- 長い音声ファイルを文字に変換する方法を学習する。
- 短い音声ファイルを文字に変換する方法を学習する。
- ベスト プラクティスのドキュメントで、最高のパフォーマンスと精度を実現するための方法やヒントを確認する。