Membandingkan model transkripsi

Halaman ini menjelaskan cara menggunakan model machine learning tertentu untuk permintaan transkripsi audio ke Speech-to-Text.

Memilih model transkripsi yang tepat

Speech-to-Text mendeteksi kata-kata dalam klip audio dengan membandingkan input dengan salah satu dari banyak model machine learning. Setiap model telah dilatih dengan menganalisis jutaan contoh—dalam hal ini, rekaman audio orang berbicara dalam jumlah yang amat sangat banyak.

Speech-to-Text memiliki model khusus yang dilatih dari audio untuk sumber tertentu. Model semacam ini memberikan hasil yang lebih baik saat diterapkan pada jenis data audio yang mirip dengan data yang digunakan untuk melatihnya.

Tabel berikut menunjukkan model transkripsi yang tersedia untuk digunakan dengan Speech-to-Text V2 API.

Nama model Deskripsi
chirp_3 Gunakan model generatif khusus Pengenalan Ucapan Otomatis (ASR) multibahasa generasi terbaru dari Google yang dirancang untuk memenuhi kebutuhan pengguna Anda berdasarkan masukan dan pengalaman. Chirp 3 memberikan akurasi dan kecepatan yang lebih baik dibandingkan model Chirp sebelumnya serta menyediakan diarisasi dan deteksi bahasa otomatis.
chirp_2 Gunakan Model Speech Besar Universal (USM) yang didukung oleh teknologi model bahasa besar (LLM) kami untuk streaming dan batch, serta menyediakan transkripsi dan terjemahan dalam konten linguistik yang beragam dan kemampuan multibahasa.
telephony Gunakan model ini untuk audio yang berasal dari panggilan telepon audio, yang biasanya direkam pada frekuensi sampling 8 kHz. Ideal untuk layanan pelanggan, telekonferensi, dan aplikasi kios otomatis.

Memilih model untuk transkripsi audio

Untuk mentranskripsikan klip audio pendek (di bawah 60 detik), pengenalan sinkron adalah metode paling sederhana. Layanan ini memproses audio Anda dan menampilkan hasil transkripsi lengkap dalam satu respons setelah semua audio diproses.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Untuk mentranskripsikan file audio yang berdurasi lebih dari 60 detik atau untuk mentranskripsikan audio secara real-time, Anda dapat menggunakan salah satu metode berikut:

  • Pengenalan Batch: Ideal untuk mentranskripsikan file audio panjang (menit hingga jam) yang disimpan di bucket Cloud Storage. Ini adalah operasi asinkron. Untuk mempelajari pengenalan batch lebih lanjut, lihat Pengenalan Batch.
  1. Streaming Recognition: Sempurna untuk merekam dan mentranskripsi audio secara real time, seperti dari feed mikrofon atau live stream. Untuk mempelajari pengenalan streaming lebih lanjut, lihat Streaming Recognition.

Langkah berikutnya