Halaman ini diterjemahkan oleh Cloud Translation API.

Membandingkan model transkripsi

Halaman ini menjelaskan cara menggunakan model machine learning tertentu untuk permintaan transkripsi audio ke Cloud Speech-to-Text.

Memilih model transkripsi yang tepat

Cloud Speech-to-Text mendeteksi kata-kata dalam klip audio dengan membandingkan input dengan salah satu dari banyak model machine learning. Setiap model telah dilatih dengan menganalisis jutaan contoh—dalam hal ini, rekaman audio orang berbicara dalam jumlah yang amat sangat banyak.

Cloud STT memiliki model khusus yang dilatih dari audio untuk sumber tertentu. Model ini memberikan hasil yang lebih baik saat diterapkan pada jenis data audio yang mirip dengan data yang digunakan untuk melatihnya.

Tabel berikut menunjukkan model transkripsi yang tersedia untuk digunakan dengan Cloud Speech-to-Text API V2.

Nama model	Deskripsi
`chirp_3`	Gunakan model generatif khusus Pengenalan Ucapan Otomatis (ASR) multibahasa generasi terbaru dari Google yang dirancang untuk memenuhi kebutuhan pengguna Anda berdasarkan masukan dan pengalaman. Chirp 3 memberikan akurasi dan kecepatan yang lebih baik dibandingkan model Chirp sebelumnya serta menyediakan diarisasi dan deteksi bahasa otomatis.
`chirp_2`	Gunakan Model Speech Besar Universal (USM) yang didukung oleh teknologi model bahasa besar (LLM) kami untuk streaming dan batch, serta menyediakan transkripsi dan terjemahan dalam konten linguistik yang beragam dan kemampuan multibahasa.
`telephony`	Gunakan model ini untuk audio yang berasal dari panggilan telepon audio, yang biasanya direkam pada frekuensi sampling 8 kHz. Ideal untuk layanan pelanggan, telekonferensi, dan aplikasi kios otomatis.

Memilih model untuk transkripsi audio

Untuk mentranskripsikan klip audio pendek (di bawah 60 detik), pengenalan sinkron adalah metode yang paling sederhana. API ini memproses audio Anda dan menampilkan hasil transkripsi lengkap dalam satu respons setelah semua audio diproses.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Untuk mentranskripsikan file audio yang berdurasi lebih dari 60 detik atau untuk mentranskripsikan audio secara real-time, Anda dapat menggunakan salah satu metode berikut:

Pengenalan batch: Ideal untuk mentranskripsikan file audio panjang (menit hingga jam) yang disimpan di bucket Cloud Storage. Ini adalah operasi asinkron. Untuk mempelajari pengenalan batch lebih lanjut, lihat Pengenalan Batch.

Pengenalan streaming: Sempurna untuk merekam dan mentranskripsikan audio secara real time, seperti dari feed mikrofon atau live stream. Untuk mempelajari lebih lanjut pengenalan streaming, lihat Pengenalan Streaming.

Langkah berikutnya

Pelajari cara mentranskripsikan audio streaming.
Pelajari cara mentranskripsi file audio panjang.
Pelajari cara mentranskripsikan file audio pendek.
Untuk performa terbaik, akurasi, dan tips lainnya, lihat dokumentasi praktik terbaik.

Membandingkan model transkripsi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Memilih model transkripsi yang tepat

Memilih model untuk transkripsi audio

Python

Langkah berikutnya

Membandingkan model transkripsi