Menggunakan transkripsi dengan Speech-to-Text Chirp 3

Chirp 3, model generatif khusus Pengenalan Ucapan Otomatis (ASR) multi-bahasa generasi terbaru dari Google yang ditawarkan oleh Speech-to-Text (STT) API v2 Google Cloud, tersedia untuk Transkripsi suara.

Siapkan

Ikuti langkah-langkah berikut untuk mengaktifkan transkripsi dengan Speech-to-Text Chirp 3.

Konsol

Saat Anda membuat atau memperbarui profil percakapan menggunakan konsol Agent Assist, ikuti langkah-langkah berikut untuk mengonfigurasi setelan Speech-to-Text agar menggunakan model Chirp 3.

  1. Klik Profil percakapan.
  2. Klik nama profil Anda.
  3. Buka bagian Speech to Text Config.
  4. Pilih Chirp 3 untuk model.
  5. (Opsional) Pilih Use Long Form Model for AA Telephony SipRec Integration jika audio ditransmisikan melalui Integrasi Telepon.
  6. (Opsional) Konfigurasi Kode Bahasa dan hingga satu Kode Bahasa Alternatif untuk transkripsi yang dibatasi bahasa.
  7. (Opsional) Konfigurasi auto sebagai kode bahasa untuk transkripsi agnostik bahasa.
  8. (Opsional) Konfigurasi Frasa untuk adaptasi ucapan guna meningkatkan akurasi dengan adaptasi model.

REST API

Anda dapat memanggil API secara langsung untuk membuat atau memperbarui profil percakapan. Aktifkan STT V2 dengan kolom ConversationProfile.sttConfig.useSttV2, seperti yang ditunjukkan dalam contoh berikut. Contoh Konfigurasi:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

Praktik terbaik

Ikuti saran berikut untuk mengoptimalkan transkripsi suara dengan model Chirp 3.

Streaming audio

Untuk memaksimalkan performa Chirp 3, kirim audio hampir secara real time. Artinya, jika Anda memiliki audio berdurasi X detik, streaming audio tersebut dalam waktu sekitar X detik. Bagi audio Anda menjadi beberapa bagian kecil, masing-masing dengan ukuran frame 100 md. Untuk mengetahui praktik terbaik streaming audio lainnya, lihat dokumentasi Speech-to-Text.

Menggunakan adaptasi ucapan

Gunakan transkripsi dengan adaptasi ucapan Chirp 3 hanya dengan frasa inline yang dikonfigurasi di profil percakapan.

Dukungan wilayah dan bahasa

Chirp 3 tersedia untuk semua bahasa Speech-to-Text dengan kesiapan peluncuran yang berbeda, dan di semua wilayah Agent Assist kecuali northamerica-northeast1, northamerica-northeast2, dan asia-south1.

Kuota

Jumlah permintaan transkripsi menggunakan model Chirp 3 dibatasi oleh kuota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion dengan chirp_3 yang diberi label sebagai jenis resource. Lihat Google Cloud panduan kuota untuk mengetahui informasi tentang penggunaan kuota dan cara meminta penambahan kuota.

Untuk kuota, permintaan transkripsi ke endpoint Dialogflow global berada di region us-central1.