השוואה בין מודלים של תמלול

בדף הזה מוסבר איך להשתמש במודל ספציפי של למידת מכונה לבקשות תמלול אודיו ל-Cloud Speech-to-Text.

בחירת מודל התמלול המתאים

‫Cloud Speech-to-Text מזהה מילים בקטע אודיו על ידי השוואת הקלט לאחד מתוך הרבה מודלים של למידת מכונה. כל מודל אומן על ידי ניתוח של מיליוני דוגמאות – במקרה הזה, הקלטות אודיו רבות מאוד של אנשים מדברים.

ל-Cloud STT יש מודלים ייעודיים שאומנו על אודיו ממקורות ספציפיים. המודלים האלה מספקים תוצאות טובות יותר כשמחילים אותם על נתוני אודיו דומים לנתונים שעליהם הם אומנו.

בטבלה הבאה מוצגים מודלים של תמלול שאפשר להשתמש בהם עם Cloud Speech-to-Text API V2.

שם הדגם תיאור
chirp_3 שימוש בדור האחרון של מודלים גנרטיביים ספציפיים לזיהוי דיבור אוטומטי (ASR) רב-לשוני של Google, שנועדו לענות על הצרכים של המשתמשים על סמך משוב וניסיון. ‫Chirp 3 מספק דיוק ומהירות משופרים בהשוואה למודלים קודמים של Chirp, וכולל תכונות של חלוקה לדוברים וזיהוי שפה אוטומטי.
chirp_2 השתמשו במודל הדיבור הגדול האוניברסלי (USM) שמבוסס על טכנולוגיית מודל השפה הגדול (LLM) שלנו לסטרימינג ולעיבוד באצווה, ומספק תמלילים ותרגומים בתוכן לשוני מגוון ויכולות רב-לשוניות.
telephony משתמשים במודל הזה לאודיו שמגיע משיחת טלפון, שבדרך כלל מוקלט בתדירות דגימה של 8kHz. אידיאלי לשירות לקוחות, לוועידות טלפוניות ולאפליקציות אוטומטיות לקיוסקים.

בחירת מודל לתמלול אודיו

כדי לתמלל קטעי אודיו קצרים (עד 60 שניות), השיטה הפשוטה ביותר היא זיהוי סינכרוני. הוא מעבד את האודיו ומחזיר את תוצאת התמליל המלאה בתשובה אחת אחרי שכל האודיו עבר עיבוד.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

כדי לתמלל קובצי אודיו שאורכם יותר מ-60 שניות או לתמלל אודיו בזמן אמת, אפשר להשתמש באחת מהשיטות הבאות:

  • זיהוי אצווה: מתאים לתמלול של קובצי אודיו ארוכים (מדקות ועד שעות) שמאוחסנים בקטגוריה של Cloud Storage. זו פעולה אסינכרונית. מידע נוסף על זיהוי אצווה
  1. זיהוי סטרימינג: מתאים במיוחד להקלטה ולתמלול של אודיו בזמן אמת, למשל מפיד של מיקרופון או משידור חי. מידע נוסף על זיהוי בסטרימינג זמין במאמר זיהוי בסטרימינג.

המאמרים הבאים