‫Google משתמשת בטכנולוגיית AI כדי לתרגם תוכן לשפה המועדפת עליך. בתרגומים כאלו עשויות להיות שגיאות.

השוואה בין מודלים של תמלול

בדף הזה נסביר איך להשתמש במודל ספציפי של למידת מכונה לבקשות תמלול אודיו ל-Cloud Speech-to-Text.

בחירת מודל התמלול המתאים

‫Cloud Speech-to-Text מזהה מילים בקטע אודיו על ידי השוואת הקלט לאחד מתוך הרבה מודלים של למידת מכונה. כל מודל אומן על ידי ניתוח של מיליוני דוגמאות – במקרה הזה, הקלטות אודיו רבות של אנשים מדברים.

ל-Cloud STT יש מודלים ייעודיים שאומנו על אודיו ממקורות ספציפיים. המודלים האלה מספקים תוצאות טובות יותר כשמחילים אותם על נתוני אודיו דומים לנתונים שעליהם הם אומנו.

בטבלה הבאה מוצגים מודלים של תמלול שאפשר להשתמש בהם עם Cloud Speech-to-Text API V2.

שם הדגם	תיאור
`chirp_3`	אתם יכולים להשתמש בדור האחרון של מודלים גנרטיביים ספציפיים לזיהוי דיבור אוטומטי (ASR) רב-לשוני של Google, שנועדו לענות על הצרכים של המשתמשים שלכם על סמך משוב וניסיון. ‫Chirp 3 מספק דיוק ומהירות משופרים בהשוואה למודלים קודמים של Chirp, וכולל תכונות של חלוקה לדוברים וזיהוי שפה אוטומטי.
`chirp_2`	אתם יכולים להשתמש במודל הדיבור הגדול האוניברסלי (USM) שמופעל על ידי טכנולוגיית מודל השפה הגדול (LLM) שלנו לסטרימינג ולעיבוד באצווה, ומספק תמלילים ותרגומים בתוכן לשוני מגוון ויכולות רב-לשוניות.
`telephony`	משתמשים במודל הזה לאודיו שמגיע משיחה טלפונית, שבדרך כלל מוקלט בתדירות דגימה של 8kHz. האפשרות הזו מומלצת לשירות לקוחות, לוועידות טלפוניות ולאפליקציות קיוסק אוטומטיות.

בחירת מודל לתמלול אודיו

כדי לתמלל קטעי אודיו קצרים (עד 60 שניות), זיהוי סינכרוני היא השיטה הפשוטה ביותר. הוא מעבד את האודיו ומחזיר את תוצאת התמליל המלאה בתשובה אחת אחרי שכל האודיו עבר עיבוד.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

כדי לתמלל קובצי אודיו שאורכם יותר מ-60 שניות או לתמלל אודיו בזמן אמת, אפשר להשתמש באחת מהשיטות הבאות:

זיהוי אצווה: מתאים במיוחד לתמלול של קובצי אודיו ארוכים (מדקות ועד שעות) שמאוחסנים בקטגוריה של Cloud Storage. זו פעולה אסינכרונית. מידע נוסף על זיהוי אצווה זמין במאמר זיהוי אצווה.

זיהוי בסטרימינג: מתאים במיוחד להקלטה ולתמלול של אודיו בזמן אמת, למשל מפיד של מיקרופון או משידור חי. מידע נוסף על זיהוי בסטרימינג זמין במאמר זיהוי בסטרימינג.

המאמרים הבאים

איך מתמללים אודיו בסטרימינג
איך מתמללים קובצי אודיו ארוכים
איך מתמללים קובצי אודיו קצרים
לשיפור הביצועים והדיוק, ולקבלת טיפים נוספים, אפשר לעיין במסמכי התיעוד בנושא שיטות מומלצות.

השוואה בין מודלים של תמלול קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

בחירת מודל התמלול המתאים

בחירת מודל לתמלול אודיו

Python

המאמרים הבאים

השוואה בין מודלים של תמלול