בדף הזה מוסבר איך לתמלל קובץ אודיו קצר לטקסט באמצעות זיהוי דיבור סינכרוני.
זיהוי דיבור סינכרוני מחזיר את הטקסט שזוהה עבור אודיו קצר (פחות מ-60 שניות). כדי לעבד בקשה לזיהוי דיבור של אודיו שאורכו יותר מ-60 שניות, צריך להשתמש ב-Asynchronous Speech Recognition.
אפשר לשלוח תוכן אודיו ישירות אל Cloud Speech-to-Text מקובץ מקומי, או ש-Cloud Speech-to-Text יכול לעבד תוכן אודיו שמאוחסן בקטגוריה של Cloud Storage. בדף המכסות והמגבלות מפורטות המגבלות על בקשות סינכרוניות לזיהוי דיבור.
ביצוע זיהוי דיבור סינכרוני בקובץ מקומי
הדוגמה הבאה מציגה ביצוע של זיהוי דיבור סינכרוני בקובץ אודיו מקומי:
REST
פרטים נוספים זמינים בנקודת קצה ל-API של speech:recognize. מידע נוסף על הגדרת גוף הבקשה מופיע במאמרי העזרה בנושא RecognitionConfig.
תוכן האודיו שמועבר בגוף הבקשה חייב להיות בקידוד Base64.
כאן אפשר לקרוא מידע נוסף על קידוד base64 של אודיו. מידע נוסף על השדה content מופיע במאמר RecognitionAudio.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- LANGUAGE_CODE: קוד BCP-47 של השפה שמדוברת בקטע האודיו.
- ENCODING: הקידוד של האודיו שרוצים לתמלל.
- SAMPLE_RATE_HERTZ: קצב הדגימה בהרץ של האודיו שרוצים לתמלל.
- ENABLE_WORD_TIME_OFFSETS: מפעילים את השדה הזה אם רוצים לקבל את ההיסטים (חותמות הזמן) של תחילת המילה וסוף המילה.
- INPUT_AUDIO: מחרוזת בקידוד base64 של נתוני האודיו שרוצים לתמלל.
- PROJECT_ID: המזהה האלפאנומרי של הפרויקט ב- Google Cloud .
ה-method של ה-HTTP וכתובת ה-URL:
POST https://speech.googleapis.com/v2/speech:recognize
תוכן בקשת JSON:
{
"config": {
"languageCode": "LANGUAGE_CODE",
"encoding": "ENCODING",
"sampleRateHertz": SAMPLE_RATE_HERTZ,
"enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS
},
"audio": {
"content": "INPUT_AUDIO"
}
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}
gcloud
פרטים נוספים זמינים בפקודה recognize.
כדי לבצע זיהוי דיבור בקובץ מקומי, משתמשים ב-Google Cloud CLI ומעבירים את הנתיב של הקובץ המקומי שרוצים לבצע בו זיהוי דיבור.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
אם הבקשה מצליחה, השרת מחזיר תגובה בפורמט JSON:
{
"results": [
{
"alternatives": [
{
"confidence": 0.9840146,
"transcript": "how old is the Brooklyn Bridge"
}
]
}
]
}Go
מידע על התקנה ושימוש בספריית הלקוח של Cloud STT מופיע במאמר ספריות הלקוח של Cloud STT. מידע נוסף מופיע במאמרי העזרה של Cloud STT Go API.
כדי לבצע אימות ב-Cloud STT, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע על התקנה ושימוש בספריית הלקוח של Cloud STT מופיע במאמר ספריות הלקוח של Cloud STT. מידע נוסף מופיע במאמרי העזרה של Cloud STT Java API.
כדי לבצע אימות ב-Cloud STT, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
מידע על התקנה ושימוש בספריית הלקוח של Cloud STT מופיע במאמר ספריות הלקוח של Cloud STT. מידע נוסף מופיע במאמרי העזרה של Cloud STT Node.js API.
כדי לבצע אימות ב-Cloud STT, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
מידע על התקנה ושימוש בספריית הלקוח של Cloud STT מופיע במאמר ספריות הלקוח של Cloud STT. מידע נוסף מופיע במאמרי העזרה של Cloud STT Python API.
כדי לבצע אימות ב-Cloud STT, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
שפות נוספות
C#: צריך לפעול לפי הוראות ההגדרה של C# בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud STT ל- .NET.
PHP: צריך לפעול לפי הוראות ההגדרה של PHP בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud STT ל-PHP.
Ruby: פועלים לפי הוראות ההגדרה של Ruby בדף של ספריות הלקוח, ואז עוברים אל מאמרי העזרה של Cloud STT ל-Ruby.
ביצוע זיהוי דיבור סינכרוני בקובץ מרוחק
לנוחיותכם, Cloud Speech-to-Text API יכול לבצע זיהוי דיבור סינכרוני ישירות בקובץ אודיו שנמצא ב-Cloud Storage, בלי שתצטרכו לשלוח את התוכן של קובץ האודיו בגוף הבקשה.
דוגמה לביצוע זיהוי דיבור סינכרוני בקובץ שנמצא ב-Cloud Storage:
REST
פרטים נוספים זמינים בנקודת קצה ל-API של speech:recognize. מידע נוסף על הגדרת גוף הבקשה מופיע במאמרי העזרה בנושא RecognitionConfig.
תוכן האודיו שמועבר בגוף הבקשה חייב להיות בקידוד Base64.
כאן אפשר לקרוא מידע נוסף על קידוד base64 של אודיו. מידע נוסף על השדה content מופיע במאמר RecognitionAudio.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- LANGUAGE_CODE: קוד BCP-47 של השפה שמדוברת בקטע האודיו.
- ENCODING: הקידוד של האודיו שרוצים לתמלל.
- SAMPLE_RATE_HERTZ: קצב הדגימה בהרץ של האודיו שרוצים לתמלל.
- ENABLE_WORD_TIME_OFFSETS: מפעילים את השדה הזה אם רוצים לקבל את ההיסטים (חותמות הזמן) של תחילת המילה וסוף המילה.
- STORAGE_BUCKET: קטגוריה של Cloud Storage.
- INPUT_AUDIO: קובץ נתוני האודיו שרוצים לתמלל.
- PROJECT_ID: המזהה האלפאנומרי של הפרויקט ב- Google Cloud .
ה-method של ה-HTTP וכתובת ה-URL:
POST https://speech.googleapis.com/v2/speech:recognize
תוכן בקשת JSON:
{
"config": {
"languageCode": "LANGUAGE_CODE",
"encoding": "ENCODING",
"sampleRateHertz": SAMPLE_RATE_HERTZ,
"enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS
},
"audio": {
"uri": "gs://STORAGE_BUCKET/INPUT_AUDIO"
}
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}
gcloud
פרטים נוספים זמינים בפקודה recognize.
כדי לבצע זיהוי דיבור בקובץ מקומי, משתמשים ב-Google Cloud CLI ומעבירים את הנתיב של הקובץ המקומי שרוצים לבצע בו זיהוי דיבור.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
אם הבקשה מצליחה, השרת מחזיר תגובה בפורמט JSON:
{
"results": [
{
"alternatives": [
{
"confidence": 0.9840146,
"transcript": "how old is the Brooklyn Bridge"
}
]
}
]
}Go
מידע על התקנה ושימוש בספריית הלקוח של Cloud STT מופיע במאמר ספריות הלקוח של Cloud STT. מידע נוסף מופיע במאמרי העזרה של Cloud STT Go API.
כדי לבצע אימות ב-Cloud STT, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע על התקנה ושימוש בספריית הלקוח של Cloud STT מופיע במאמר ספריות הלקוח של Cloud STT. מידע נוסף מופיע במאמרי העזרה של Cloud STT Java API.
כדי לבצע אימות ב-Cloud STT, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
מידע על התקנה ושימוש בספריית הלקוח של Cloud STT מופיע במאמר ספריות הלקוח של Cloud STT. מידע נוסף מופיע במאמרי העזרה של Cloud STT Node.js API.
כדי לבצע אימות ב-Cloud STT, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
מידע על התקנה ושימוש בספריית הלקוח של Cloud STT מופיע במאמר ספריות הלקוח של Cloud STT. מידע נוסף מופיע במאמרי העזרה של Cloud STT Python API.
כדי לבצע אימות ב-Cloud STT, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
שפות נוספות
C#: צריך לפעול לפי הוראות ההגדרה של C# בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud STT ל- .NET.
PHP: צריך לפעול לפי הוראות ההגדרה של PHP בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud STT ל-PHP.
Ruby: פועלים לפי הוראות ההגדרה של Ruby בדף של ספריות הלקוח, ואז עוברים אל מאמרי העזרה של Cloud STT ל-Ruby.