יצירה וניהול של מערכי נתונים
מערך נתונים מכיל דוגמאות מייצגות של סוג התוכן שרוצים לתרגם, כזוגות תואמים של פלחים בשפת המקור ובשפת היעד. מערך הנתונים משמש כקלט לאימון מודל.
פרויקט יכול לכלול כמה מערכי נתונים, וכל אחד מהם יכול לשמש לאימון מודל נפרד.
יצירת מערך נתונים
יוצרים מערך נתונים שיכיל את נתוני האימון של המודל. כשיוצרים מערך נתונים, מציינים את שפות המקור והיעד של נתוני האימון. מידע נוסף על השפות הנתמכות והגרסאות שלהן זמין במאמר שפות נתמכות במודלים בהתאמה אישית.
ממשק משתמש באינטרנט
במסוף Cloud Translation אפשר ליצור מערך נתונים חדש ולייבא אליו פריטים.נכנסים למסוף Cloud Translation.
בחלונית הניווט, לוחצים על Datasets (מערכי נתונים).
בדף Datasets (מערכי נתונים), לוחצים על Create dataset (יצירת מערך נתונים).
בתיבת הדו-שיח Create dataset (יצירת מערך נתונים), מציינים את הפרטים של מערך הנתונים:
- מזינים שם לקבוצת הנתונים.
- בוחרים את שפת המקור ושפת היעד מהרשימות הנפתחות.
- לוחצים על יצירה.
REST
בדוגמה הבאה אפשר לראות איך לשלוח בקשתPOST למתודה project.locations.datasets/create.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
- LOCATION: האזור שבו ימוקם מערך הנתונים, למשל
us-central1. - DATASET_NAME: שם של מערך הנתונים.
- SOURCE_LANG_CODE: קוד השפה שמציין את שפת המקור של מערך הנתונים.
- TARGET_LANG_CODE: קוד השפה שמציין את שפת היעד של מערך הנתונים.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
תוכן בקשת JSON:
{
"display_name": "DATASET_NAME",
"source_language_code": "SOURCE_LANG_CODE",
"target_language_code": "TARGET_LANG_CODE"
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}
שפות נוספות
C#: פועלים לפי הוראות ההגדרה של C# בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation בנושא .NET.
PHP: צריך לפעול לפי הוראות ההגדרה של PHP בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud Translation ל-PHP.
Ruby: פועלים לפי הוראות ההגדרה של Ruby בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation ל-Ruby.
ייבוא פלחים למערך נתונים
אחרי שיוצרים מערך נתונים, אפשר לייבא אליו זוגות של פלחים. פרטים על הכנת נתוני המקור זמינים במאמר בנושא הכנת נתונים לאימון.
לכל קובץ, Google Cloud המסוף מאפשר לתייג זוגות של פלחים מיובאים באמצעות צמד אחד או יותר של מפתח/ערך. התיוג מאפשר למצוא ולסנן פלחים לפי מקור בקלות רבה יותר. לדוגמה, צמד מפתח/ערך יכול להיות Domain:costmetics או Year:2020.
אפשר להוסיף תגים כשמייבאים פלחים דרך Google Cloud המסוף, אבל אי אפשר להוסיף תגים דרך ה-API. בנוסף, אי אפשר לשנות תגים או להוסיף תגים לפלחים שכבר יובאו.
ממשק משתמש באינטרנט
השלבים הבאים מיועדים לייבוא פריטים למערך נתונים קיים.
נכנסים למסוף Cloud Translation.
בחלונית הניווט, לוחצים על Datasets (מערכי נתונים).
ברשימת מערכי הנתונים, לוחצים על השם של מערך הנתונים שרוצים להוסיף לו נתוני אימון.
עוברים לכרטיסייה ייבוא.
מוסיפים קבצים לייבוא של זוגות פלחים לאימון המודל.
מעלים קבצים מהמחשב המקומי לקטגוריה של Cloud Storage או בוחרים קבצים קיימים מ-Cloud Storage.
כברירת מחדל, Cloud Translation מפצל את הנתונים באופן אוטומטי לקבוצות אימון, אימות ובדיקה. אם רוצים להעלות קבצים נפרדים לכל פיצול, בוחרים באפשרות Use separate files for training, validation, and testing (advanced) (שימוש בקבצים נפרדים לאימון, לאימות ולבדיקה (מתקדם)). אפשר להשתמש באפשרות הזו אם מערך הנתונים כולל יותר מ-100,000 זוגות של פלחים, כדי לא לחרוג מהמגבלה המקסימלית של 10,000 זוגות של פלחים עבור קבוצות האימות והבדיקה.
כדי להוסיף תגים לזוגות של פלחים, מרחיבים את הקטע תגים (אופציונלי).
ברשימת הקבצים, לוחצים על עריכה כדי להוסיף תג אחד או יותר לכל זוגות הפלחים בקובץ נתון.
בחלונית Tags, לוחצים על Add tag.
מזינים מפתח וערך. תוכלו לסנן פלחים לפי צמד המפתח/ערך הזה.
כדי להוסיף עוד תגים, לוחצים על הוספת תג.
כשמסיימים להוסיף תגים, לוחצים על המשך.
לוחצים על המשך כדי לייבא זוגות של פלחים.
אחרי שהייבוא מסתיים, אפשר לראות את זוגות המשפטים המיובאים בכרטיסייה משפטים של מערך הנתונים. אפשר לסנן פלחים לפי פיצול (אימון, אימות או בדיקה) ולפי תג אחד או יותר.
REST
משתמשים בשיטהprojects.locations.datasets.importData כדי לייבא פריטים לקבוצת נתונים.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
- LOCATION: האזור שבו ימוקם מערך הנתונים, למשל
us-central1. - DATASET_ID: המזהה של מערך הנתונים שאליו רוצים להוסיף נתונים.
- FILE_DISPLAY_NAME: שם הקובץ שמכיל את הנתונים לייבוא.
- USAGE: מציין את פיצול הנתונים עבור זוגות הפלחים האלה (
TRAIN,VALIDATIONאוTEST). - FILE_PATH: הנתיב לקובץ נתוני המקור ב-Cloud Storage.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
תוכן בקשת JSON:
{
"input_config": {
"input_files": [
{
"display_name": "FILE_DISPLAY_NAME",
"usage": "USAGE",
"gcs_source": {
"input_uris": "gs://FILE_PATH"
}
},
...
]
}
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
שפות נוספות
C#: פועלים לפי הוראות ההגדרה של C# בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation בנושא .NET.
PHP: צריך לפעול לפי הוראות ההגדרה של PHP בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud Translation ל-PHP.
Ruby: פועלים לפי הוראות ההגדרה של Ruby בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation ל-Ruby.
אחרי שיוצרים את מערך הנתונים ומאכלסים אותו, אפשר לאמן מודל. למידע נוסף, קראו את המאמר יצירה וניהול של מודלים.
בעיות בייבוא
כשיוצרים מערך נתונים, יכול להיות ש-Cloud Translation ישמיט זוגות של פלחים אם הם ארוכים מדי, אם הפלחים בשפות המקור והיעד זהים (לא מתורגמים) או אם יש כפילויות (כמה פלחים עם אותו טקסט בשפת המקור).
אם יש פלחים ארוכים מדי, מומלץ לפצל אותם לפלחים של כ-200 מילים או פחות, ואז ליצור מחדש את מערך הנתונים. מגבלת 200 המילים היא אומדן לאורך המקסימלי. במהלך עיבוד הנתונים, Cloud Translation משתמש בתהליך פנימי כדי ליצור טוקניזציה של נתוני הקלט, מה שיכול להגדיל את גודל הפלחים. הנתונים האלה שעברו טוקניזציה הם מה שמשמש את Cloud Translation למדידת גודל הנתונים.
אם יש זוגות של פלחים זהים, צריך להסיר אותם ממערך הנתונים. אם רוצים למנוע תרגום של חלק מהפלחים, אפשר להשתמש במילון מונחים כדי ליצור מילון מותאם אישית.
ייצוא נתונים
אתם יכולים לייצא זוגות של פלחים ממערכי נתונים קיימים לקטגוריה של Cloud Storage.
ממשק משתמש באינטרנט
נכנסים למסוף Cloud Translation.
בחלונית הניווט, לוחצים על Datasets (מערכי נתונים) כדי לראות רשימה של מערכי הנתונים.
לוחצים על השם של מערך הנתונים שרוצים לייצא ממנו נתונים.
בדף הפרטים של מערך הנתונים, לוחצים על ייצוא נתונים.
בוחרים יעד ב-Cloud Storage שבו יישמרו קובצי ה-TSV שיוצאו.
לוחצים על ייצוא.
Cloud Translation מייצר קובצי TSV ששמם נקבע לפי מערך הנתונים שלהם (train, validation ו-test).
REST
אפשר להשתמש בשיטהprojects.locations.datasets.exportData כדי לייצא נתונים ל-Cloud Storage כקובצי TSV.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
- LOCATION: האזור שבו נמצא מערך הנתונים לייצוא, לדוגמה
us-central1. - DATASET_ID: המזהה של מערך הנתונים לייצוא.
- DESTINATION_DIRECTORY: הנתיב ב-Cloud Storage שאליו נשלח הפלט.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
תוכן בקשת JSON:
{
"output_config": {
"gcs_destination": {
"output_uri_prefix": "gs://DESTINATION_DIRECTORY"
}
}
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
שפות נוספות
C#: פועלים לפי הוראות ההגדרה של C# בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation בנושא .NET.
PHP: צריך לפעול לפי הוראות ההגדרה של PHP בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud Translation ל-PHP.
Ruby: פועלים לפי הוראות ההגדרה של Ruby בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation ל-Ruby.
הצגת רשימת מערכי נתונים
מציגים ברשימה את מערכי הנתונים הזמינים בפרויקט.
ממשק משתמש באינטרנט
כדי לראות רשימה של מערכי הנתונים הזמינים באמצעות מסוף Cloud Translation, לוחצים על Datasets בחלונית הניווט.
כדי לראות את מערכי הנתונים של פרויקט אחר, בוחרים את הפרויקט מהרשימה הנפתחת בפינה השמאלית העליונה של סרגל הכותרת.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
- LOCATION: האזור שבו נמצאים מערכי הנתונים שרוצים להציג, כמו
us-central1.
ה-method של ה-HTTP וכתובת ה-URL:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"datasets": [
{
"name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
"displayName": "DATASET_NAME",
"sourceLanguageCode": "SOURCE_LANG_CODE",
"targetLanguageCode": "TARGET_LANG_CODE",
"exampleCount": 8720,
"createTime": "2022-10-19T23:24:34.734549Z",
"updateTime": "2022-10-19T23:24:35.357525Z"
},
...
]
}
שפות נוספות
C#: פועלים לפי הוראות ההגדרה של C# בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation בנושא .NET.
PHP: צריך לפעול לפי הוראות ההגדרה של PHP בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud Translation ל-PHP.
Ruby: פועלים לפי הוראות ההגדרה של Ruby בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation ל-Ruby.
מחיקה של מערך נתונים
ממשק משתמש באינטרנט
במסוף Cloud Translation, לוחצים על Datasets בחלונית הניווט כדי להציג את רשימת מערכי הנתונים הזמינים.
כדי למחוק את מערך הנתונים, לוחצים על עוד > מחיקה.
לוחצים על אישור בתיבת הדו-שיח לאישור.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
- LOCATION: האזור שבו נמצאים מערכי הנתונים שרוצים להציג, כמו
us-central1. - DATASET_ID: המזהה של מערך הנתונים שרוצים למחוק.
ה-method של ה-HTTP וכתובת ה-URL:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
},
"done": true
}
שפות נוספות
C#: פועלים לפי הוראות ההגדרה של C# בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation בנושא .NET.
PHP: צריך לפעול לפי הוראות ההגדרה של PHP בדף של ספריות הלקוח ואז לעבור אל מאמרי העזרה של Cloud Translation ל-PHP.
Ruby: פועלים לפי הוראות ההגדרה של Ruby בדף של ספריות הלקוח ואז עוברים אל מאמרי העזרה של Cloud Translation ל-Ruby.