בדף הזה מוסבר איך ליצור מערך נתונים ב-Vertex AI מנתוני התמונות שלכם, כדי שתוכלו להתחיל לאמן מודלים לסיווג. אפשר ליצור מערך נתונים באמצעות Google Cloud המסוף או Vertex AI API.
יצירה של מערך נתונים ריק וייבוא או שיוך של הנתונים
מסוף Google Cloud
כדי ליצור קבוצת נתונים ריקה ולייבא או לקשר את הנתונים, פועלים לפי ההוראות הבאות.
- במסוף Google Cloud , בקטע Vertex AI, עוברים לדף Datasets.
- לוחצים על יצירה כדי לפתוח את דף הפרטים של יצירת מערך נתונים.
- משנים את השם בשדה Dataset name כדי ליצור שם תצוגה תיאורי למערך הנתונים.
- בוחרים בכרטיסייה תמונה.
- בוחרים את המטרה 'סיווג תמונות עם תווית אחת' או 'סיווג תמונות עם כמה תוויות'.
- בוחרים אזור מהרשימה הנפתחת אזור.
- לוחצים על יצירה כדי ליצור את מערך הנתונים הריק, ועוברים לדף ייבוא הנתונים.
- בקטע בחירת שיטת ייבוא, בוחרים אחת מהאפשרויות הבאות:
העלאת נתונים מהמחשב
- בקטע Select an import method, בוחרים להעלות נתונים מהמחשב.
- לוחצים על בחירת קבצים ובוחרים את כל הקבצים המקומיים שרוצים להעלות לקטגוריה של Cloud Storage.
- בקטע Select a Cloud Storage path לוחצים על Browse כדי לבחור מיקום של קטגוריה של Cloud Storage שאליו רוצים להעלות את הנתונים.
העלאת קובץ ייבוא מהמחשב
- לוחצים על העלאת קובץ ייבוא מהמחשב.
- לוחצים על בחירת קבצים ובוחרים את קובץ הייבוא המקומי שרוצים להעלות לקטגוריה של Cloud Storage.
- בקטע Select a Cloud Storage path לוחצים על Browse כדי לבחור מיקום של קטגוריה של Cloud Storage להעלאת הקובץ.
בחירת קובץ לייבוא מ-Cloud Storage
- לוחצים על בחירת קובץ לייבוא מ-Cloud Storage.
- בקטע Select a Cloud Storage path (בחירת נתיב ב-Cloud Storage), לוחצים על Browse (עיון) כדי לבחור את קובץ הייבוא ב-Cloud Storage.
- לוחצים על Continue.
יבוא הנתונים יכול להימשך כמה שעות, בהתאם לגודל הנתונים. אפשר לסגור את הכרטיסייה הזו ולחזור אליה מאוחר יותר. תקבלו אימייל כשהנתונים שלכם יובאו.
API
כדי ליצור מודל למידת מכונה, קודם צריך לאסוף נתונים מייצגים לאימון. אחרי שמייבאים נתונים, אפשר לבצע שינויים ולהתחיל לאמן את המודל.
יצירת מערך נתונים
אפשר להשתמש בדוגמאות הבאות כדי ליצור מערך נתונים לנתונים שלכם.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו יישמר מערך הנתונים. האזור הזה צריך לתמוך במשאבי מערכי נתונים. לדוגמה,
us-central1. רשימת המיקומים הזמינים - PROJECT: מזהה הפרויקט.
- DATASET_NAME: שם מערך הנתונים.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets
גוף בקשת JSON:
{
"display_name": "DATASET_NAME",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml"
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content
הפלט שיוצג אמור להיות דומה לזה שמופיע כאן. אפשר להשתמש ב-OPERATION_ID בתגובה כדי לקבל את הסטטוס של הפעולה.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-07T21:27:35.964882Z",
"updateTime": "2020-07-07T21:27:35.964882Z"
}
}
}
Terraform
בדוגמה הבאה נעשה שימוש במשאב google_vertex_ai_dataset של Terraform כדי ליצור מערך נתונים של תמונות בשם image-dataset.
כדי ללמוד איך להחיל הגדרות ב-Terraform או להסיר אותן, ראו פקודות בסיסיות ב-Terraform.
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Java API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Node.js API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
בדוגמה הבאה נעשה שימוש ב-Vertex AI SDK ל-Python כדי ליצור מערך נתונים ולייבא נתונים. אם מריצים את קוד הדוגמה הזה, אפשר לדלג על הקטע 'ייבוא נתונים' במדריך הזה.
בדוגמה הספציפית הזו, הנתונים מיובאים לצורך סיווג עם תוויות יחידות. אם למודל יש יעד שונה, צריך לשנות את הקוד.
ייבוא נתונים
אחרי שיוצרים מערך נתונים ריק, אפשר לייבא אליו את הנתונים. אם השתמשתם ב-Vertex AI SDK ל-Python כדי ליצור את מערך הנתונים, יכול להיות שכבר ייבאתם נתונים כשנוצר מערך הנתונים. אם כן, אפשר לדלג על הקטע הזה.
בוחרים את הכרטיסייה שלמטה שמתאימה ליעד שלכם:
סיווג עם תווית אחת
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו נמצא מערך הנתונים. לדוגמה,
us-central1. - PROJECT_ID: .
- DATASET_ID: מזהה קבוצת הנתונים.
- IMPORT_FILE_URI: הנתיב לקובץ CSV או JSON Lines ב-Cloud Storage שמפרט את פריטי הנתונים שמאוחסנים ב-Cloud Storage ומשמשים לאימון המודל. למידע על פורמטים ומגבלות של קובצי ייבוא, אפשר לעיין במאמר הכנת נתוני תמונות.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
גוף בקשת JSON:
{
"import_configs": [
{
"gcs_source": {
"uris": "IMPORT_FILE_URI"
},
"import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/image_classification_single_label_io_format_1.0.0.yaml"
}
]
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
הפלט שיוצג אמור להיות דומה לזה שמופיע כאן. אפשר להשתמש ב-OPERATION_ID בתגובה כדי לקבל את הסטטוס של הפעולה.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-08T20:32:02.543801Z",
"updateTime": "2020-07-08T20:32:02.543801Z"
}
}
}
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Java API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Node.js API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
סיווג עם כמה תוויות
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו נמצא מערך הנתונים. לדוגמה,
us-central1. - PROJECT_ID: .
- DATASET_ID: מזהה קבוצת הנתונים.
- IMPORT_FILE_URI: הנתיב לקובץ CSV או JSON Lines ב-Cloud Storage שמפרט את פריטי הנתונים שמאוחסנים ב-Cloud Storage ומשמשים לאימון המודל. למידע על פורמטים ומגבלות של קובצי ייבוא, אפשר לעיין במאמר הכנת נתוני תמונות.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
גוף בקשת JSON:
{
"import_configs": [
{
"gcs_source": {
"uris": "IMPORT_FILE_URI"
},
"import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/image_classification_multi_label_io_format_1.0.0.yaml"
}
]
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
הפלט שיוצג אמור להיות דומה לזה שמופיע כאן. אפשר להשתמש ב-OPERATION_ID בתגובה כדי לקבל את הסטטוס של הפעולה.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-08T20:32:02.543801Z",
"updateTime": "2020-07-08T20:32:02.543801Z"
}
}
}
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
קבלת סטטוס פעולה
חלק מהבקשות מפעילות תהליכים ארוכים שדורשים זמן להשלמה. הבקשות האלה מחזירות שם פעולה, שאפשר להשתמש בו כדי לראות את סטטוס הפעולה או לבטל אותה. Vertex AI מספק שיטות עזר לביצוע קריאות לפעולות ממושכות. מידע נוסף זמין במאמר בנושא עבודה עם פעולות ממושכות.