בדף הזה מוסבר איך ליצור מערך נתונים ב-Agent Platform מנתוני התמונות שלכם, כדי שתוכלו להתחיל לאמן מודלים לסיווג. אפשר ליצור מערך נתונים באמצעות Google Cloud המסוף או Agent Platform API.
יצירת מערך נתונים ריק וייבוא או שיוך של הנתונים
מסוף Google Cloud
כדי ליצור קבוצת נתונים ריקה ולייבא או לקשר את הנתונים, פועלים לפי ההוראות הבאות.
- במסוף Google Cloud , בקטע Agent Platform, עוברים לדף Datasets.
- לוחצים על Create כדי לפתוח את דף הפרטים של יצירת מערך נתונים.
- משנים את השם בשדה שם מערך הנתונים כדי ליצור שם תצוגה תיאורי למערך הנתונים.
- בוחרים בכרטיסייה תמונה.
- בוחרים את היעד 'סיווג תמונות עם תווית אחת' או 'סיווג תמונות עם כמה תוויות'.
- בוחרים אזור מהרשימה הנפתחת אזור.
- לוחצים על יצירה כדי ליצור את מערך הנתונים הריק, ועוברים לדף ייבוא הנתונים.
- בקטע בחירת שיטת ייבוא, בוחרים אחת מהאפשרויות הבאות:
העלאת נתונים מהמחשב
- בקטע Select an import method (בחירת שיטת ייבוא), בוחרים להעלות נתונים מהמחשב.
- לוחצים על בחירת קבצים ובוחרים את כל הקבצים המקומיים שרוצים להעלות לקטגוריה של Cloud Storage.
- בקטע Select a Cloud Storage path (בחירת נתיב ב-Cloud Storage), לוחצים על Browse (עיון) כדי לבחור מיקום של קטגוריה של Cloud Storage שאליה רוצים להעלות את הנתונים.
העלאת קובץ ייבוא מהמחשב
- לוחצים על העלאת קובץ ייבוא מהמחשב.
- לוחצים על בחירת קבצים ובוחרים את קובץ הייבוא המקומי להעלאה לקטגוריה של Cloud Storage.
- בקטע Select a Cloud Storage path לוחצים על Browse כדי לבחור מיקום של קטגוריה של Cloud Storage להעלאת הקובץ.
בחירת קובץ לייבוא מ-Cloud Storage
- לוחצים על בחירת קובץ לייבוא מ-Cloud Storage.
- בקטע Select a Cloud Storage path לוחצים על Browse כדי לבחור את קובץ הייבוא ב-Cloud Storage.
- לוחצים על Continue.
יבוא הנתונים יכול להימשך כמה שעות, בהתאם לגודל הנתונים. אפשר לסגור את הכרטיסייה הזו ולחזור אליה מאוחר יותר. נשלח לכם אימייל כשהנתונים יובאו.
API
כדי ליצור מודל למידת מכונה, קודם צריך לאסוף נתונים מייצגים לאימון. אחרי ייבוא הנתונים, אפשר לבצע שינויים ולהתחיל לאמן את המודל.
יצירת מערך נתונים
אפשר להשתמש בדוגמאות הבאות כדי ליצור מערך נתונים לנתונים שלכם.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו יישמר מערך הנתונים. האזור הזה צריך לתמוך במשאבי מערכי נתונים. לדוגמה,
us-central1. רשימת המיקומים הזמינים - PROJECT: [מזהה הפרויקט](/resource-manager/docs/creating-managing-projects#identifiers). .
- DATASET_NAME: שם מערך הנתונים.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets
גוף בקשת JSON:
{
"display_name": "DATASET_NAME",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml"
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content
הפלט שיוצג אמור להיות דומה לזה שמופיע בהמשך. אפשר להשתמש ב-OPERATION_ID בתגובה כדי לקבל את הסטטוס של הפעולה.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-07T21:27:35.964882Z",
"updateTime": "2020-07-07T21:27:35.964882Z"
}
}
}
Terraform
בדוגמה הבאה נעשה שימוש במשאב google_vertex_ai_dataset של Terraform כדי ליצור מערך נתונים של תמונות בשם image-dataset.
כדי ללמוד איך להחיל הגדרות ב-Terraform או להסיר אותן, ראו פקודות בסיסיות ב-Terraform.
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
בדוגמה הבאה נעשה שימוש ב-SDK של Agent Platform ל-Python כדי ליצור קבוצת נתונים ולייבא נתונים. אם מריצים את קוד הדוגמה הזה, אפשר לדלג על הקטע 'ייבוא נתונים' במדריך הזה.
בדוגמה הספציפית הזו, הנתונים מיובאים לצורך סיווג עם תוויות יחידות. אם למודל יש מטרה אחרת, צריך לשנות את הקוד.
ייבוא נתונים
אחרי שיוצרים מערך נתונים ריק, אפשר לייבא אליו את הנתונים. אם השתמשתם ב-Agent Platform SDK for Python כדי ליצור את מערך הנתונים, יכול להיות שכבר ייבאתם נתונים כשיצרתם את מערך הנתונים. אם כן, אפשר לדלג על הקטע הזה.
בוחרים את הכרטיסייה שלמטה שמתאימה ליעד שלכם:
סיווג עם תווית אחת
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו נמצא מערך הנתונים. לדוגמה,
us-central1. - PROJECT_ID: .
- DATASET_ID: מזהה קבוצת הנתונים.
- IMPORT_FILE_URI: הנתיב לקובץ CSV או JSON Lines ב-Cloud Storage שמפרט את פריטי הנתונים שמאוחסנים ב-Cloud Storage ומשמשים לאימון המודל. למידע על פורמטים של קובצי ייבוא ומגבלות, אפשר לעיין במאמר הכנת נתוני תמונות.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
גוף בקשת JSON:
{
"import_configs": [
{
"gcs_source": {
"uris": "IMPORT_FILE_URI"
},
"import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/image_classification_single_label_io_format_1.0.0.yaml"
}
]
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
הפלט שיוצג אמור להיות דומה לזה שמופיע בהמשך. אפשר להשתמש ב-OPERATION_ID בתגובה כדי לקבל את הסטטוס של הפעולה.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-08T20:32:02.543801Z",
"updateTime": "2020-07-08T20:32:02.543801Z"
}
}
}
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
סיווג עם כמה תוויות
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו נמצא מערך הנתונים. לדוגמה,
us-central1. - PROJECT_ID: .
- DATASET_ID: מזהה קבוצת הנתונים.
- IMPORT_FILE_URI: הנתיב לקובץ CSV או JSON Lines ב-Cloud Storage שמפרט את פריטי הנתונים שמאוחסנים ב-Cloud Storage ומשמשים לאימון המודל. למידע על פורמטים של קובצי ייבוא ומגבלות, אפשר לעיין במאמר הכנת נתוני תמונות.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
גוף בקשת JSON:
{
"import_configs": [
{
"gcs_source": {
"uris": "IMPORT_FILE_URI"
},
"import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/image_classification_multi_label_io_format_1.0.0.yaml"
}
]
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
הפלט שיוצג אמור להיות דומה לזה שמופיע בהמשך. אפשר להשתמש ב-OPERATION_ID בתגובה כדי לקבל את הסטטוס של הפעולה.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-08T20:32:02.543801Z",
"updateTime": "2020-07-08T20:32:02.543801Z"
}
}
}
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
קבלת סטטוס פעולה
חלק מהבקשות מפעילות תהליכים ארוכים שדורשים זמן להשלמה. הבקשות האלה מחזירות שם פעולה, שאפשר להשתמש בו כדי לראות את הסטטוס של הפעולה או לבטל אותה. Agent Platform מספקת שיטות עזר לביצוע קריאות לפעולות ממושכות. מידע נוסף זמין במאמר בנושא עבודה עם פעולות ממושכות.