בדף הזה מוסבר איך ליצור מערך נתונים ב-Vertex AI מנתונים טבלאיים, כדי שתוכלו להתחיל לאמן מודלים של סיווג ורגרסיה. אפשר ליצור מערך נתונים באמצעות מסוף Google Cloud או Vertex AI API.
לפני שמתחילים
לפני שיוצרים מערך נתונים ב-Vertex AI מנתונים טבלאיים, צריך להכין את הנתונים. פרטים נוספים זמינים במאמרים בנושאים הבאים:
- הכנת נתונים לאימון בפורמט טבלאי למודלים של סיווג ורגרסיה
- שיטות מומלצות ליצירת נתוני אימון בפורמט טבלאי.
יצירת מערך נתונים ריק ושיוך הנתונים המוכנים
כדי ליצור מודל למידת מכונה לסיווג או לרגרסיה, קודם צריך לאסוף נתונים מייצגים לאימון. משתמשים בGoogle Cloud מסוף או ב-API כדי לשייך את הנתונים המוכנים למערך הנתונים. שיוך הנתונים מאפשר לכם לבצע שינויים ולהתחיל באימון המודל.
מסוף Google Cloud
- במסוף Google Cloud , בקטע Vertex AI, עוברים לדף Datasets.
- לוחצים על יצירה כדי לפתוח את דף הפרטים של יצירת מערך נתונים.
- משנים את השם בשדה שם מערך הנתונים כדי ליצור שם תצוגה תיאורי למערך הנתונים.
- בוחרים בכרטיסייה טבלה.
- בוחרים את היעד רגרסיה/סיווג.
- בוחרים אזור מהרשימה הנפתחת אזור.
- אם רוצים להשתמש במפתחות הצפנה בניהול הלקוח (CMEK) עם מערך הנתונים, פותחים את האפשרויות המתקדמות ומזינים את המפתח. (תצוגה מקדימה)
- לוחצים על יצירה כדי ליצור את מערך הנתונים הריק, ועוברים לכרטיסייה מקור.
- בוחרים אחת מהאפשרויות הבאות, בהתאם למקור הנתונים.
קובצי CSV במחשב
- לוחצים על העלאת קובצי CSV מהמחשב.
- לוחצים על בחירת קבצים ובוחרים את כל הקבצים המקומיים שרוצים להעלות לקטגוריה של Cloud Storage.
- בקטע Select a Cloud Storage path, מזינים את הנתיב לקטגוריה ב-Cloud Storage או לוחצים על Browse כדי לבחור מיקום לקטגוריה.
קובצי CSV ב-Cloud Storage
- לוחצים על בחירת קובצי CSV מ-Cloud Storage.
- בקטע Select CSV files from Cloud Storage (בחירת קובצי CSV מ-Cloud Storage), מזינים את הנתיב לקטגוריה של Cloud Storage או לוחצים על Browse (עיון) כדי לבחור את המיקום של קובצי ה-CSV.
טבלה או תצוגה ב-BigQuery
- לוחצים על בחירת טבלה או תצוגה מ-BigQuery.
- מזינים את מזהי הפרויקט, מערך הנתונים והטבלה של קובץ הקלט.
- לוחצים על Continue.
מקור הנתונים משויך למערך הנתונים.
API
כשיוצרים קבוצת נתונים, מקשרים אותה גם למקור הנתונים שלה. הקוד שנדרש ליצירת מערך נתונים תלוי במיקום של נתוני האימון – ב-Cloud Storage או ב-BigQuery. אם מקור הנתונים נמצא בפרויקט אחר, צריך להגדיר את ההרשאות הנדרשות.יצירת מערך נתונים עם נתונים ב-Cloud Storage
REST
משתמשים ב-method datasets.create כדי ליצור מערך נתונים.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו יישמר מערך הנתונים. האזור הזה חייב להיות אזור שתומך במשאבי מערכי נתונים. לדוגמה,
us-central1. - PROJECT: מזהה הפרויקט.
- DATASET_NAME: השם המוצג של מערך הנתונים.
-
METADATA_SCHEMA_URI: ה-URI של קובץ הסכימה של היעד.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml -
URI: נתיבים (URI) לקטגוריות של Cloud Storage שמכילות את נתוני האימון.
יכול להיות שיש יותר מאחת. כל מזהה URI מופיע בפורמט:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: מספר הפרויקט שנוצר באופן אוטומטי.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
גוף בקשת JSON:
{
"display_name": "DATASET_NAME",
"metadata_schema_uri": "METADATA_SCHEMA_URI",
"metadata": {
"input_config": {
"gcs_source": {
"uri": [URI1, URI2, ...]
}
}
}
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-07T21:27:35.964882Z",
"updateTime": "2020-07-07T21:27:35.964882Z"
}
}
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Java API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Node.js API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
יצירת מערך נתונים עם נתונים ב-BigQuery
REST
משתמשים ב-method datasets.create כדי ליצור מערך נתונים.לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו יישמר מערך הנתונים. האזור הזה חייב להיות אזור שתומך במשאבי מערכי נתונים. לדוגמה,
us-central1. - PROJECT: .
- DATASET_NAME: השם המוצג של מערך הנתונים.
-
METADATA_SCHEMA_URI: ה-URI של קובץ הסכימה של היעד.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml -
URI: הנתיב לטבלה ב-BigQuery שמכילה את נתוני האימון. בטופס:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: מספר הפרויקט שנוצר באופן אוטומטי.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
גוף בקשת JSON:
{
"display_name": "DATASET_NAME",
"metadata_schema_uri": "METADATA_SCHEMA_URI",
"metadata": {
"input_config": {
"bigquery_source" :{
"uri": "URI
}
}
}
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-07T21:27:35.964882Z",
"updateTime": "2020-07-07T21:27:35.964882Z"
}
}
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Java API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Node.js API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
קבלת סטטוס פעולה
חלק מהבקשות מפעילות תהליכים ארוכים שדורשים זמן להשלמה. הבקשות האלה מחזירות שם פעולה, שאפשר להשתמש בו כדי לראות את סטטוס הפעולה או לבטל אותה. Vertex AI מספק שיטות עזר לביצוע קריאות לפעולות ממושכות. מידע נוסף זמין במאמר בנושא עבודה עם פעולות ממושכות.