בדף הזה מוסבר איך ליצור מערך נתונים ב-Vertex AI מנתונים טבלאיים, כדי שתוכלו להתחיל לאמן מודלים לחיזוי. אפשר ליצור מערך נתונים באמצעות Google Cloud המסוף או Vertex AI API.
לפני שמתחילים
לפני שיוצרים מערך נתונים של Vertex AI מנתונים טבלאיים, צריך להכין את נתוני האימון.
יצירת מערך נתונים ריק ושיוך הנתונים המוכנים
כדי ליצור מודל למידת מכונה לחיזוי, צריך לאמן אותו באמצעות אוסף מייצג של נתונים. משתמשים ב Google Cloud מסוף או ב-API כדי לשייך את הנתונים שהכנתם למערך הנתונים.
כשיוצרים קבוצת נתונים, מקשרים אותה גם למקור הנתונים שלה. נתוני האימון יכולים להיות קובץ CSV ב-Cloud Storage או טבלה ב-BigQuery. אם מקור הנתונים נמצא בפרויקט אחר, צריך להגדיר את ההרשאות הנדרשות.
מסוף Google Cloud
- במסוף Google Cloud , בקטע Vertex AI, עוברים לדף Datasets.
- לוחצים על יצירה כדי לפתוח את דף הפרטים של יצירת מערך נתונים.
- משנים את השם בשדה שם מערך הנתונים כדי ליצור שם תצוגה תיאורי למערך הנתונים.
- בוחרים בכרטיסייה טבלה.
- בוחרים ביעד תחזיות.
- בוחרים אזור מהרשימה הנפתחת אזור.
- לוחצים על יצירה כדי ליצור את מערך הנתונים הריק, ועוברים לכרטיסייה מקור.
- בוחרים אחת מהאפשרויות הבאות, בהתאם למקור הנתונים.
קובצי CSV במחשב
- לוחצים על העלאת קובצי CSV מהמחשב.
- לוחצים על בחירת קבצים ובוחרים את כל הקבצים המקומיים שרוצים להעלות לקטגוריה של Cloud Storage.
- בקטע Select a Cloud Storage path, מזינים את הנתיב לקטגוריה ב-Cloud Storage או לוחצים על Browse כדי לבחור מיקום לקטגוריה.
קובצי CSV ב-Cloud Storage
- לוחצים על בחירת קובצי CSV מ-Cloud Storage.
- בקטע Select CSV files from Cloud Storage (בחירת קובצי CSV מ-Cloud Storage), מזינים את הנתיב לקטגוריה של Cloud Storage או לוחצים על Browse (עיון) כדי לבחור את המיקום של קובצי ה-CSV.
טבלה או תצוגה ב-BigQuery
- לוחצים על בחירת טבלה או תצוגה מ-BigQuery.
- מזינים את מזהי הפרויקט, מערך הנתונים והטבלה של קובץ הקלט.
- לוחצים על Continue.
מקור הנתונים משויך למערך הנתונים.
-
בכרטיסייה Analyze, מציינים את העמודה Timestamp ואת העמודה Series identifier של מערך הנתונים הזה.
אפשר גם לציין את העמודות האלה כשמאמנים את המודל, אבל בדרך כלל מערך נתונים של תחזית כולל עמודות ספציפיות של זמן ומזהה סדרת זמן, ולכן מומלץ לציין אותן במערך הנתונים.
API : CSV
REST
משתמשים ב-method datasets.create כדי ליצור מערך נתונים.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו יישמר מערך הנתונים. האזור הזה חייב להיות אזור שתומך במשאבי מערכי נתונים. לדוגמה,
us-central1. - PROJECT: מזהה הפרויקט.
- DATASET_NAME: השם המוצג של מערך הנתונים.
-
METADATA_SCHEMA_URI: ה-URI של קובץ הסכימה של היעד.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml -
URI: נתיבים (URI) לקטגוריות של Cloud Storage שמכילות את נתוני האימון.
יכול להיות שיש יותר מאחת. כל מזהה URI מופיע בפורמט:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: מספר הפרויקט שנוצר באופן אוטומטי.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
גוף בקשת JSON:
{
"display_name": "DATASET_NAME",
"metadata_schema_uri": "METADATA_SCHEMA_URI",
"metadata": {
"input_config": {
"gcs_source": {
"uri": [URI1, URI2, ...]
}
}
}
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-07T21:27:35.964882Z",
"updateTime": "2020-07-07T21:27:35.964882Z"
}
}
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Java API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Node.js API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
API : BigQuery
REST
משתמשים ב-method datasets.create כדי ליצור מערך נתונים.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו יישמר מערך הנתונים. האזור הזה חייב להיות אזור שתומך במשאבי מערכי נתונים. לדוגמה,
us-central1. - PROJECT: .
- DATASET_NAME: השם המוצג של מערך הנתונים.
-
METADATA_SCHEMA_URI: ה-URI של קובץ הסכימה של היעד.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml -
URI: הנתיב לטבלה ב-BigQuery שמכילה את נתוני האימון. בטופס:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: מספר הפרויקט שנוצר באופן אוטומטי.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
גוף בקשת JSON:
{
"display_name": "DATASET_NAME",
"metadata_schema_uri": "METADATA_SCHEMA_URI",
"metadata": {
"input_config": {
"bigquery_source" :{
"uri": "URI
}
}
}
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-07T21:27:35.964882Z",
"updateTime": "2020-07-07T21:27:35.964882Z"
}
}
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Java API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Node.js API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
קבלת סטטוס פעולה
חלק מהבקשות מפעילות תהליכים ארוכים שדורשים זמן להשלמה. הבקשות האלה מחזירות שם פעולה, שאפשר להשתמש בו כדי לראות את סטטוס הפעולה או לבטל אותה. Vertex AI מספק שיטות עזר לביצוע קריאות לפעולות ממושכות. מידע נוסף זמין במאמר בנושא עבודה עם פעולות ממושכות.