במסמך הזה משתמשים ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:
- Managed Service for Apache Spark
- Compute Engine
- Managed Airflow
כדי להעריך את ההוצאות בהתאם לתחזית השימוש שלכם, אתם יכולים להיעזר במחשבון העלויות.
לפני שמתחילים
הגדרת הפרויקט
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc, Compute Engine, and Managed Airflow APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
התקינו את ה-CLI של Google Cloud.
-
אם אתם משתמשים בספק זהויות חיצוני (IdP), קודם אתם צריכים להיכנס ל-CLI של gcloud באמצעות המאגר המאוחד לניהול זהויות.
-
כדי לאתחל את ה-CLI של gcloud, הריצו את הפקודה הבאה:
gcloud init -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc, Compute Engine, and Managed Airflow APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
התקינו את ה-CLI של Google Cloud.
-
אם אתם משתמשים בספק זהויות חיצוני (IdP), קודם אתם צריכים להיכנס ל-CLI של gcloud באמצעות המאגר המאוחד לניהול זהויות.
-
כדי לאתחל את ה-CLI של gcloud, הריצו את הפקודה הבאה:
gcloud init
יצירת תבנית של תהליך עבודה ב-Managed Service for Apache Spark
מעתיקים ומריצים את הפקודות הבאות בחלון טרמינל מקומי או ב-Cloud Shell כדי ליצור ולהגדיר תבנית של זרימת עבודה.
- יוצרים את תבנית זרימת העבודה
sparkpi.gcloud dataproc workflow-templates create sparkpi \ --region=us-central1 - מוסיפים את עבודת ה-Spark לתבנית של תהליך העבודה
sparkpi. הדגלstep-idcompute מזהה את עבודת SparkPi.gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000 - כדי להפעיל את תהליך העבודה, צריך להשתמש באשכול מנוהל עם צומת יחיד. השירות המנוהל ל-Apache Spark ייצור את האשכול, יפעיל בו את תהליך העבודה ואז ימחק את האשכול כשתהליך העבודה יסתיים.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1 - מאשרים את יצירת תבנית תהליך העבודה.
המסוף
לוחצים על השם של
sparkpiבדף Workflows של Managed Service for Apache Spark במסוף Google Cloud כדי לפתוח את הדף Workflow template details. לוחצים על השם של תבנית זרימת העבודה כדי לאשר אתsparkpiמאפייני התבנית.
פקודת gcloud
מריצים את הפקודה הבאה:
gcloud dataproc workflow-templates describe sparkpi --region=us-central1
יצירה והעלאה של DAG ל-Cloud Storage
- יוצרים סביבת Managed Airflow או משתמשים בסביבה קיימת.
- מגדירים משתני סביבה.
ממשק המשתמש של Airflow
- בסרגל הכלים, לוחצים על Admin > Variables (אדמין > משתנים).
- לוחצים על יצירה.
- מזינים את הפרטים הבאים:
- מקש:
project_id - Val: PROJECT_ID – מזהה הפרויקט ב- Google Cloud
- מקש:
- לוחצים על Save.
פקודת gcloud
מזינים את הפקודות הבאות:
-
ENVIRONMENTהוא שם סביבת Managed Airflow -
LOCATIONהוא האזור שבו נמצאת סביבת Managed Airflow -
PROJECT_IDהוא מזהה הפרויקט של הפרויקט שמכיל את סביבת Managed Airflow
gcloud composer environments run ENVIRONMENT --location LOCATION variables set -- project_id PROJECT_ID - בסרגל הכלים, לוחצים על Admin > Variables (אדמין > משתנים).
- מעתיקים את קוד ה-DAG הבא באופן מקומי לקובץ בשם composer-dataproc-dag.py, שמשתמש ב-DataprocInstantiateWorkflowTemplateOperator.
Airflow 2
Airflow 1
- מעלים את ה-DAG לתיקיית הסביבה ב-Cloud Storage. אחרי שההעלאה תסתיים בהצלחה, לוחצים על הקישור DAGs Folder בדף Managed Airflow Environment.
צפייה בסטטוס של משימה
ממשק המשתמש של Airflow
- פותחים את ממשק האינטרנט של Airflow.
- בדף DAGs, לוחצים על שם ה-DAG (לדוגמה,
dataproc_workflow_dag). - בדף הפרטים של DAG, לוחצים על תצוגת גרף.
- בדיקת הסטטוס:
- נכשל: יש תיבה אדומה מסביב למשימה.
אפשר גם להעביר את מצביע העכבר מעל המשימה ולחפש את הסטטוס: נכשל.

- הצלחה: המשימה מוקפת בתיבה ירוקה.
אפשר גם להעביר את מצביע העכבר מעל המשימה ולבדוק אם מופיע State: Success (מצב: הצלחה).

- נכשל: יש תיבה אדומה מסביב למשימה.
אפשר גם להעביר את מצביע העכבר מעל המשימה ולחפש את הסטטוס: נכשל.
המסוף
לוחצים על הכרטיסייה Workflows (תהליכי עבודה) כדי לראות את הסטטוס של תהליך העבודה.
פקודת gcloud
gcloud dataproc operations list \
--region=us-central1 \
--filter="labels.goog-dataproc-workflow-template-id=sparkpi"
הסרת המשאבים
כדי להימנע מחיובים בחשבון Google Cloud , אפשר למחוק את המשאבים שבהם השתמשתם במדריך הזה: