בדף הזה מוסבר איך להתקין את Apache Beam SDK כדי להריץ את צינורות הנתונים בשירות Dataflow.
התקנה של מהדורות SDK
Apache Beam SDK הוא מודל תכנות בקוד פתוח לצינורות נתונים. אתם מגדירים את צינורות עיבוד הנתונים האלה באמצעות תוכנית Apache Beam, ויכולים לבחור רץ, כמו Dataflow, כדי להריץ את צינור עיבוד הנתונים.
Java
הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Java היא 2.69.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.
כדי לקבל את Apache Beam SDK ל-Java באמצעות Maven, משתמשים באחד מהארטיפקטים שפורסמו מתוך מאגר Maven Central.
מוסיפים יחסי תלות וכלי ניהול יחסי תלות לקובץ pom.xml של ארטיפקט ה-SDK. פרטים נוספים זמינים במאמר בנושא ניהול יחסי תלות בצינורות ב-Dataflow.
מידע נוסף על יחסי תלות של Apache Beam SDK for Java זמין במאמרים Apache Beam SDK for Java dependencies וManaging Beam dependencies in Java במסמכי התיעוד של Apache Beam.
Python
הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Python היא 2.69.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.
כדי לקבל את Apache Beam SDK ל-Python, משתמשים באחת מהחבילות שפורסמו מתוך Python Package Index.
מריצים את הפקודה הבאה כדי להתקין Python wheel:
pip install wheel
כדי להתקין את הגרסה האחרונה של Apache Beam SDK ל-Python, מריצים את הפקודה הבאה מסביבה וירטואלית:
pip install 'apache-beam[gcp]'
ההתקנה עשויה להימשך זמן מה, בהתאם לחיבור.
כדי לשדרג התקנה קיימת של apache-beam, משתמשים בדגל --upgrade:
pip install --upgrade 'apache-beam[gcp]'
Go
הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Go היא 2.69.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.
כדי להתקין את הגרסה האחרונה של Apache Beam SDK for Go, מריצים את הפקודה הבאה:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
הגדרת סביבת הפיתוח
כדי לקבל מידע על הגדרת פרויקט וסביבת פיתוח ב-Google Cloud Platform לשימוש ב-Dataflow, אפשר לעיין באחד מהמדריכים הבאים:
- יצירת צינור עיבוד נתונים באמצעות Java
- יצירת צינור עיבוד נתונים של Dataflow באמצעות Python
- יצירת צינור עיבוד נתונים באמצעות Go
קוד מקור ודוגמאות
קוד המקור של Apache Beam זמין במאגר Apache Beam ב-GitHub.
Java
דוגמאות קוד זמינות ב ספריית הדוגמאות של Apache Beam ב-GitHub.
Python
דוגמאות קוד זמינות בספריית הדוגמאות של Apache Beam ב-GitHub.
Go
דוגמאות קוד זמינות בספריית הדוגמאות של Apache Beam ב-GitHub.
איך מוצאים את גרסת Dataflow SDK
פרטי ההתקנה משתנים בהתאם לסביבת הפיתוח. אם אתם משתמשים ב-Maven, אתם יכולים להתקין כמה גרסאות של Dataflow SDK במאגר Maven מקומי אחד או יותר.
Java
כדי לדעת איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמריצים את הפקודה DataflowPipelineRunner או BlockingDataflowPipelineRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:
Python
כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמפעילים את הצינור עם DataflowRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:
Go
כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמפעילים את הצינור עם DataflowRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
המאמרים הבאים
- Dataflow משתלב עם Google Cloud CLI. הוראות להתקנת ממשק שורת הפקודה של Dataflow מופיעות במאמר שימוש בממשק שורת הפקודה של Dataflow.
- כדי לדעת אילו יכולות של Apache Beam נתמכות ב-Dataflow, אפשר לעיין בטבלת היכולות של Apache Beam.