בדף הזה מוסבר איך להתקין את Apache Beam SDK כדי להריץ את צינורות הנתונים בשירות Dataflow.
התקנה של גרסאות SDK
Apache Beam SDK הוא מודל תכנות בקוד פתוח לצינורות נתונים. אתם מגדירים את צינורות עיבוד הנתונים האלה באמצעות תוכנית Apache Beam ויכולים לבחור רץ, כמו Dataflow, כדי להריץ את צינור עיבוד הנתונים.
Java
הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Java היא 2.74.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.
כדי לקבל את Apache Beam SDK ל-Java באמצעות Maven, משתמשים באחד הארטיפקטים שפורסמו מתוך Maven Central Repository.
מוסיפים יחסי תלות וכלי ניהול יחסי תלות לקובץ pom.xml של ארטיפקט ה-SDK. פרטים נוספים זמינים במאמר בנושא ניהול תלות בצינורות ב-Dataflow.
מידע נוסף על יחסי תלות של Apache Beam SDK for Java זמין במאמרים Apache Beam SDK for Java dependencies ו-Managing Beam dependencies in Java בתיעוד של Apache Beam.
Python
הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Python היא 2.74.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.
כדי לקבל את Apache Beam SDK ל-Python, משתמשים באחת מהחבילות שפורסמו מתוך Python Package Index.
מריצים את הפקודה הבאה כדי להתקין Python wheel:
pip install wheel
כדי להתקין את הגרסה האחרונה של Apache Beam SDK ל-Python, מריצים את הפקודה הבאה מסביבה וירטואלית:
pip install 'apache-beam[gcp]'
ההתקנה עשויה להימשך זמן מה, בהתאם לחיבור.
כדי לשדרג התקנה קיימת של apache-beam, משתמשים בדגל --upgrade:
pip install --upgrade 'apache-beam[gcp]'
המשך
הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Go היא 2.74.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.
כדי להתקין את הגרסה האחרונה של Apache Beam SDK for Go, מריצים את הפקודה הבאה:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
הגדרת סביבת הפיתוח
כדי לקבל מידע על הגדרת פרויקט וסביבת פיתוח לשימוש ב-Dataflow, אפשר לעיין באחד מהמדריכים הבאים: Google Cloud
- יצירת צינור עיבוד נתונים באמצעות Java
- יצירת צינור עיבוד נתונים של Dataflow באמצעות Python
- יצירת צינור עיבוד נתונים של Dataflow באמצעות Go
קוד מקור ודוגמאות
קוד המקור של Apache Beam זמין במאגר Apache Beam ב-GitHub.
Java
דוגמאות קוד זמינות ב- ספריית הדוגמאות של Apache Beam ב-GitHub.
Python
דוגמאות קוד זמינות בספריית הדוגמאות של Apache Beam ב-GitHub.
המשך
דוגמאות קוד זמינות בספריית הדוגמאות של Apache Beam ב-GitHub.
איך מוצאים את גרסת Dataflow SDK
פרטי ההתקנה משתנים בהתאם לסביבת הפיתוח. אם אתם משתמשים ב-Maven, אתם יכולים להתקין כמה גרסאות של Dataflow SDK במאגר Maven מקומי אחד או יותר.
Java
כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמריצים עם DataflowPipelineRunner או עם BlockingDataflowPipelineRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:
Python
כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמפעילים את הפקודה DataflowRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:
המשך
כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמפעילים את הפקודה DataflowRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
המאמרים הבאים
- Dataflow משתלב עם Google Cloud CLI. הוראות להתקנת ממשק שורת הפקודה של Dataflow מופיעות במאמר שימוש בממשק שורת הפקודה של Dataflow.
- כדי לדעת אילו יכולות של Apache Beam נתמכות ב-Dataflow, אפשר לעיין בטבלת היכולות של Apache Beam.