התקנה של Apache Beam SDK

בדף הזה מוסבר איך להתקין את Apache Beam SDK כדי להריץ את צינורות הנתונים בשירות Dataflow.

התקנה של מהדורות SDK

Apache Beam SDK הוא מודל תכנות בקוד פתוח לצינורות נתונים. אתם מגדירים את צינורות עיבוד הנתונים האלה באמצעות תוכנית Apache Beam, ויכולים לבחור רץ, כמו Dataflow, כדי להריץ את צינור עיבוד הנתונים.

Java

הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Java היא 2.69.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.

כדי לקבל את Apache Beam SDK ל-Java באמצעות Maven, משתמשים באחד מהארטיפקטים שפורסמו מתוך מאגר Maven Central.

מוסיפים יחסי תלות וכלי ניהול יחסי תלות לקובץ pom.xml של ארטיפקט ה-SDK. פרטים נוספים זמינים במאמר בנושא ניהול יחסי תלות בצינורות ב-Dataflow.

מידע נוסף על יחסי תלות של Apache Beam SDK for Java זמין במאמרים Apache Beam SDK for Java dependencies וManaging Beam dependencies in Java במסמכי התיעוד של Apache Beam.

Python

הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Python היא 2.69.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.

כדי לקבל את Apache Beam SDK ל-Python, משתמשים באחת מהחבילות שפורסמו מתוך Python Package Index.

מריצים את הפקודה הבאה כדי להתקין Python wheel:

pip install wheel

כדי להתקין את הגרסה האחרונה של Apache Beam SDK ל-Python, מריצים את הפקודה הבאה מסביבה וירטואלית:

pip install 'apache-beam[gcp]'

ההתקנה עשויה להימשך זמן מה, בהתאם לחיבור.

כדי לשדרג התקנה קיימת של apache-beam, משתמשים בדגל --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Go

הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Go היא 2.69.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.

כדי להתקין את הגרסה האחרונה של Apache Beam SDK for Go, מריצים את הפקודה הבאה:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

הגדרת סביבת הפיתוח

כדי לקבל מידע על הגדרת פרויקט וסביבת פיתוח ב-Google Cloud Platform לשימוש ב-Dataflow, אפשר לעיין באחד מהמדריכים הבאים:

קוד מקור ודוגמאות

קוד המקור של Apache Beam זמין במאגר Apache Beam ב-GitHub.

Java

דוגמאות קוד זמינות ב ספריית הדוגמאות של Apache Beam ב-GitHub.

Python

דוגמאות קוד זמינות בספריית הדוגמאות של Apache Beam ב-GitHub.

Go

דוגמאות קוד זמינות בספריית הדוגמאות של Apache Beam ב-GitHub.

איך מוצאים את גרסת Dataflow SDK

פרטי ההתקנה משתנים בהתאם לסביבת הפיתוח. אם אתם משתמשים ב-Maven, אתם יכולים להתקין כמה גרסאות של Dataflow SDK במאגר Maven מקומי אחד או יותר.

Java

כדי לדעת איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמריצים את הפקודה DataflowPipelineRunner או BlockingDataflowPipelineRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:

Python

כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמפעילים את הצינור עם DataflowRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:

Go

כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמפעילים את הצינור עם DataflowRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

המאמרים הבאים