התקנה של Apache Beam SDK

בדף הזה מוסבר איך להתקין את Apache Beam SDK כדי להריץ את צינורות הנתונים בשירות Dataflow.

התקנה של גרסאות SDK

Apache Beam SDK הוא מודל תכנות בקוד פתוח לצינורות נתונים. אתם מגדירים את צינורות עיבוד הנתונים האלה באמצעות תוכנית Apache Beam ויכולים לבחור רץ, כמו Dataflow, כדי להריץ את צינור עיבוד הנתונים.

Java

הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Java היא 2.74.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.

כדי לקבל את Apache Beam SDK ל-Java באמצעות Maven, משתמשים באחד הארטיפקטים שפורסמו מתוך Maven Central Repository.

מוסיפים יחסי תלות וכלי ניהול יחסי תלות לקובץ pom.xml של ארטיפקט ה-SDK. פרטים נוספים זמינים במאמר בנושא ניהול תלות בצינורות ב-Dataflow.

מידע נוסף על יחסי תלות של Apache Beam SDK for Java זמין במאמרים Apache Beam SDK for Java dependencies ו-Managing Beam dependencies in Java בתיעוד של Apache Beam.

Python

הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Python היא 2.74.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.

כדי לקבל את Apache Beam SDK ל-Python, משתמשים באחת מהחבילות שפורסמו מתוך Python Package Index.

מריצים את הפקודה הבאה כדי להתקין Python wheel:

pip install wheel

כדי להתקין את הגרסה האחרונה של Apache Beam SDK ל-Python, מריצים את הפקודה הבאה מסביבה וירטואלית:

pip install 'apache-beam[gcp]'

ההתקנה עשויה להימשך זמן מה, בהתאם לחיבור.

כדי לשדרג התקנה קיימת של apache-beam, משתמשים בדגל --upgrade:

pip install --upgrade 'apache-beam[gcp]'

המשך

הגרסה האחרונה שפורסמה של Apache Beam SDK ל-Go היא 2.74.0. מידע על השינויים שכלולים בגרסה מופיע בהודעה על הגרסה.

כדי להתקין את הגרסה האחרונה של Apache Beam SDK for Go, מריצים את הפקודה הבאה:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

הגדרת סביבת הפיתוח

כדי לקבל מידע על הגדרת פרויקט וסביבת פיתוח לשימוש ב-Dataflow, אפשר לעיין באחד מהמדריכים הבאים: Google Cloud

קוד מקור ודוגמאות

קוד המקור של Apache Beam זמין במאגר Apache Beam ב-GitHub.

Java

דוגמאות קוד זמינות ב- ספריית הדוגמאות של Apache Beam ב-GitHub.

Python

דוגמאות קוד זמינות בספריית הדוגמאות של Apache Beam ב-GitHub.

המשך

דוגמאות קוד זמינות בספריית הדוגמאות של Apache Beam ב-GitHub.

איך מוצאים את גרסת Dataflow SDK

פרטי ההתקנה משתנים בהתאם לסביבת הפיתוח. אם אתם משתמשים ב-Maven, אתם יכולים להתקין כמה גרסאות של Dataflow SDK במאגר Maven מקומי אחד או יותר.

Java

כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמריצים עם DataflowPipelineRunner או עם BlockingDataflowPipelineRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:

Python

כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמפעילים את הפקודה DataflowRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:

המשך

כדי לגלות איזו גרסה של Dataflow SDK מפעילה צינור נתונים מסוים, אפשר לעיין בפלט של המסוף כשמפעילים את הפקודה DataflowRunner. המסוף יכיל הודעה כמו זו שבהמשך, שכוללת את פרטי הגרסה של Dataflow SDK:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

המאמרים הבאים