סקירה כללית על Orchestration Pipelines

Orchestration Pipelines הוא מסגרת מאוחדת ודקלרטיבית לאורקסטרציה ולפריסה אוטומטית, שעברה אופטימיזציה לניהול חלק של צינורות עיבוד נתונים ו-AI ב-Google Cloud.

באמצעות Orchestration Pipelines, אפשר להגדיר את צינורות עיבוד הנתונים ואת הגדרות הפריסה שלהם באמצעות שפת תיאור (DSL) מבוססת YAML. המסגרת הזו מבצעת הפשטה של התשתית הבסיסית, וכך מאפשרת לכם להתמקד בלוגיקה של הנתונים ובתהליכי העבודה של ה-AI, בזמן ש-Orchestration Pipelines מטפל בפריסה, בניהול הגרסאות ובתיאום.

תרחישי שימוש מיועדים

Orchestration Pipelines מיועד למהנדסי נתונים ולמדעני נתונים שצריכים:

  • הקמת CI/CD חזק לצינורות נתונים: אימות ופריסה אוטומטיים של צינורות בכל פעם שמתבצעים שינויים במאגר.
  • ניהול של כמה סביבות פריסה: שמירה על הגדרות נפרדות לסביבות פיתוח, Staging וייצור, כשכל אחת מהן כוללת הגדרות ומשאבים משלה.
  • יצירת צינורות עיבוד נתונים באמצעות כלים מועדפים: אפשר להשתמש בסביבות פיתוח משולבות (IDE) לבחירתכם (כמו Colab,‏ VS Code או JupyterLab) ובשפות שונות כדי לפתח צינורות עיבוד נתונים שפועלים במנועים שונים.
  • שמירה על עקביות הפריסה: כדי לוודא שכל הנכסים וההגדרות של גרסה ספציפית נפרסים ומופעלים יחד, כדאי להשתמש בחבילות של צינורות עם גרסאות.

תכונות עיקריות של המוצר

  • שפת תצורה (DSL) הצהרתית: שפה מבוססת-YAML להגדרת צינורות, פעולות והגדרות פריסה.
  • סביבות פריסה: תמיכה בכמה סביבות, שכל אחת מהן מוגדרת עם סביבת הפעלה משלה (למשל Managed Service for Apache Airflow) ואחסון ארטיפקטים.
  • חבילות של צינורות עם בקרת גרסאות ויכולת שחזור: חבילות עם גרסאות שמכילות הגדרות של צינורות ונכסים משויכים (כמו סקריפטים של Python) שנפרסים כיחידה אחת. כל פריסה מתועדת, כך שאפשר לבטל או לשחזר ריצות ספציפיות בקלות.
  • החלפת משתנים וניהול סודות: מערכת גמישה להגדרת פרמטרים של צינורות עיבוד נתונים באמצעות משתנים מותאמים אישית, משתני סביבה וסודות מספקי CI/CD.
  • כלי אימות: פקודות מובנות לבדיקת התחביר והנכונות הסמנטית של צינורות לפני הפריסה.
  • טריגרים ידניים ומתוזמנים: תמיכה בתזמון אוטומטי ובהפעלה ידנית של צינורות עיבוד נתונים.

frameworks ושילובים נתמכים

‫Orchestration Pipelines נועד להשתלב עם מגוון רחב של כלים ושירותים:

  • מנועי תזמור: Managed Service for Apache Airflow (דור 2 ודור 3), כולל תמיכה ב-Airflow 2 וב-Airflow 3.
  • מנועי מחשוב ונתונים: BigQuery, ‏ Managed Service for Apache Spark,‏ Managed Service for Apache Spark, ‏ Dataform, ‏ DBT.
  • סביבות פיתוח: VS Code ו-Antigravity באמצעות התוסף Google Cloud Data Agent Kit.
  • ספקי Git: GitHub.