במדריך למתחילים הזה מוסבר איך להתקין אתGoogle Cloud Pipeline Components (GCPC) SDK.
התקנת הגרסה האחרונה
משתמשים בפקודה הבאה כדי להתקין את ה-SDK מאינדקס החבילות של Python (PyPI): Google Cloud
pip install --upgrade google-cloud-pipeline-components
ייבוא רכיב מוכן מראש באמצעות Google Cloud SDK
אחרי שמתקינים את Google Cloud SDK, אפשר להשתמש בו כדי לייבא רכיב מוכן מראש.
מידע על רכיבי SDK נתמכים זמין במסמכי ה-SDK.Google Cloud
לדוגמה, אפשר להשתמש בקוד הבא כדי לייבא את הרכיב Dataflow ולהשתמש בו בצינור עיבוד נתונים.
from google_cloud_pipeline_components.v1.dataflow import DataflowPythonJobOp
from kfp import dsl
@dsl.pipeline(
name=PIPELINE_NAME,
description='Dataflow launch python pipeline'
)
def pipeline(
python_file_path:str = 'gs://ml-pipeline-playground/samples/dataflow/wc/wc.py',
project_id:str = PROJECT_ID,
location:str = LOCATION,
staging_dir:str = PIPELINE_ROOT,
requirements_file_path:str = 'gs://ml-pipeline-playground/samples/dataflow/wc/requirements.txt',
):
dataflow_python_op = DataflowPythonJobOp(
project=project_id,
location=location,
python_module_path=python_file_path,
temp_location = staging_dir,
requirements_file_path = requirements_file_path,
args = ['--output', OUTPUT_FILE],
)
המאמרים הבאים
- מומלץ לקרוא את המאמר מבוא לרכיבי Google Cloud Pipeline.
- כאן אפשר לראות את כל מדריכי הווידאו שבהם נעשה שימוש ב-
google_cloud_pipeline_componentsSDK. - כדאי להתחיל עם רכיבי Dataflow.