תבנית של דחיסת קבצים ב-Cloud Storage בכמות גדולה

תבנית הצינור Bulk Compress Cloud Storage Files היא צינור אצווה שדוחס קבצים ב-Cloud Storage למיקום שצוין. התבנית הזו יכולה להיות שימושית כשצריך לדחוס קבוצות גדולות של קבצים כחלק מתהליך ארכיון תקופתי. מצבי הדחיסה הנתמכים הם: BZIP2, ‏ DEFLATE, ‏ GZIP. הקבצים שיוצאו למיקום היעד יקבלו שם לפי סכימת שמות שבה שם הקובץ המקורי מצורף לסיומת של מצב הדחיסה. הסיומות שיתווספו יהיו אחת מהאפשרויות הבאות: .bzip2, .deflate, .gz.

כל השגיאות שמתרחשות במהלך תהליך הדחיסה יופיעו בקובץ השגיאות בפורמט CSV של שם הקובץ והודעת השגיאה. אם לא מתרחשות שגיאות במהלך הפעלת צינור עיבוד הנתונים, קובץ השגיאות עדיין ייווצר, אבל הוא לא יכיל רשומות שגיאה.

הדרישות לגבי צינורות עיבוד נתונים

  • הדחיסה צריכה להיות באחד מהפורמטים הבאים: BZIP2, DEFLATE, GZIP.
  • ספריית הפלט חייבת להתקיים לפני שמריצים את צינור הנתונים.

פרמטרים של תבניות

פרמטרים נדרשים

  • inputFilePattern: המיקום ב-Cloud Storage של הקבצים שרוצים לעבד. לדוגמה, gs://your-bucket/your-files/*.txt.
  • outputDirectory: הנתיב והקידומת של שם הקובץ לכתיבת קובצי פלט. חייב להסתיים בלוכסן. הפורמט של DateTime משמש לניתוח נתיב הספריות עבור מעצבי תאריכים ושעות. לדוגמה, gs://your-bucket/your-path.
  • outputFailureFile: קובץ פלט של יומן השגיאות שמשמש לכתיבת שגיאות שמתרחשות במהלך הדחיסה. התוכן יהיה שורה אחת לכל קובץ שדחיסתו נכשלה. הערה: הפרמטר הזה יאפשר לצינור להמשיך את העיבוד במקרה של כשל. לדוגמה, gs://your-bucket/compressed/failed.csv.
  • דחיסה: אלגוריתם הדחיסה ששימש לדחיסת הקבצים התואמים. אלגוריתמים תקינים: BZIP2, ‏ DEFLATE, ‏ GZIP.

פרמטרים אופציונליים

  • outputFilenameSuffix: הסיומת של שם קובץ הפלט של הקבצים לכתיבה. ברירת המחדל היא ‎ .bzip2,‏ ‎.deflate או ‎ .gz, בהתאם לאלגוריתם הדחיסה.

הפעלת התבנית

המסוף

  1. עוברים לדף Dataflow Create job from template (יצירת משימה מתבנית).
  2. כניסה לדף Create job from template
  3. בשדה שם המשימה, מזינים שם ייחודי למשימה.
  4. אופציונלי: בשדה Regional endpoint (נקודת קצה אזורית), בוחרים ערך מהתפריט הנפתח. אזור ברירת המחדל הוא us-central1.

    רשימת האזורים שבהם אפשר להריץ משימת Dataflow מופיעה במאמר מיקומי Dataflow.

  5. בתפריט הנפתח Dataflow template (תבנית של העברת נתונים), בוחרים באפשרות the Bulk Compress Files on Cloud Storage template.
  6. בשדות הפרמטרים שמופיעים, מזינים את ערכי הפרמטרים.
  7. לוחצים על הפעלת העבודה.

gcloud

במעטפת או בטרמינל, מריצים את התבנית:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Bulk_Compress_GCS_Files \
    --region REGION_NAME \
    --parameters \
inputFilePattern=gs://BUCKET_NAME/uncompressed/*.txt,\
outputDirectory=gs://BUCKET_NAME/compressed,\
outputFailureFile=gs://BUCKET_NAME/failed/failure.csv,\
compression=COMPRESSION

מחליפים את מה שכתוב בשדות הבאים:

  • JOB_NAME: שם ייחודי של המשימה לפי בחירתכם
  • REGION_NAME: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה: us-central1
  • VERSION: הגרסה של התבנית שבה רוצים להשתמש

    אפשר להשתמש בערכים הבאים:

    • latest כדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית ההורה ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/
    • שם הגרסה, כמו 2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
  • BUCKET_NAME: שם הקטגוריה של Cloud Storage
  • COMPRESSION: אלגוריתם הדחיסה שבחרתם

API

כדי להריץ את התבנית באמצעות API בארכיטקטורת REST, שולחים בקשת HTTP POST. מידע נוסף על ה-API ועל היקפי ההרשאות שלו זמין במאמר projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Bulk_Compress_GCS_Files
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputFilePattern": "gs://BUCKET_NAME/uncompressed/*.txt",
       "outputDirectory": "gs://BUCKET_NAME/compressed",
       "outputFailureFile": "gs://BUCKET_NAME/failed/failure.csv",
       "compression": "COMPRESSION"
   },
   "environment": { "zone": "us-central1-f" }
}

מחליפים את מה שכתוב בשדות הבאים:

  • PROJECT_ID: מזהה הפרויקט שבו רוצים להריץ את משימת Dataflow Google Cloud
  • JOB_NAME: שם ייחודי של המשימה לפי בחירתכם
  • LOCATION: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה: us-central1
  • VERSION: הגרסה של התבנית שבה רוצים להשתמש

    אפשר להשתמש בערכים הבאים:

    • latest כדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית ההורה ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/
    • שם הגרסה, כמו 2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
  • BUCKET_NAME: שם הקטגוריה של Cloud Storage
  • COMPRESSION: אלגוריתם הדחיסה שבחרתם

המאמרים הבאים