Dataproc הוא שירות מנוהל ל-Spark ול-Hadoop שמאפשר לכם להשתמש בכלים לנתונים בקוד פתוח לעיבוד ברצף (batch processing), לשליחת שאילתות, להעברת נתונים בסטרימינג וללמידת מכונה. האוטומציה של Dataproc עוזרת לכם ליצור אשכולות במהירות, לנהל אותם בקלות ולחסוך כסף על ידי השבתת אשכולות כשאתם לא צריכים אותם. כך תוכלו להשקיע פחות זמן וכסף באדמיניסטרציה ולהתמקד בעבודה ובנתונים.
היתרונות של Dataproc
בהשוואה למוצרים מסורתיים מקומיים ולשירותי ענן מתחרים, ל-Dataproc יש כמה יתרונות ייחודיים עבור אשכולות של שלושה עד מאות צמתים:
- עלות נמוכה – התמחור של Dataproc הוא סנט אחד בלבד לשעה לכל מעבד וירטואלי באשכול, בנוסף למשאבים אחרים של Cloud Platform שבהם אתם משתמשים. בנוסף למחיר הנמוך הזה, אשכולות Dataproc יכולים לכלול מופעים שניתנים להפסקת פעולה עם מחירים נמוכים יותר של מחשוב, וכך להוזיל את העלויות עוד יותר. במקום לעגל את השימוש לשעה הקרובה, Dataproc מחייב אתכם רק על מה שאתם באמת משתמשים בו, עם חיוב לפי שניות ותקופת חיוב מינימלית קצרה של דקה אחת.
- מהיר במיוחד – בלי להשתמש ב-Dataproc, יכול לקחת חמש עד 30 דקות ליצור אשכולות Spark ו-Hadoop מקומיים או דרך ספקי IaaS. לעומת זאת, אשכולות Dataproc מתחילים לפעול, מתרחבים ונכבים במהירות, וכל אחת מהפעולות האלה אורכת 90 שניות או פחות, בממוצע. המשמעות היא שאתם יכולים להקדיש פחות זמן להמתנה לאשכולות ויותר זמן מעשי לעבודה עם הנתונים.
- משולב – ל-Dataproc יש שילוב מובנה עם שירותים אחרים של Google Cloud Platform, כמו BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging ו-Cloud Monitoring. כך מקבלים לא רק אשכול Spark או Hadoop, אלא פלטפורמת נתונים מלאה. לדוגמה, אפשר להשתמש ב-Dataproc כדי לבצע בקלות תהליכי ETL (חילוץ, המרה וטעינה) של טרה-בייט של נתוני יומן גולמיים ישירות ל-BigQuery לצורך דיווח עסקי.
- מנוהל – שימוש באשכולות Spark ו-Hadoop ללא עזרה של אדמין או תוכנה מיוחדת. אפשר ליצור אינטראקציה בקלות עם אשכולות ועם משימות Spark או Hadoop באמצעות Google Cloud המסוף, Cloud SDK או Dataproc REST API. כשמסיימים להשתמש באשכול, אפשר פשוט להשבית אותו כדי שלא תשלמו על אשכול בלי פעילות. לא צריך לדאוג לאובדן נתונים, כי Dataproc משולב עם Cloud Storage, BigQuery ו-Cloud Bigtable.
- פשוט ומוכר – לא צריך ללמוד כלים חדשים או ממשקי API כדי להשתמש ב-Dataproc, ולכן קל להעביר פרויקטים קיימים ל-Dataproc בלי לפתח אותם מחדש. Spark, Hadoop, Pig ו-Hive מתעדכנים לעיתים קרובות, כך שתוכלו להיות פרודוקטיביים מהר יותר.
מה כלול ב-Dataproc
רשימת הגרסאות של מחברים ושל קוד פתוח (Hadoop, Spark, Hive ו-Pig) שנתמכות על ידי Dataproc מופיעה ברשימת הגרסאות של Dataproc. Google Cloud
תחילת העבודה עם Dataproc
כדי להתחיל במהירות להשתמש ב-Dataproc, אפשר לעיין במדריכים למתחילים בנושא Dataproc. אפשר לגשת ל-Dataproc בדרכים הבאות:
- באמצעות API בארכיטקטורת REST
- שימוש ב-Cloud SDK
- באמצעות ממשק המשתמש של Dataproc
- באמצעות ספריות לקוח ב-Cloud