תיעוד Dataproc
Dataproc הוא שירות מנוהל של Apache Spark ו-Apache Hadoop שמאפשר לכם להשתמש בכלים לנתונים בקוד פתוח לעיבוד ברצף (batch processing), לשליחת שאילתות, להעברת נתונים בסטרימינג וללמידת מכונה. האוטומציה של Dataproc עוזרת ליצור אשכולות במהירות, לנהל אותם בקלות ולחסוך כסף על ידי השבתת אשכולות כשלא צריך אותם. כך תוכלו להשקיע פחות זמן וכסף באדמיניסטרציה ולהתמקד בעבודה ובנתונים.
מתחילים לעבוד על הוכחת ההיתכנות בחינם עם קרדיט בשווי 300$
- פיתוח באמצעות המודלים והכלים הכי עדכניים שלנו ל-AI גנרטיבי
- שימוש בחינם ביותר מ-20 מוצרים פופולריים, כולל Compute Engine וממשקי API של AI
- בלי חיובים אוטומטיים ובלי התחייבות
מתנסים ביותר מ-20 מוצרים שבחינם תמיד
אתם יכולים להשתמש ביותר מ-20 מוצרים בחינם לתרחישי שימוש נפוצים, כולל ממשקי API של AI, מכונות וירטואליות, מחסני נתונים (data warehouse) ועוד.
משאבי עזרה
מדריכים
-
מדריכים למתחילים: המסוף, שורת הפקודה, ספריות לקוח, APIs Explorer – יצירת אשכול, או APIs Explorer – שליחת משימת Spark
מקורות מידע שקשורים לנושא
הפעלת משימת Spark ב-Google Kubernetes Engine
שליחת משימות Spark לאשכול Google Kubernetes Engine פעיל מ-Dataproc Jobs API.
מבוא ל-Cloud Dataproc: Hadoop ו-Spark ב-Google Cloud
הקורס כולל שילוב של הרצאות, הדגמות ושיעורי Lab מעשיים, שבהם תלמדו איך ליצור אשכול Dataproc, לשלוח משימת Spark ואז לכבות את האשכול.
למידת מכונה באמצעות Spark ב-Dataproc
הקורס כולל שילוב של הרצאות, הדגמות ושיעורי Lab מעשיים שמטרתם ללמד איך ליישם רגרסיה לוגיסטית באמצעות ספריית למידת מכונה של Apache Spark שפועלת באשכול Dataproc, כדי לפתח מודל לנתונים ממערך נתונים מרובה משתנים.
העברת נתונים מ-HDFS משרת מקומי ל-Google Cloud
איך מעבירים נתונים ממערכת קבצים מבוזרת של Hadoop (HDFS) בארגון ל-Google Cloud.
ניהול יחסי תלות של Java ו-Scala ב-Apache Spark
גישות מומלצות להכללת תלויות כששולחים משימת Spark לאשכול Dataproc.