Dokumentasi Dataproc
Dataproc adalah layanan Apache Spark dan Apache Hadoop terkelola yang memungkinkan Anda memanfaatkan alat data open source untuk batch processing, pembuatan kueri, streaming, dan machine learning. Otomatisasi Dataproc membantu Anda membuat cluster dengan cepat, mengelolanya dengan mudah, dan menghemat uang dengan menonaktifkan cluster saat tidak diperlukan. Karena lebih sedikit waktu dan uang yang dihabiskan untuk administrasi, Anda dapat berfokus pada pekerjaan dan data Anda.
Buka halaman produk Dataproc untuk mengetahui informasi selengkapnya.
Mulai bukti konsep Anda dengan kredit gratis senilai $300
- Kembangkan dengan model dan alat AI Generatif terbaru kami.
- Dapatkan penggunaan gratis untuk lebih dari 20 produk populer, termasuk Compute Engine dan AI API.
- Tanpa tagihan otomatis, tanpa komitmen.
Terus menjelajahi dengan lebih dari 20 produk yang selalu gratis.
Akses lebih dari 20 produk gratis untuk kasus penggunaan umum, termasuk API AI, VM, data warehouse, dan lainnya.
Referensi dokumentasi
Panduan
-
Panduan memulai: Konsol, Command line, Library Klien, APIs Explorer—Membuat cluster, atau APIs Explorer—Mengirimkan tugas Spark
Referensi terkait
Menjalankan tugas Spark di Google Kubernetes Engine
Kirimkan tugas Spark ke cluster Google Kubernetes Engine yang sedang berjalan dari Dataproc Jobs API.
Pengantar Cloud Dataproc: Hadoop dan Spark di Google Cloud
Kursus ini memiliki gabungan materi, demo, dan lab praktik untuk membuat cluster Dataproc, mengirimkan tugas Spark, lalu mematikan cluster.
Machine Learning dengan Spark di Dataproc
Kursus ini berisi kombinasi materi, demo, dan lab interaktif untuk menerapkan regresi logistik menggunakan library machine learning untuk Apache Spark yang berjalan di cluster Dataproc guna mengembangkan model untuk data dari set data multivariabel.
Solusi penjadwalan alur kerja
Jadwalkan alur kerja di Google Cloud.
Memigrasikan Data HDFS dari Infrastruktur Lokal ke Google Cloud
Cara memindahkan data dari Hadoop Distributed File System (HDFS) lokal ke Google Cloud.
Mengelola dependensi Java dan Scala untuk Apache Spark
Pendekatan yang direkomendasikan untuk menyertakan dependensi saat Anda mengirimkan tugas Spark ke cluster Dataproc.