Managed Service untuk Apache Spark di cluster memungkinkan Anda memanfaatkan alat data open source untuk batch processing, pembuatan kueri, streaming, dan machine learning. Otomatisasi Managed Service untuk Apache Spark di cluster membantu Anda membuat cluster dengan cepat, mengelolanya dengan mudah, dan menghemat biaya dengan menonaktifkan cluster saat tidak diperlukan. Karena lebih sedikit waktu dan uang yang dihabiskan untuk tugas administrasi, Anda dapat berfokus pada pekerjaan dan data Anda.
Keuntungan Managed Service untuk Apache Spark di cluster
Jika dibandingkan dengan produk lokal tradisional dan layanan cloud pesaing, Managed Service untuk Apache Spark memberikan sejumlah keuntungan unik untuk cluster yang terdiri dari tiga hingga ratusan node:
- Biaya rendah — Managed Service untuk Apache Spark di cluster dikenai biaya hanya 1 sen per CPU virtual di cluster Anda per jam, di luar Google Cloud resource lain yang Anda gunakan. Selain harga rendah ini, cluster Managed Service untuk Apache Spark dapat mencakup preemptible instance yang memiliki harga komputasi lebih rendah, sehingga mengurangi biaya Anda lebih lanjut. Daripada membulatkan penggunaan Anda ke jam terdekat, Managed Service untuk Apache Spark di cluster hanya menagih Anda untuk apa yang benar-benar Anda gunakan dengan penagihan per detik dan periode penagihan minimum satu menit yang rendah.
- Sangat cepat — Tanpa menggunakan Managed Service untuk Apache Spark di cluster, diperlukan waktu sekitar lima hingga 30 menit untuk membuat cluster Spark dan Hadoop secara lokal atau melalui penyedia IaaS. Sebagai perbandingan, cluster Managed Service untuk Apache Spark dapat dimulai, diskalakan, dan dimatikan dengan cepat. Setiap operasi ini rata-rata membutuhkan waktu 90 detik atau lebih cepat. Artinya, Anda dapat menghabiskan lebih sedikit waktu untuk menunggu cluster dan memiliki lebih banyak waktu untuk bekerja dengan data.
- Terintegrasi — Managed Service untuk Apache Spark di cluster memiliki integrasi bawaan dengan layanan Google Cloud lain, seperti BigQuery, Cloud Storage, Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga Anda tidak hanya memiliki cluster Spark atau Hadoop, tetapi juga platform data yang lengkap. Misalnya, Anda dapat menggunakan Managed Service untuk Apache Spark di cluster untuk dengan mudah melakukan ETL pada data log mentah berukuran terabyte langsung ke BigQuery untuk pelaporan bisnis.
- Terkelola — Gunakan cluster Spark dan Hadoop tanpa bantuan administrator atau software khusus. Anda dapat berinteraksi dengan cluster dan tugas Spark atau Hadoop melalui konsol Google Cloud , Cloud SDK, atau Managed Service untuk Apache Spark di REST API cluster. Setelah selesai menggunakan suatu cluster, Anda dapat menonaktifkannya agar biaya tidak terbuang sia-sia untuk cluster yang tidak ada aktivitas. Anda tidak perlu khawatir kehilangan data, karena Managed Service untuk Apache Spark terintegrasi dengan Cloud Storage, BigQuery, dan Bigtable.
- Sederhana dan mudah digunakan — Anda tidak perlu mempelajari alat atau API baru untuk menggunakan Managed Service untuk Apache Spark di cluster, sehingga Anda dapat memindahkan project yang sudah ada ke Managed Service untuk Apache Spark di cluster tanpa pengembangan ulang. Spark, Hadoop, Pig, dan Hive sering diperbarui, sehingga Anda dapat bekerja lebih produktif dengan lebih cepat.
Apa yang disertakan dalam Managed Service untuk Apache Spark di cluster?
Untuk mengetahui daftar versi open source (Hadoop, Spark, Hive, dan Pig) serta konektor yang didukung oleh Managed Service untuk Apache Spark di cluster, lihat daftar versi image cluster Managed Service untuk Apache Spark. Google Cloud
Memulai
Untuk memulai, lihat panduan memulai Managed Service untuk Apache Spark di cluster. Anda dapat mengakses Managed Service untuk Apache Spark di cluster dengan cara berikut:
- Melalui REST API
- Menggunakan Cloud SDK
- Menggunakan Google Cloud console
- Menggunakan Library Klien Cloud