Library Java open source konektor Cloud Storage memungkinkan Anda menjalankan tugas Apache Hadoop atau Apache Spark langsung pada data di Cloud Storage.
Lightning Engine meningkatkan konektivitas ke Cloud Storage untuk mengoptimalkan performa mesin native-nya. Konektor Cloud Storage yang ditingkatkan meminimalkan operasi metadata untuk mengurangi biaya, sementara committer output file yang dioptimalkan meningkatkan performa dan keandalan untuk workload Spark. Lengkapi formulir Akses Awal untuk meminta akses awal ke fitur pratinjau pribadi ini.
Manfaat konektor Cloud Storage
- Akses data langsung: Simpan data Anda di Cloud Storage dan akses data tersebut secara langsung. Anda tidak perlu mentransfernya ke HDFS terlebih dahulu.
- Kompatibilitas HDFS: Anda dapat mengakses data di Cloud Storage menggunakan awalan
gs://, bukanhdfs://. - Interoperabilitas: Menyimpan data di Cloud Storage memungkinkan interoperabilitas yang lancar antara layanan Spark, Hadoop, dan Google.
- Aksesibilitas data: Saat Anda mematikan cluster Hadoop, tidak seperti HDFS, Anda akan terus memiliki akses ke data di Cloud Storage.
- Ketersediaan data yang tinggi: Data yang disimpan di Cloud Storage sangat tersedia dan direplikasi secara global tanpa kehilangan performa.
- Tidak ada overhead pengelolaan penyimpanan: Tidak seperti HDFS, Cloud Storage tidak memerlukan pemeliharaan rutin, seperti memeriksa sistem file, atau mengupgrade atau melakukan roll back ke versi sistem file sebelumnya.
- Startup cepat: Di HDFS, tugas MapReduce tidak dapat dimulai hingga
NameNodekeluar dari mode aman, sebuah proses yang dapat berlangsung dari beberapa detik hingga beberapa menit, bergantung pada ukuran dan status data Anda. Dengan Cloud Storage, Anda dapat memulai tugas segera setelah node tugas dimulai, yang akan menghemat biaya secara signifikan dari waktu ke waktu.
Penyiapan konektor di cluster Managed Service untuk Apache Spark
Konektor Cloud Storage diinstal secara default di semua node cluster Managed Service untuk Apache Spark di direktori /usr/local/share/google/dataproc/lib/. Subbagian berikut menjelaskan langkah-langkah yang dapat Anda lakukan untuk menyelesaikan penyiapan konektor di cluster Managed Service untuk Apache Spark.
Akun layanan VM
Saat menjalankan konektor di node cluster Managed Service untuk Apache Spark
dan VM Compute Engine lainnya, properti
google.cloud.auth.service.account.enable ditetapkan
ke false secara default, yang berarti Anda tidak perlu mengonfigurasi
kredensial akun layanan VM
untuk konektor—kredensial akun layanan VM disediakan oleh
server metadata VM.
Akun layanan VM Managed Service untuk Apache Spark harus memiliki izin untuk mengakses bucket Cloud Storage Anda.
Jika Anda menggunakan akun layanan kustom dengan cluster tugas Spark 2.2+: Jika Anda
memilih
akun layanan kustom
saat membuat cluster versi image Managed Service untuk Apache Spark 2.2+ yang Anda
kirimkan tugas Spark-nya, dan jika tugas Spark Anda membaca dari atau menulis ke Cloud Storage,
untuk menghindari masalah izin yang dapat menyebabkan kegagalan tugas, tambahkan konfigurasi berikut (ditampilkan dengan huruf tebal) ke kode pembuatan sesi Spark Anda:
spark = SparkSession.builder \
.appName(appName) \
.config("fs.gs.auth.type", "SERVICE_ACCOUNT_JSON_KEYFILE") \
.config("fs.gs.auth.service.account.json.keyfile", "path/to/your/keyfile.json") \
.getOrCreate()
Untuk memverifikasi bahwa izin ditetapkan dengan benar, pastikan akun layanan kustom memiliki izin storage.objects.get dan storage.objects.create:
- Lihat akses saat ini untuk mencantumkan peran yang diberikan ke akun layanan kustom.
- Temukan peran atau izin untuk mencari izin yang terkait dengan peran.
Versi konektor yang dipilih pengguna
Versi konektor Cloud Storage default yang digunakan dalam image terbaru yang diinstal di cluster Managed Service untuk Apache Spark tercantum di halaman versi image. Jika aplikasi Anda bergantung pada versi konektor non-default yang di-deploy di cluster, Anda dapat melakukan salah satu tindakan berikut untuk menggunakan versi konektor yang dipilih:
- Buat cluster dengan flag
--metadata=GCS_CONNECTOR_VERSION=x.y.z, yang mengupdate konektor yang digunakan oleh aplikasi yang berjalan di cluster ke versi konektor yang ditentukan. - Sertakan dan pindahkan class konektor dan dependensi konektor untuk versi yang Anda gunakan ke dalam jar aplikasi. Pemindahan diperlukan untuk menghindari konflik antara versi konektor yang di-deploy dan versi konektor default yang diinstal di cluster Managed Service untuk Apache Spark. Lihat juga contoh pemindahan dependensi Maven .
Penyiapan konektor di cluster non-Managed Service untuk Apache Spark
Anda dapat melakukan langkah-langkah berikut untuk menyiapkan konektor Cloud Storage di cluster non-Managed Service untuk Apache Spark, seperti cluster Apache Hadoop atau Spark yang Anda gunakan untuk memindahkan data HDFS lokal ke Cloud Storage.
Download konektor.
- Untuk mendownload konektor Cloud Storage:
- Untuk menggunakan versi
latestyang berada di bucket Cloud Storage (sebaiknya jangan gunakan versilatestuntuk aplikasi produksi): - Untuk menggunakan versi tertentu
dari bucket Cloud Storage Anda dengan mengganti versi konektor Hadoop dan
Cloud Storage dalam pola
gcs-connector-HADOOP_VERSION-CONNECTOR_VERSION.jarnama, misalnya,gs://hadoop-lib/gcs/gcs-connector-hadoop2-2.1.1.jar. - Untuk menggunakan versi tertentu
dari
repositori Apache Maven,
download jar yang di-shade yang memiliki akhiran
-shadeddalam nama.
- Untuk menggunakan versi
- Untuk mendownload konektor Cloud Storage:
Instal konektor.
Ikuti petunjuk GitHub untuk menginstal, mengonfigurasi, dan menguji konektor Cloud Storage.
Penggunaan konektor
Anda dapat menggunakan konektor untuk mengakses data Cloud Storage dengan cara berikut:
- Di aplikasi Spark, PySpark, atau Hadoop dengan awalan
gs:// - Di shell hadoop dengan
hadoop fs -ls gs://bucket/dir/file - Di Cloud Storage Browser Di Google Cloud konsol
- Menggunakan perintah Google Cloud SDK, seperti:
Penggunaan Java
Konektor Cloud Storage memerlukan Java 8.
Berikut adalah contoh bagian pengelolaan dependensi POM Maven untuk konektor Cloud Storage. Untuk informasi tambahan, lihat Pengelolaan Dependensi.
<dependency>
<groupId>com.google.cloud.bigdataoss</groupId>
<artifactId>gcs-connector</artifactId>
<version>hadoopX-X.X.XCONNECTOR VERSION</version>
<scope>provided</scope>
</dependency>
Untuk versi yang di-shade:
<dependency>
<groupId>com.google.cloud.bigdataoss</groupId>
<artifactId>gcs-connector</artifactId>
<version>hadoopX-X.X.XCONNECTOR VERSION</version>
<scope>provided</scope>
<classifier>shaded</classifier>
</dependency>
Dukungan konektor
Konektor Cloud Storage didukung oleh Google Cloud untuk digunakan dengan Google Cloud produk dan kasus penggunaan. Saat digunakan dengan Managed Service untuk Apache Spark, konektor ini didukung pada tingkat yang sama dengan Managed Service untuk Apache Spark. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan dukungan.
Menghubungkan ke Cloud Storage menggunakan gRPC
Secara default, konektor Cloud Storage di Managed Service untuk Apache Spark menggunakan Cloud Storage JSON API. Bagian ini menunjukkan cara mengaktifkan konektor Cloud Storage untuk menggunakan gRPC.
Pertimbangan penggunaan
Penggunaan konektor Cloud Storage dengan gRPC mencakup pertimbangan berikut:
- Lokasi bucket regional: gRPC dapat meningkatkan latensi baca hanya jika VM Compute Engine dan bucket Cloud Storage berada di region Compute Engine yang sama.
- Tugas yang intensif membaca: gRPC dapat menawarkan latensi baca yang lebih baik untuk pembacaan yang berjalan lama, dan dapat membantu workload yang intensif membaca. Sebaiknya jangan gunakan untuk aplikasi yang membuat channel gRPC, menjalankan komputasi singkat, lalu menutup channel.
- Permintaan yang tidak diautentikasi: gRPC tidak mendukung permintaan yang tidak diautentikasi.
Persyaratan
Persyaratan berikut berlaku saat menggunakan gRPC dengan konektor Cloud Storage:
Jaringan VPC cluster Managed Service untuk Apache Spark harus mendukung konektivitas langsung. Artinya, rute dan aturan firewall jaringan harus mengizinkan traffic keluar untuk menjangkau
34.126.0.0/18dan2001:4860:8040::/42.- Jika cluster Managed Service untuk Apache Spark menggunakan jaringan IPv6, Anda harus menyiapkan subnet IPv6 untuk instance VM. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi IPv6 untuk instance dan template instance.
Saat membuat cluster Managed Service untuk Apache Spark, Anda harus menggunakan konektor Cloud Storage versi
2.2.23atau yang lebih baru dengan versi image2.1.56+atau Cloud Storage konektor versi v3.0.0 atau yang lebih baru dengan versi image 2.2.0+. Versi konektor Cloud Storage yang diinstal di setiap versi image Managed Service untuk Apache Spark tercantum di halaman versi image Managed Service untuk Apache Spark.- Jika Anda membuat dan menggunakan
cluster virtual Managed Service untuk Apache Spark di GKE
untuk permintaan Cloud Storage gRPC, sebaiknya gunakan GKE versi
1.28.5-gke.1199000dengangke-metadata-server 0.4.285. Kombinasi ini mendukung konektivitas langsung.
- Jika Anda membuat dan menggunakan
cluster virtual Managed Service untuk Apache Spark di GKE
untuk permintaan Cloud Storage gRPC, sebaiknya gunakan GKE versi
Anda atau administrator organisasi Anda harus memberikan peran Identity and Access Management yang menyertakan izin yang diperlukan untuk menyiapkan dan membuat permintaan gRPC ke konektor Cloud Storage. Peran ini dapat mencakup hal berikut:
- Peran pengguna: Editor Dataproc peran diberikan kepada pengguna untuk mengizinkan mereka membuat cluster dan mengirimkan tugas
- Peran akun layanan: Peran Pengguna Objek Penyimpanan diberikan ke akun layanan VM Managed Service untuk Apache Spark agar aplikasi yang berjalan di VM cluster dapat melihat, membaca, membuat, dan menulis objek Cloud Storage.
Mengaktifkan gRPC di konektor Cloud Storage
Anda dapat mengaktifkan gRPC di konektor Cloud Storage di tingkat cluster atau tugas. Setelah diaktifkan di cluster, permintaan baca konektor Cloud Storage akan menggunakan gRPC. Jika diaktifkan pada tugas, bukan di tingkat cluster, permintaan baca konektor Cloud Storage hanya akan menggunakan gRPC untuk tugas tersebut.
Mengaktifkan cluster
Untuk mengaktifkan gRPC di konektor Cloud Storage di tingkat cluster,
tetapkan properti core:fs.gs.client.type=STORAGE_CLIENT saat Anda
membuat cluster Managed Service untuk Apache Spark.
Setelah gRPC diaktifkan di tingkat cluster, permintaan baca konektor Cloud Storage yang dibuat oleh tugas yang berjalan di cluster akan menggunakan gRPC.
Contoh gcloud CLI:
gcloud dataproc clusters create CLUSTER_NAME \
--project=PROJECT_ID \
--region=REGION \
--properties=core:fs.gs.client.type=STORAGE_CLIENT
Ganti hal berikut:
- CLUSTER_NAME: Tentukan nama untuk cluster Anda.
- PROJECT_NAME: Project ID project tempat cluster berada. Project ID tercantum di bagian Project info di dasbor konsol. Google Cloud
- REGION: Tentukan region Compute Engine tempat cluster akan berada.
Mengaktifkan tugas
Untuk mengaktifkan gRPC di konektor Cloud Storage untuk tugas
tertentu, sertakan --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT
saat Anda mengirimkan tugas.
Contoh: Menjalankan tugas di cluster yang ada yang menggunakan gRPC untuk membaca dari Cloud Storage.
Buat skrip PySpark
/tmp/line-count.pylokal yang menggunakan gRPC untuk membaca file teks Cloud Storage dan menampilkan jumlah baris dalam file.cat <<EOF >"/tmp/line-count.py" #!/usr/bin/python import sys from pyspark.sql import SparkSession path = sys.argv[1] spark = SparkSession.builder.getOrCreate() rdd = spark.read.text(path) lines_counter = rdd.count() print("There are {} lines in file: {}".format(lines_counter,path)) EOFBuat file teks
/tmp/line-count-sample.txtlokal.cat <<EOF >"/tmp/line-count-sample.txt" Line 1 Line 2 line 3 EOF
Upload
/tmp/line-count.pydan/tmp/line-count-sample.txtlokal ke bucket Anda di Cloud Storage.gcloud storage cp /tmp/line-count* gs://BUCKET
Jalankan tugas
line-count.pydi cluster Anda. Tetapkan--properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENTuntuk mengaktifkan gRPC untuk permintaan baca konektor Cloud Storage.gcloud dataproc jobs submit pyspark gs://BUCKET/line-count.py \ --cluster=CLUSTER_NAME \ --project=PROJECT_ID \ --region=REGION \ --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT \ -- gs://BUCKET/line-count-sample.txt
Ganti hal berikut:
- CLUSTER_NAME: Nama cluster yang ada.
- PROJECT_NAME: Project ID Anda. Project ID tercantum di bagian Project info di Google Cloud konsol Dasbor.
- REGION: Region Compute Engine tempat cluster berada.
- BUCKET: Bucket Cloud Storage Anda.
Membuat metrik sisi klien gRPC
Anda dapat mengonfigurasi konektor Cloud Storage untuk membuat metrik terkait gRPC di Cloud Monitoring. Metrik terkait gRPC dapat membantu Anda melakukan hal berikut:
- Memantau dan mengoptimalkan performa permintaan gRPC ke Cloud Storage
- Memecahkan masalah dan melakukan debug
- Mendapatkan insight tentang penggunaan dan perilaku aplikasi
Untuk mengetahui informasi tentang cara mengonfigurasi konektor Cloud Storage untuk membuat metrik terkait gRPC, lihat Menggunakan metrik sisi klien gRPC.
Resource
- Lihat properti konfigurasi konektor Cloud Storage GitHub .
- Lihat Menghubungkan ke Cloud Storage menggunakan gRPC untuk menggunakan konektor Cloud Storage dengan library klien, Kontrol Layanan VPC, dan skenario lainnya.
- Pelajari Cloud Storage lebih lanjut.
- Lihat Menggunakan konektor Cloud Storage dengan Apache Spark.
- Memahami sistem file Apache Hadoop .
- Lihat referensi Javadoc.