"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menggunakan konektor Cloud Storage dengan Apache Spark

Tutorial ini menunjukkan cara menjalankan contoh kode yang menggunakan konektor Cloud Storage dengan Apache Spark.

Lightning Engine meningkatkan konektivitas ke Cloud Storage untuk mengoptimalkan performa mesin aslinya. Konektor Cloud Storage yang ditingkatkan meminimalkan operasi metadata untuk mengurangi biaya, sementara committer output file yang dioptimalkan meningkatkan performa dan keandalan untuk beban kerja Spark. Isi formulir Akses Awal untuk meminta akses awal ke fitur pratinjau pribadi ini.

Tujuan

Tulis tugas wordcount Spark sederhana di Java, Scala, atau Python, lalu jalankan tugas di cluster Managed Service untuk Apache Spark.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Compute Engine
Managed Service for Apache Spark
Cloud Storage

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

Jalankan langkah-langkah di bawah untuk bersiap menjalankan kode dalam tutorial ini.

Siapkan project Anda. Jika perlu, siapkan project dengan Managed Service untuk Apache Spark, Compute Engine, dan Cloud Storage API yang diaktifkan serta Google Cloud CLI yang diinstal di komputer lokal Anda.
Membuat bucket Cloud Storage. Anda memerlukan Cloud Storage untuk menyimpan data tutorial. Jika Anda belum memiliki bucket yang siap digunakan, buat bucket baru di project Anda.
1. Di konsol Google Cloud , buka halaman Buckets Cloud Storage.
  Buka Buckets
2. Klik Create.
3. Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke langkah berikutnya, klik Lanjutkan.
  1. Di bagian Mulai, lakukan tindakan berikut:
    - Masukkan nama yang unik secara global yang memenuhi persyaratan penamaan bucket.
    - Untuk menambahkan label bucket, luaskan bagian Label (), klik Tambahkan label, lalu tentukan key dan value untuk label Anda.
  2. Di bagian Pilih tempat untuk menyimpan data Anda, lakukan tindakan berikut:
    1. Pilih Jenis lokasi.
    2. Pilih lokasi tempat data bucket Anda disimpan secara permanen dari menu drop-down Location type.
      - Jika memilih jenis lokasi dual-region, Anda juga dapat memilih untuk mengaktifkan replikasi turbo dengan menggunakan kotak centang yang relevan.
    3. Untuk menyiapkan replikasi lintas bucket, pilih Tambahkan replikasi lintas bucket melalui Storage Transfer Service dan ikuti langkah-langkah berikut:
      Menyiapkan replikasi lintas bucket
      
      Di menu Bucket, pilih bucket.
      
      Di bagian Setelan replikasi, klik Konfigurasi untuk mengonfigurasi setelan bagi tugas replikasi.
      
      Panel Konfigurasi replikasi lintas bucket akan muncul.
      
      Untuk memfilter objek yang akan direplikasi menurut awalan nama objek, masukkan awalan yang ingin Anda sertakan atau kecualikan objeknya, lalu klik Tambahkan awalan.
      
      Untuk menetapkan kelas penyimpanan bagi objek yang direplikasi, pilih kelas penyimpanan dari menu Kelas penyimpanan. Jika Anda melewati langkah ini, objek yang direplikasi akan menggunakan kelas penyimpanan bucket tujuan secara default.
      
      Klik Done.
  3. Di bagian Choose how to store your data, lakukan tindakan berikut:
    1. Pilih kelas penyimpanan default untuk bucket atau Autoclass untuk pengelolaan kelas penyimpanan otomatis untuk data bucket Anda.
    2. Untuk mengaktifkan namespace hierarkis, di bagian Optimalkan penyimpanan untuk workload intensif data, pilih Aktifkan namespace hierarkis di bucket ini.
      Catatan: Anda tidak dapat mengaktifkan namespace hierarkis di bucket yang sudah ada.
  4. Di bagian Pilih cara mengontrol akses ke objek, pilih apakah bucket Anda menerapkan pencegahan akses publik atau tidak, lalu pilih metode kontrol akses untuk objek bucket Anda.
    Catatan: Anda tidak dapat mengubah setelan Prevent public access jika setelan ini diterapkan di kebijakan organisasi.
  5. Di bagian Pilih cara melindungi data objek, lakukan tindakan berikut:
    - Pilih salah satu opsi di bagian Perlindungan data yang ingin Anda tetapkan untuk bucket Anda.
      - Untuk mengaktifkan penghapusan sementara, klik kotak centang Kebijakan penghapusan sementara (Untuk pemulihan data), dan tentukan jumlah hari Anda ingin mempertahankan objek setelah penghapusan.
      - Untuk menyetel Pembuatan Versi Objek, klik kotak centang Pembuatan versi objek (Untuk kontrol versi), dan tentukan jumlah maksimum versi per objek dan jumlah hari setelah versi lama berakhir.
      - Untuk mengaktifkan kebijakan retensi pada objek dan bucket, klik kotak centang Retensi (Untuk kepatuhan), lalu lakukan hal berikut:
        
        Untuk mengaktifkan Penguncian Retensi Objek, klik kotak Aktifkan retensi objek.
        
        Untuk mengaktifkan Bucket Lock, centang kotak Setel kebijakan retensi bucket, lalu pilih satuan waktu dan durasi untuk periode retensi data Anda.
    - Untuk memilih cara data objek Anda akan dienkripsi, luaskan bagian Enkripsi data (), lalu pilih metode Enkripsi data.
4. Klik Create.
Tetapkan variabel lingkungan lokal. Tetapkan variabel lingkungan di mesin lokal Anda. Tetapkan Google Cloud project-id dan nama bucket Cloud Storage yang akan Anda gunakan untuk tutorial ini. Berikan juga nama dan region cluster Managed Service untuk Apache Spark yang sudah ada atau baru. Anda dapat membuat cluster untuk digunakan dalam tutorial ini di langkah berikutnya.
```
PROJECT=project-id
```
```
BUCKET_NAME=bucket-name
```
```
CLUSTER=cluster-name
```
```
REGION=cluster-region Example: "us-central1"
```
Buat cluster Managed Service untuk Apache Spark. Jalankan perintah di bawah untuk membuat cluster Managed Service for Apache Spark satu node di zona Compute Engine yang ditentukan.
```
gcloud dataproc clusters create ${CLUSTER} \
    --project=${PROJECT} \
    --region=${REGION} \
    --single-node
```
Perintah di atas menginstal versi image cluster default. Anda dapat menggunakan flag --image-version untuk memilih versi image untuk cluster Anda. Setiap versi image menginstal komponen library Spark dan Scala versi tertentu. Jika Anda menyiapkan tugas wordcount Spark di Java atau Scala, Anda akan mereferensikan versi Spark dan Scala yang diinstal di cluster saat menyiapkan paket tugas.
Salin data publik ke bucket Cloud Storage Anda. Salin cuplikan teks Shakespeare dari data publik ke folder input di bucket Cloud Storage Anda:
```
gcloud storage cp gs://pub/shakespeare/rose.txt \
    gs://${BUCKET_NAME}/input/rose.txt
```
Siapkan lingkungan pengembangan Java (Apache Maven), Scala (SBT), atau Python.
Gunakan Cloud Shell. Cloud Shell mencakup alat yang digunakan dalam tutorial ini, termasuk Apache Maven, Python, dan Google Cloud CLI.

Menyiapkan tugas wordcount Spark

Pilih tab di bawah untuk mengikuti langkah-langkah menyiapkan paket tugas atau file untuk dikirimkan ke cluster Anda. Anda dapat menyiapkan salah satu jenis tugas berikut;

Tugas Spark di Java menggunakan Apache Maven untuk membangun paket JAR
Tugas Spark di Scala menggunakan SBT untuk membangun paket JAR
Tugas Spark di Python (PySpark)

Java

Salin file pom.xml ke mesin lokal Anda. File pom.xml berikut menentukan dependensi library Scala dan Spark, yang diberi cakupan provided untuk menunjukkan bahwa cluster Managed Service for Apache Spark akan menyediakan library ini saat runtime. File pom.xml tidak menentukan dependensi Cloud Storage karena konektor menerapkan antarmuka HDFS standar. Saat tugas Spark mengakses file cluster Cloud Storage (file dengan URI yang dimulai dengan gs://), sistem akan otomatis menggunakan konektor Cloud Storage untuk mengakses file di Cloud Storage

Periksa versi image cluster Anda. Ganti placeholder version dalam file untuk menampilkan versi library Spark dan Scala yang digunakan oleh versi image cluster Anda. Perhatikan bahwa nomor artefak spark-core_ adalah nomor versi Scala major.minor.

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>dataproc.codelab</groupId>
  <artifactId>word-count</artifactId>
  <version>1.0</version>

  <properties>
    <maven.compiler.source>1.8</maven.compiler.source>
    <maven.compiler.target>1.8</maven.compiler.target>
  </properties>

  <dependencies>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>Scala version, for example, 2.11.8</version>
      <scope>provided</scope>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_Scala major.minor.version, for example, 2.11</artifactId>
      <version>Spark version, for example, 2.3.1</version>
      <scope>provided</scope>
    </dependency>
  </dependencies>
</project>

Salin kode WordCount.java yang tercantum di bawah, ke komputer lokal Anda.

Buat serangkaian direktori dengan jalur src/main/java/managed-spark/codelab:
```
mkdir -p src/main/java/managed-spark/codelab
```
Salin WordCount.java ke komputer lokal Anda ke dalam src/main/java/managed-spark/codelab:
```
cp WordCount.java src/main/java/managed-spark/codelab
```

WordCount.java adalah tugas Spark di Java yang membaca file teks dari Cloud Storage, melakukan penghitungan kata, lalu menulis hasil file teks ke Cloud Storage.

package dataproc.codelab;

import java.util.Arrays;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;

public class WordCount {
  public static void main(String[] args) {
    if (args.length != 2) {
      throw new IllegalArgumentException("Exactly 2 arguments are required: <inputUri> <outputUri>");
    }
    String inputPath = args[0];
    String outputPath = args[1];
    JavaSparkContext sparkContext = new JavaSparkContext(new SparkConf().setAppName("Word Count"));
    JavaRDD<String> lines = sparkContext.textFile(inputPath);
    JavaRDD<String> words = lines.flatMap(
        (String line) -> Arrays.asList(line.split(" ")).iterator()
    );
    JavaPairRDD<String, Integer> wordCounts = words.mapToPair(
        (String word) -> new Tuple2<>(word, 1)
    ).reduceByKey(
        (Integer count1, Integer count2) -> count1 + count2
    );
    wordCounts.saveAsTextFile(outputPath);
  }
}

Buat paket.
```
mvn clean package
```
Jika build berhasil, target/word-count-1.0.jar akan dibuat.

Lakukan staging paket ke Cloud Storage.

gcloud storage cp target/word-count-1.0.jar \
    gs://${BUCKET_NAME}/java/word-count-1.0.jar

Scala

Salin file build.sbt ke mesin lokal Anda. File build.sbt berikut menentukan dependensi library Scala dan Spark, yang diberi cakupan provided untuk menunjukkan bahwa cluster Managed Service for Apache Spark akan menyediakan library ini saat runtime. File build.sbt tidak menentukan dependensi Cloud Storage karena konektor menerapkan antarmuka HDFS standar. Saat tugas Spark mengakses file cluster Cloud Storage (file dengan URI yang dimulai dengan gs://), sistem akan otomatis menggunakan konektor Cloud Storage untuk mengakses file di Cloud Storage
Periksa versi image cluster Anda. Ganti placeholder version dalam file untuk menampilkan versi library Spark dan Scala yang digunakan oleh versi image cluster Anda.
```
scalaVersion := "Scala version, for example, 2.11.8"

name := "word-count"
organization := "dataproc.codelab"
version := "1.0"

libraryDependencies ++= Seq(
  "org.scala-lang" % "scala-library" % scalaVersion.value % "provided",
  "org.apache.spark" %% "spark-core" % "Spark version, for example, 2.3.1" % "provided"
)
```

Salin word-count.scala ke komputer lokal Anda. Ini adalah tugas Spark di Java yang membaca file teks dari Cloud Storage, melakukan penghitungan kata, lalu menulis hasil file teks ke Cloud Storage.

package dataproc.codelab

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object WordCount {
  def main(args: Array[String]) {
    if (args.length != 2) {
      throw new IllegalArgumentException(
          "Exactly 2 arguments are required: <inputPath> <outputPath>")
    }

    val inputPath = args(0)
    val outputPath = args(1)

    val sc = new SparkContext(new SparkConf().setAppName("Word Count"))
    val lines = sc.textFile(inputPath)
    val words = lines.flatMap(line => line.split(" "))
    val wordCounts = words.map(word => (word, 1)).reduceByKey(_ + _)
    wordCounts.saveAsTextFile(outputPath)
  }
}

Buat paket.
```
sbt clean package
```
Jika build berhasil, target/scala-2.11/word-count_2.11-1.0.jar akan dibuat.

Lakukan staging paket ke Cloud Storage.

gcloud storage cp target/scala-2.11/word-count_2.11-1.0.jar \
    gs://${BUCKET_NAME}/scala/word-count_2.11-1.0.jar

Python

Salin word-count.py ke komputer lokal Anda. Ini adalah tugas Spark di Python menggunakan PySpark yang membaca file teks dari Cloud Storage, melakukan penghitungan kata, lalu menulis hasil file teks ke Cloud Storage.

#!/usr/bin/env python

import pyspark
import sys

if len(sys.argv) != 3:
  raise Exception("Exactly 2 arguments are required: <inputUri> <outputUri>")

inputUri=sys.argv[1]
outputUri=sys.argv[2]

sc = pyspark.SparkContext()
lines = sc.textFile(sys.argv[1])
words = lines.flatMap(lambda line: line.split())
wordCounts = words.map(lambda word: (word, 1)).reduceByKey(lambda count1, count2: count1 + count2)
wordCounts.saveAsTextFile(sys.argv[2])

Kirim tugas

Jalankan perintah gcloud berikut untuk mengirimkan tugas wordcount ke cluster Managed Service untuk Apache Spark Anda.

Java

gcloud dataproc jobs submit spark \
    --cluster=${CLUSTER} \
    --class=dataproc.codelab.WordCount \
    --jars=gs://${BUCKET_NAME}/java/word-count-1.0.jar \
    --region=${REGION} \
    -- gs://${BUCKET_NAME}/input/ gs://${BUCKET_NAME}/output/

Scala

gcloud dataproc jobs submit spark \
    --cluster=${CLUSTER} \
    --class=dataproc.codelab.WordCount \
    --jars=gs://${BUCKET_NAME}/scala/word-count_2.11-1.0.jar \
    --region=${REGION} \
    -- gs://${BUCKET_NAME}/input/ gs://${BUCKET_NAME}/output/

Python

gcloud dataproc jobs submit pyspark word-count.py \
    --cluster=${CLUSTER} \
    --region=${REGION} \
    -- gs://${BUCKET_NAME}/input/ gs://${BUCKET_NAME}/output/

Melihat output

Setelah tugas selesai, jalankan perintah gcloud CLI berikut untuk melihat output jumlah kata.

gcloud storage cat gs://${BUCKET_NAME}/output/*

Output jumlah kata akan terlihat seperti berikut:

(a,2)
(call,1)
(What's,1)
(sweet.,1)
(we,1)
(as,1)
(name?,1)
(any,1)
(other,1)
(rose,1)
(smell,1)
(name,1)
(would,1)
(in,1)
(which,1)
(That,1)
(By,1)

Pembersihan

Setelah menyelesaikan tutorial, Anda dapat membersihkan resource yang dibuat agar tidak lagi menggunakan kuota dan menimbulkan tagihan. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

Perhatian: Penghapusan project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika Anda menggunakan project yang ada untuk mengerjakan tugas di dokumen ini, saat Anda menghapusnya, pekerjaan lain dalam project tersebut juga akan dihapus.
Project ID kustom akan hilang. Saat membuat project ini, Anda mungkin juga membuat project ID kustom yang masih ingin digunakan pada masa mendatang. Agar tidak kehilangan URL yang menggunakan project ID tersebut, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

Di konsol Google Cloud , buka halaman Manage resources.
Buka Kelola resource
Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus cluster Managed Service untuk Apache Spark

Daripada menghapus project, Anda mungkin hanya ingin menghapus cluster dalam project.

Menghapus bucket Cloud Storage

KonsolGoogle Cloud

Di konsol Google Cloud , buka halaman Buckets Cloud Storage.
Buka Buckets
Klik kotak centang untuk bucket yang ingin Anda dihapus.
Untuk menghapus bucket, klik Hapus, lalu ikuti petunjuk.

Command line

gcloud storage buckets delete BUCKET_NAME

Langkah berikutnya

Lihat Tips penyesuaian tugas Spark

Menggunakan konektor Cloud Storage dengan Apache Spark Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Tujuan

Biaya

Sebelum memulai

Menyiapkan replikasi lintas bucket

Menyiapkan tugas wordcount Spark

Java

Scala

Python

Kirim tugas

Java

Scala

Python

Melihat output

Pembersihan

Menghapus project

Menghapus cluster Managed Service untuk Apache Spark

Menghapus bucket Cloud Storage

KonsolGoogle Cloud

Command line

Langkah berikutnya

Menggunakan konektor Cloud Storage dengan Apache Spark