Menginstal Apache Beam SDK

Halaman ini menunjukkan cara menginstal Apache Beam SDK sehingga Anda dapat menjalankan pipeline di layanan Dataflow.

Menginstal rilis SDK

Apache Beam SDK adalah model pemrograman open source untuk pipeline data. Anda menentukan pipeline ini dengan program Apache Beam dan dapat memilih runner, seperti Dataflow, untuk menjalankan pipeline.

Java

Versi rilis terbaru untuk Apache Beam SDK untuk Java adalah 2.73.0. Lihat pengumuman rilis untuk mengetahui informasi tentang perubahan yang disertakan dalam rilis.

Untuk mendapatkan Apache Beam SDK untuk Java menggunakan Maven, gunakan salah satu artefak yang dirilis dari Maven Central Repository.

Tambahkan dependensi dan alat pengelolaan dependensi ke file pom.xml untuk artefak SDK. Untuk mengetahui detailnya, lihat Mengelola dependensi pipeline di Dataflow.

Untuk mengetahui informasi selengkapnya tentang dependensi Apache Beam SDK untuk Java, lihat Dependensi Apache Beam SDK untuk Java dan Mengelola dependensi Beam di Java dalam dokumentasi Apache Beam.

Python

Versi rilis terbaru untuk Apache Beam SDK untuk Python adalah 2.73.0. Lihat pengumuman rilis untuk mengetahui informasi tentang perubahan yang disertakan dalam rilis.

Untuk mendapatkan Apache Beam SDK untuk Python, gunakan salah satu paket yang dirilis dari Indeks Paket Python.

Instal Python wheel dengan menjalankan perintah berikut:

pip install wheel

Instal versi terbaru Apache Beam SDK untuk Python dengan menjalankan perintah berikut dari lingkungan virtual:

pip install 'apache-beam[gcp]'

Bergantung pada koneksi, penginstalan mungkin memerlukan waktu beberapa saat.

Untuk mengupgrade penginstalan apache-beam yang ada, gunakan tanda --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Go

Versi rilis terbaru untuk Apache Beam SDK untuk Go adalah 2.73.0. Lihat pengumuman rilis untuk mengetahui informasi tentang perubahan yang disertakan dalam rilis.

Untuk menginstal versi terbaru Apache Beam SDK untuk Go, jalankan perintah berikut:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

Menyiapkan lingkungan pengembangan

Untuk mengetahui informasi tentang cara menyiapkan project dan lingkungan pengembangan untuk menggunakan Dataflow, ikuti salah satu tutorial berikut: Google Cloud

Kode sumber dan contoh

Kode sumber Apache Beam tersedia di repositori Apache Beam di GitHub.

Java

Contoh kode tersedia di direktori Contoh Apache Beam di GitHub.

Python

Contoh kode tersedia di direktori Contoh Apache Beam di GitHub.

Go

Contoh kode tersedia di direktori Contoh Apache Beam di GitHub.

Menemukan versi Dataflow SDK

Detail penginstalan bergantung pada lingkungan pengembangan Anda. Jika menggunakan Maven, Anda dapat menginstal beberapa versi Dataflow SDK di satu atau beberapa repositori Maven lokal.

Java

Untuk mengetahui versi Dataflow SDK yang dijalankan oleh pipeline tertentu, Anda dapat melihat output konsol saat menjalankan dengan DataflowPipelineRunner atau BlockingDataflowPipelineRunner. Konsol akan berisi pesan seperti berikut, yang berisi informasi versi Dataflow SDK:

Python

Untuk mengetahui versi Dataflow SDK yang dijalankan oleh pipeline tertentu, Anda dapat melihat output konsol saat menjalankan dengan DataflowRunner. Konsol akan berisi pesan seperti berikut, yang berisi informasi versi Dataflow SDK:

Go

Untuk mengetahui versi Dataflow SDK yang dijalankan oleh pipeline tertentu, Anda dapat melihat output konsol saat menjalankan dengan DataflowRunner. Konsol akan berisi pesan seperti berikut, yang berisi informasi versi Dataflow SDK:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

Langkah berikutnya