Notebook ML Dataflow

Jelajahi notebook ML Dataflow untuk mengintegrasikan machine learning ke dalam pipeline Apache Beam Anda. Notebook ini memberikan contoh dan panduan praktis untuk alur kerja machine learning umum.

Gunakan referensi ini untuk:

  • Memproses data untuk model ML: Hal ini mencakup tugas-tugas seperti penskalaan data, penghitungan kosakata, dan penggunaan MLTransform untuk penyiapan data.
  • Menjalankan inferensi dengan berbagai model dan framework: Gunakan RunInference transform dengan model PyTorch, TensorFlow, scikit-learn, Hugging Face, model Gemma, dan Vertex AI, termasuk di GPU dengan vLLM.
  • Membuat dan mengelola embedding: Buat embedding teks menggunakan Vertex AI atau Hugging Face, lalu masukkan embedding tersebut ke dalam database seperti AlloyDB dan BigQuery untuk penelusuran vektor.
  • Menerapkan pola pipeline ML lanjutan: Hal ini mencakup pembaruan model otomatis di pipeline yang sedang berjalan, penggunaan beberapa model, pembuatan model ansambel, dan pengayaan data menggunakan BigQuery, Bigtable, dan Vertex AI Feature Store.
  • Menerapkan ML untuk kasus penggunaan tertentu: Contohnya mencakup deteksi anomali, serta analisis sentimen dan ringkasan dengan Gemma.

Semua tutorial

Filter menurut:
Konsep Dataflow & MLTransform Inti

Pra-pemrosesan dengan Apache Beam DataFrames API

Menunjukkan penggunaan Apache Beam DataFrames API untuk melakukan langkah-langkah umum eksplorasi dan pra-pemrosesan data.

Lihat Notebook
Konsep Dataflow & MLTransform Inti

Melakukan pra-pemrosesan data dengan MLTransform

Pengantar dasar penggunaan MLTransform untuk melakukan pra-pemrosesan data untuk alur kerja machine learning.

Lihat Notebook
Pengayaan & Penyematan Data

Penyerapan Embedding Vektor dengan Apache Beam dan AlloyDB

Menunjukkan cara membuat embedding dari data dan menyerapnya ke AlloyDB menggunakan Apache Beam dan Dataflow untuk pemrosesan data yang skalabel.

Lihat Notebook
Pengayaan & Penyematan Data

Menggunakan Apache Beam dan BigQuery untuk memperkaya data

Menunjukkan cara memperkaya data menggunakan transformasi pengayaan Apache Beam dengan BigQuery.

Lihat Notebook
Pengayaan & Penyematan Data

Penyerapan Embedding dan Penelusuran Vektor dengan Apache Beam dan BigQuery

Mendemonstrasikan cara menggunakan paket RAG Apache Beam untuk membuat embedding, menyerapnya ke BigQuery, dan melakukan penelusuran kesamaan vektor.

Lihat Notebook
Pengayaan & Penyematan Data

Menggunakan Apache Beam dan Bigtable untuk memperkaya data

Menunjukkan cara memperkaya data menggunakan transformasi Apache Beam Enrichment dengan Bigtable.

Lihat Notebook
Pengayaan & Penyematan Data

Membuat embedding teks menggunakan model Hugging Face Hub

Menggunakan MLTransform untuk membuat embedding dari data teks menggunakan framework SentenceTransformers Hugging Face.

Lihat Notebook
Pengayaan & Penyematan Data

Menggunakan Apache Beam dan Vertex AI Feature Store untuk memperkaya data

Menunjukkan cara memperkaya data menggunakan transformasi enrichment Apache Beam dengan Vertex AI Feature Store.

Lihat Notebook
Pengayaan & Penyematan Data

Membuat embedding teks menggunakan Vertex AI API

Menggunakan Vertex AI text-embeddings API untuk membuat embedding teks yang menggunakan model AI generatif berukuran besar dari Google.

Lihat Notebook
Pelatihan model & Pemrosesan data

Memperbarui model ML di pipeline yang sedang berjalan

Mendemonstrasikan cara melakukan update model otomatis tanpa menghentikan pipeline Apache Beam menggunakan input samping.

Lihat Notebook
Pelatihan model & Pemrosesan data

Menghitung dan menerapkan kosakata pada set data

Menunjukkan cara menggunakan MLTransform untuk membuat kosakata pada teks input dan menetapkan nilai indeks ke setiap token.

Lihat Notebook
Pelatihan model & Pemrosesan data

Menjalankan inferensi ML dengan beberapa model yang dilatih secara berbeda

Menunjukkan cara menggunakan KeyedModelHandler untuk menjalankan inferensi dalam pipeline Apache Beam dengan beberapa model berbeda berdasarkan per kunci.

Lihat Notebook
Pelatihan model & Pemrosesan data

Menggunakan MLTransform untuk menskalakan data

Menunjukkan cara menggunakan MLTransform untuk menskalakan data, langkah pra-pemrosesan penting untuk melatih model machine learning (ML).

Lihat Notebook
Pelatihan model & Pemrosesan data

TensorFlow Model Analysis di Beam

Menunjukkan cara menggunakan TFMA untuk menyelidiki dan memvisualisasikan performa model sebagai bagian dari pipeline Apache Beam dengan membuat dan membandingkan dua model.

Lihat Notebook
Menjalankan inferensi

Inferensi jarak jauh di Apache Beam

Menunjukkan cara menerapkan panggilan inferensi kustom di Apache Beam menggunakan Google Cloud Vision API.

Lihat Notebook
Menjalankan inferensi

Membawa model ML Anda sendiri ke Beam RunInference

Mengilustrasikan cara menggunakan paket spaCy untuk memuat model machine learning (ML) dan melakukan inferensi di pipeline Apache Beam menggunakan PTransform RunInference.

Lihat Notebook
Menjalankan inferensi

Menjalankan inferensi dengan model terbuka Gemma

Menunjukkan cara memuat model Gemma 2B yang telah dikonfigurasi sebelumnya, lalu menggunakannya dalam pipeline inferensi Apache Beam.

Lihat Notebook
Menjalankan inferensi

Menggunakan RunInference untuk AI Generatif

Menunjukkan cara menggunakan transformasi RunInference Apache Beam untuk tugas AI generatif dengan model bahasa besar (LLM) dari Hugging Face Model Hub.

Lihat Notebook
Menjalankan inferensi

Apache Beam RunInference dengan Hugging Face

Menunjukkan cara menggunakan model dari Hugging Face dan pipeline Hugging Face di pipeline Apache Beam yang menggunakan transformasi RunInference.

Lihat Notebook
Menjalankan inferensi

Model ansambel menggunakan contoh pemberian teks dan peringkat gambar

Menunjukkan cara menerapkan model bertingkat di Apache Beam menggunakan RunInference API untuk pemberian keterangan gambar.

Lihat Notebook
Menjalankan inferensi

Apache Beam RunInference untuk PyTorch

Menunjukkan penggunaan transformasi RunInference untuk PyTorch.

Lihat Notebook
Menjalankan inferensi

Menggunakan RunInference di Apache Beam

Menunjukkan cara menggunakan RunInference API dengan tiga framework ML populer: PyTorch, TensorFlow, dan scikit-learn.

Lihat Notebook
Menjalankan inferensi

Apache Beam RunInference untuk scikit-learn

Menunjukkan penggunaan transformasi RunInference untuk scikit-learn.

Lihat Notebook
Menjalankan inferensi

Apache Beam RunInference dengan TensorFlow

Menunjukkan cara menggunakan transformasi Apache Beam RunInference untuk TensorFlow.

Lihat Notebook
Menjalankan inferensi

Menggunakan RunInference dengan Library Bersama Dasar TFX

Menunjukkan cara menggunakan transformasi RunInference Apache Beam dengan TensorFlow dan TFX Basic Shared Libraries (tfx-bsl).

Lihat Notebook
Menjalankan inferensi

Apache Beam RunInference dengan TensorFlow dan TensorFlow Hub

Menunjukkan cara menggunakan transformasi RunInference Apache Beam untuk TensorFlow dengan model terlatih dari TensorFlow Hub.

Lihat Notebook
Menjalankan inferensi

Apache Beam RunInference dengan Vertex AI

Menunjukkan cara menggunakan transformasi Apache Beam RunInference untuk klasifikasi gambar dengan Vertex AI.

Lihat Notebook
Menjalankan inferensi

Menjalankan inferensi ML menggunakan vLLM di GPU

Mendemonstrasikan cara menjalankan inferensi machine learning menggunakan vLLM dan GPU.

Lihat Notebook
Menjalankan inferensi

Menggunakan TPU di Dataflow

Menunjukkan cara mengonfigurasi dan menjalankan dua pipeline Dataflow berbeda yang memanfaatkan Tensor Processing Unit (TPU). Pipeline pertama melakukan komputasi sederhana untuk mengonfirmasi akses TPU, sedangkan pipeline kedua yang lebih kompleks menjalankan inferensi dengan model Gemma-3-27b-it.

Lihat Notebook
Kasus penggunaan khusus

Deteksi Anomali pada Data Batch dan Streaming menggunakan Apache Beam (Metode Z-Score)

Menunjukkan cara melakukan deteksi anomali pada data batch dan streaming menggunakan PTransform AnomalyDetection dengan algoritma Z-Score.

Lihat Notebook
Kasus penggunaan khusus

Menggunakan Gemma untuk mengukur sentimen dan meringkas percakapan

Menunjukkan cara menggunakan Gemma untuk mengukur sentimen percakapan, meringkas konten percakapan, dan membuat draf balasan.

Lihat Notebook