Jelajahi notebook ML Dataflow untuk mengintegrasikan machine learning ke dalam pipeline Apache Beam Anda. Notebook ini memberikan contoh dan panduan praktis untuk alur kerja machine learning umum.
Gunakan referensi ini untuk:
- Memproses data untuk model ML: Hal ini mencakup tugas-tugas seperti penskalaan data, penghitungan kosakata, dan penggunaan
MLTransformuntuk penyiapan data. - Menjalankan inferensi dengan berbagai model dan framework: Gunakan
RunInferencetransform dengan model PyTorch, TensorFlow, scikit-learn, Hugging Face, model Gemma, dan Vertex AI, termasuk di GPU dengan vLLM. - Membuat dan mengelola embedding: Buat embedding teks menggunakan Vertex AI atau Hugging Face, lalu masukkan embedding tersebut ke dalam database seperti AlloyDB dan BigQuery untuk penelusuran vektor.
- Menerapkan pola pipeline ML lanjutan: Hal ini mencakup pembaruan model otomatis di pipeline yang sedang berjalan, penggunaan beberapa model, pembuatan model ansambel, dan pengayaan data menggunakan BigQuery, Bigtable, dan Vertex AI Feature Store.
- Menerapkan ML untuk kasus penggunaan tertentu: Contohnya mencakup deteksi anomali, serta analisis sentimen dan ringkasan dengan Gemma.
Semua tutorial
|
Konsep Dataflow & MLTransform Inti
|
Pra-pemrosesan dengan Apache Beam DataFrames API Menunjukkan penggunaan Apache Beam DataFrames API untuk melakukan langkah-langkah umum eksplorasi dan pra-pemrosesan data. |
Lihat Notebook |
|
Konsep Dataflow & MLTransform Inti
|
Melakukan pra-pemrosesan data dengan MLTransform Pengantar dasar penggunaan MLTransform untuk melakukan pra-pemrosesan data untuk alur kerja machine learning. |
Lihat Notebook |
|
Pengayaan & Penyematan Data
|
Penyerapan Embedding Vektor dengan Apache Beam dan AlloyDB Menunjukkan cara membuat embedding dari data dan menyerapnya ke AlloyDB menggunakan Apache Beam dan Dataflow untuk pemrosesan data yang skalabel. |
Lihat Notebook |
|
Pengayaan & Penyematan Data
|
Menggunakan Apache Beam dan BigQuery untuk memperkaya data Menunjukkan cara memperkaya data menggunakan transformasi pengayaan Apache Beam dengan BigQuery. |
Lihat Notebook |
|
Pengayaan & Penyematan Data
|
Penyerapan Embedding dan Penelusuran Vektor dengan Apache Beam dan BigQuery Mendemonstrasikan cara menggunakan paket RAG Apache Beam untuk membuat embedding, menyerapnya ke BigQuery, dan melakukan penelusuran kesamaan vektor. |
Lihat Notebook |
|
Pengayaan & Penyematan Data
|
Menggunakan Apache Beam dan Bigtable untuk memperkaya data Menunjukkan cara memperkaya data menggunakan transformasi Apache Beam Enrichment dengan Bigtable. |
Lihat Notebook |
|
Pengayaan & Penyematan Data
|
Membuat embedding teks menggunakan model Hugging Face Hub Menggunakan MLTransform untuk membuat embedding dari data teks menggunakan framework SentenceTransformers Hugging Face. |
Lihat Notebook |
|
Pengayaan & Penyematan Data
|
Menggunakan Apache Beam dan Vertex AI Feature Store untuk memperkaya data Menunjukkan cara memperkaya data menggunakan transformasi enrichment Apache Beam dengan Vertex AI Feature Store. |
Lihat Notebook |
|
Pengayaan & Penyematan Data
|
Membuat embedding teks menggunakan Vertex AI API Menggunakan Vertex AI text-embeddings API untuk membuat embedding teks yang menggunakan model AI generatif berukuran besar dari Google. |
Lihat Notebook |
|
Pelatihan model & Pemrosesan data
|
Memperbarui model ML di pipeline yang sedang berjalan Mendemonstrasikan cara melakukan update model otomatis tanpa menghentikan pipeline Apache Beam menggunakan input samping. |
Lihat Notebook |
|
Pelatihan model & Pemrosesan data
|
Menghitung dan menerapkan kosakata pada set data Menunjukkan cara menggunakan MLTransform untuk membuat kosakata pada teks input dan menetapkan nilai indeks ke setiap token. |
Lihat Notebook |
|
Pelatihan model & Pemrosesan data
|
Menjalankan inferensi ML dengan beberapa model yang dilatih secara berbeda Menunjukkan cara menggunakan KeyedModelHandler untuk menjalankan inferensi dalam pipeline Apache Beam dengan beberapa model berbeda berdasarkan per kunci. |
Lihat Notebook |
|
Pelatihan model & Pemrosesan data
|
Menggunakan MLTransform untuk menskalakan data Menunjukkan cara menggunakan MLTransform untuk menskalakan data, langkah pra-pemrosesan penting untuk melatih model machine learning (ML). |
Lihat Notebook |
|
Pelatihan model & Pemrosesan data
|
TensorFlow Model Analysis di Beam Menunjukkan cara menggunakan TFMA untuk menyelidiki dan memvisualisasikan performa model sebagai bagian dari pipeline Apache Beam dengan membuat dan membandingkan dua model. |
Lihat Notebook |
|
Menjalankan inferensi
|
Inferensi jarak jauh di Apache Beam Menunjukkan cara menerapkan panggilan inferensi kustom di Apache Beam menggunakan Google Cloud Vision API. |
Lihat Notebook |
|
Menjalankan inferensi
|
Membawa model ML Anda sendiri ke Beam RunInference Mengilustrasikan cara menggunakan paket spaCy untuk memuat model machine learning (ML) dan melakukan inferensi di pipeline Apache Beam menggunakan PTransform RunInference. |
Lihat Notebook |
|
Menjalankan inferensi
|
Menjalankan inferensi dengan model terbuka Gemma Menunjukkan cara memuat model Gemma 2B yang telah dikonfigurasi sebelumnya, lalu menggunakannya dalam pipeline inferensi Apache Beam. |
Lihat Notebook |
|
Menjalankan inferensi
|
Menggunakan RunInference untuk AI Generatif Menunjukkan cara menggunakan transformasi RunInference Apache Beam untuk tugas AI generatif dengan model bahasa besar (LLM) dari Hugging Face Model Hub. |
Lihat Notebook |
|
Menjalankan inferensi
|
Apache Beam RunInference dengan Hugging Face Menunjukkan cara menggunakan model dari Hugging Face dan pipeline Hugging Face di pipeline Apache Beam yang menggunakan transformasi RunInference. |
Lihat Notebook |
|
Menjalankan inferensi
|
Model ansambel menggunakan contoh pemberian teks dan peringkat gambar Menunjukkan cara menerapkan model bertingkat di Apache Beam menggunakan RunInference API untuk pemberian keterangan gambar. |
Lihat Notebook |
|
Menjalankan inferensi
|
Apache Beam RunInference untuk PyTorch Menunjukkan penggunaan transformasi RunInference untuk PyTorch. |
Lihat Notebook |
|
Menjalankan inferensi
|
Menggunakan RunInference di Apache Beam Menunjukkan cara menggunakan RunInference API dengan tiga framework ML populer: PyTorch, TensorFlow, dan scikit-learn. |
Lihat Notebook |
|
Menjalankan inferensi
|
Apache Beam RunInference untuk scikit-learn Menunjukkan penggunaan transformasi RunInference untuk scikit-learn. |
Lihat Notebook |
|
Menjalankan inferensi
|
Apache Beam RunInference dengan TensorFlow Menunjukkan cara menggunakan transformasi Apache Beam RunInference untuk TensorFlow. |
Lihat Notebook |
|
Menjalankan inferensi
|
Menggunakan RunInference dengan Library Bersama Dasar TFX Menunjukkan cara menggunakan transformasi RunInference Apache Beam dengan TensorFlow dan TFX Basic Shared Libraries (tfx-bsl). |
Lihat Notebook |
|
Menjalankan inferensi
|
Apache Beam RunInference dengan TensorFlow dan TensorFlow Hub Menunjukkan cara menggunakan transformasi RunInference Apache Beam untuk TensorFlow dengan model terlatih dari TensorFlow Hub. |
Lihat Notebook |
|
Menjalankan inferensi
|
Apache Beam RunInference dengan Vertex AI Menunjukkan cara menggunakan transformasi Apache Beam RunInference untuk klasifikasi gambar dengan Vertex AI. |
Lihat Notebook |
|
Menjalankan inferensi
|
Menjalankan inferensi ML menggunakan vLLM di GPU Mendemonstrasikan cara menjalankan inferensi machine learning menggunakan vLLM dan GPU. |
Lihat Notebook |
|
Menjalankan inferensi
|
Menggunakan TPU di Dataflow Menunjukkan cara mengonfigurasi dan menjalankan dua pipeline Dataflow berbeda yang memanfaatkan Tensor Processing Unit (TPU). Pipeline pertama melakukan komputasi sederhana untuk mengonfirmasi akses TPU, sedangkan pipeline kedua yang lebih kompleks menjalankan inferensi dengan model Gemma-3-27b-it. |
Lihat Notebook |
|
Kasus penggunaan khusus
|
Deteksi Anomali pada Data Batch dan Streaming menggunakan Apache Beam (Metode Z-Score) Menunjukkan cara melakukan deteksi anomali pada data batch dan streaming menggunakan PTransform AnomalyDetection dengan algoritma Z-Score. |
Lihat Notebook |
|
Kasus penggunaan khusus
|
Menggunakan Gemma untuk mengukur sentimen dan meringkas percakapan Menunjukkan cara menggunakan Gemma untuk mengukur sentimen percakapan, meringkas konten percakapan, dan membuat draf balasan. |
Lihat Notebook |