Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pengantar Pipeline Gemini Enterprise Agent Platform

Agent Platform Pipelines memungkinkan Anda mengotomatiskan, memantau, dan mengelola sistem machine learning (ML) tanpa server dengan menggunakan pipeline ML untuk mengatur alur kerja ML Anda. Anda dapat menjalankan pipeline ML secara batch yang ditentukan menggunakan Kubeflow Pipelines atau framework TensorFlow Extended (TFX). Untuk mempelajari cara memilih framework untuk menentukan pipeline ML Anda, lihat Antarmuka untuk menentukan pipeline.

Halaman ini memberikan ringkasan tentang hal berikut:

Apa itu pipeline ML?
Struktur pipeline ML
Tugas dan komponen pipeline
Siklus proses pipeline ML
Menggunakan Metadata ML Platform Agen Gemini Enterprise untuk melacak silsilah artefak ML
Menambahkan operasi pipeline ke eksperimen

Apa itu pipeline ML?

Pipeline ML adalah deskripsi portabel dan dapat diperluas dari alur kerja MLOps sebagai serangkaian langkah yang disebut tugas pipeline. Setiap tugas melakukan langkah tertentu dalam alur kerja untuk melatih dan men-deploy model ML.

Dengan pipeline ML, Anda dapat menerapkan strategi MLOps untuk mengotomatiskan dan memantau proses yang dapat diulang dalam praktik ML Anda. Misalnya, Anda dapat menggunakan kembali definisi pipeline untuk terus melatih ulang model pada data produksi terbaru. Untuk mengetahui informasi selengkapnya tentang MLOps di Gemini Enterprise, lihat MLOps di Gemini Enterprise API.

Struktur pipeline ML

Pipeline ML adalah directed acyclic graph (DAG) dari tugas pipeline dalam container yang saling terhubung menggunakan dependensi input-output. Anda dapat membuat setiap tugas di Python atau sebagai image container bawaan.

Anda dapat menentukan pipeline sebagai DAG menggunakan Kubeflow Pipelines SDK atau TFX SDK, mengompilasinya ke YAML untuk representasi perantara, lalu menjalankan pipeline. Secara default, tugas pipeline berjalan secara paralel. Anda dapat menautkan tugas untuk menjalankannya secara berurutan. Untuk mengetahui informasi selengkapnya tentang tugas pipeline, lihat Tugas pipeline. Untuk mengetahui informasi selengkapnya tentang alur kerja untuk menentukan, mengompilasi, dan menjalankan pipeline, lihat Siklus proses pipeline ML.

Klik di sini untuk melihat contoh yang menggambarkan dependensi input-output antar-tugas dalam pipeline ML.

Pertimbangkan pipeline ML dengan langkah-langkah berikut:

Menyiapkan data: Menyiapkan atau memproses data pelatihan.
- Input (dari tugas dalam pipeline ML yang sama): Tidak ada.
- Output: Data pelatihan yang disiapkan atau diproses.
Melatih model: Menggunakan data pelatihan yang disiapkan untuk melatih model.
- Input: Data pelatihan yang disiapkan atau diproses dari tugas pipeline Menyiapkan data.
- Output: Model terlatih.
Mengevaluasi model: Mengevaluasi model terlatih.

Input: Model terlatih dari tugas pipeline Melatih model.
Men-deploy: Men-deploy model terlatih untuk prediksi.

Input: Model terlatih dari tugas pipeline Melatih model.

Saat Anda mengompilasi pipeline ML, SDK pipeline yang Anda gunakan (Kubeflow Pipelines atau TFX) akan menganalisis dependensi data di antara tugas-tugas ini dan membuat DAG alur kerja berikut:

Menyiapkan data tidak bergantung pada tugas lain dalam pipeline ML yang sama untuk input. Oleh karena itu, tugas ini dapat menjadi langkah pertama dalam pipeline ML, atau berjalan bersamaan dengan tugas lain.
Melatih model bergantung pada Menyiapkan data untuk input. Oleh karena itu, tugas ini terjadi setelah Menyiapkan data.
Mengevaluasi dan Men-deploy bergantung pada model terlatih. Oleh karena itu, tugas ini dapat berjalan bersamaan, tetapi setelah Melatih model.

Saat Anda menjalankan pipeline ML, Agent Platform Pipelines akan menjalankan tugas-tugas ini dalam urutan yang dijelaskan dalam DAG.

Tugas dan komponen pipeline

Tugas pipeline adalah instansiasi komponen pipeline dengan input tertentu. Saat menentukan pipeline ML, Anda dapat menghubungkan beberapa tugas untuk membentuk DAG, dengan merutekan output dari satu tugas pipeline ke input untuk tugas pipeline berikutnya dalam alur kerja ML. Anda juga dapat menggunakan input untuk pipeline ML sebagai input untuk tugas pipeline.

Komponen pipeline

Komponen pipeline adalah sekumpulan kode mandiri yang melakukan langkah tertentu dari alur kerja ML, seperti prapemrosesan data, pelatihan model, atau deployment model. Komponen biasanya terdiri dari hal berikut:

Input: Komponen mungkin memiliki satu atau beberapa parameter dan artefak input.
Output: Setiap komponen memiliki satu atau beberapa parameter atau artefak output.
Logika: Ini adalah kode yang dapat dieksekusi komponen. Untuk komponen dalam container, logika juga berisi definisi lingkungan, atau image container, tempat komponen berjalan.

Komponen adalah dasar untuk menentukan tugas dalam pipeline ML. Untuk menentukan tugas pipeline, Anda dapat menggunakan Google Cloud Komponen Pipeline yang telah ditentukan atau membuat komponen kustom Anda sendiri.

Komponen yang telah ditentukan

Gunakan Komponen Pipeline yang telah ditentukan jika Anda ingin menggunakan fitur Gemini Enterprise API, seperti AutoML, di pipeline Anda. Google Cloud Untuk mempelajari cara menggunakan Google Cloud Komponen Pipeline untuk menentukan pipeline, lihat Membangun Pipeline.

Komponen kustom

Anda dapat membuat komponen kustom Anda sendiri untuk digunakan dalam pipeline ML Anda. Untuk mengetahui informasi selengkapnya tentang cara membuat komponen kustom, lihat Membangun komponen pipeline Anda sendiri.

Untuk mempelajari cara membuat komponen Kubeflow Pipelines kustom, lihat "Pipelines with lightweight components based on Python functions" notebook tutorial di GitHub. Untuk mempelajari cara membuat komponen TFX kustom, lihat tutorial komponen fungsi Python TFX di tutorial TensorFlow Extended in Production.

Tugas pipeline

Tugas pipeline adalah instansiasi komponen pipeline dan melakukan langkah tertentu dalam alur kerja ML Anda. Anda dapat membuat tugas pipeline ML menggunakan Python atau sebagai image container bawaan.

Dalam tugas, Anda dapat memanfaatkan kemampuan komputasi sesuai permintaan dari Platform Agen Gemini Enterprise dengan Kubernetes untuk menjalankan kode Anda secara skalabel, atau mendelegasikan workload Anda ke mesin eksekusi lain, seperti BigQuery, Dataflow, atau Managed Service untuk Apache Spark.

Siklus proses pipeline ML

Dari definisi hingga eksekusi dan pemantauan, siklus proses pipeline ML terdiri dari tahapan tingkat tinggi berikut:

Menentukan: Proses menentukan pipeline ML dan tugasnya juga disebut membangun pipeline. Pada tahap ini, Anda harus melakukan langkah-langkah berikut:
1. Memilih framework ML: Agent Platform Pipelines mendukung pipeline ML yang ditentukan menggunakan framework TFX atau Kubeflow Pipelines. Untuk mempelajari cara memilih framework untuk membangun pipeline Anda, lihat Antarmuka untuk menentukan pipeline.
2. Menentukan tugas pipeline dan mengonfigurasi pipeline: Untuk mengetahui informasi selengkapnya, lihat Membangun Pipeline.
Mengompilasi: Pada tahap ini, Anda harus melakukan langkah-langkah berikut:
1. Menghasilkan definisi pipeline ML Anda dalam file YAML yang dikompilasi untuk representasi perantara, yang dapat Anda gunakan untuk menjalankan pipeline ML Anda.
2. Opsional: Anda dapat mengupload file YAML yang dikompilasi sebagai template pipeline ke repositori dan menggunakannya kembali untuk membuat operasi pipeline ML.
Menjalankan: Membuat instance eksekusi pipeline ML Anda menggunakan file YAML yang dikompilasi atau template pipeline. Instance eksekusi definisi pipeline disebut operasi pipeline.

Anda dapat membuat operasi pipeline satu kali atau menggunakan scheduler API untuk membuat operasi pipeline berulang dari definisi pipeline ML yang sama. Anda juga dapat meng-clone operasi pipeline yang ada. Untuk mempelajari cara memilih antarmuka untuk menjalankan pipeline ML, lihat Antarmuka untuk menjalankan pipeline. Untuk mengetahui informasi selengkapnya tentang cara membuat operasi pipeline, lihat Menjalankan pipeline.
Memantau, memvisualisasikan, dan menganalisis operasi: Setelah membuat operasi pipeline, Anda dapat melakukan hal berikut untuk memantau performa, status, dan biaya operasi pipeline:
- Mengonfigurasi notifikasi email untuk kegagalan pipeline. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi notifikasi email.
- Menggunakan Cloud Logging untuk membuat entri log untuk memantau peristiwa. Untuk mengetahui informasi selengkapnya, lihat Melihat log tugas pipeline.
- Memvisualisasikan, menganalisis, dan membandingkan operasi pipeline. Untuk mengetahui informasi selengkapnya, lihat Memvisualisasikan dan menganalisis hasil pipeline.
- Menggunakan ekspor Penagihan Cloud ke BigQuery untuk menganalisis biaya operasi pipeline. Untuk mengetahui informasi selengkapnya, lihat Memahami biaya operasi pipeline.
Opsional: menghentikan atau menghapus operasi pipeline: Tidak ada batasan berapa lama Anda dapat mempertahankan operasi pipeline tetap aktif. Anda dapat melakukan hal berikut secara opsional:
- Menghentikan operasi pipeline.
- Menjeda atau melanjutkan jadwal operasi pipeline.
- Menghapus template pipeline, operasi pipeline, atau jadwal operasi pipeline yang ada.

Apa itu operasi pipeline?

Operasi pipeline adalah instance eksekusi definisi pipeline ML Anda. Setiap operasi pipeline diidentifikasi dengan nama operasi yang unik. Dengan Agent Platform Pipelines, Anda dapat membuat operasi pipeline ML dengan cara berikut:

Menggunakan definisi YAML pipeline yang dikompilasi
Menggunakan template pipeline dari Galeri Template

Untuk mengetahui informasi selengkapnya tentang cara membuat operasi pipeline, lihat Menjalankan pipeline. Untuk mengetahui informasi selengkapnya tentang cara membuat operasi pipeline dari template pipeline, lihat Membuat, mengupload, dan menggunakan template pipeline.

Untuk mengetahui informasi tentang cara mengambil dan menyimpan metadata operasi pipeline menggunakan Metadata ML Platform Agen, lihat Menggunakan Metadata ML Platform Agen untuk melacak silsilah artefak ML.

Untuk mengetahui informasi tentang cara menggunakan operasi pipeline untuk bereksperimen pada alur kerja ML Anda menggunakan Eksperimen Platform Agen Gemini Enterprise, lihat Menambahkan operasi pipeline Anda ke eksperimen.

Melacak silsilah artefak ML

Operasi pipeline berisi beberapa artefak dan parameter, termasuk metadata pipeline. Untuk memahami perubahan performa atau akurasi sistem ML Anda, Anda perlu menganalisis metadata dan silsilah artefak ML dari operasi pipeline ML Anda. Silsilah artefak ML mencakup semua faktor yang berkontribusi pada pembuatannya, beserta metadata dan referensi ke artefak yang berasal darinya.

Grafik silsilah membantu Anda menganalisis penyebab utama upstream dan dampak downstream. Setiap operasi pipeline menghasilkan grafik silsilah parameter dan artefak yang menjadi input ke dalam operasi, terwujud dalam operasi, dan output dari operasi. Metadata yang membentuk grafik silsilah ini disimpan di Metadata ML Platform Agen. Metadata ini juga dapat disinkronkan ke Knowledge Catalog.

Menggunakan Metadata ML Platform Agen untuk melacak silsilah artefak pipeline

Saat Anda menjalankan pipeline menggunakan Agent Platform Pipelines, semua parameter dan metadata artefak yang digunakan dan dihasilkan oleh pipeline akan disimpan di Metadata ML Platform Agen. Metadata ML Agent Platform adalah penerapan terkelola dari library Metadata ML di TensorFlow, dan mendukung pendaftaran serta penulisan skema metadata kustom. Saat Anda membuat operasi pipeline di Agent Platform Pipelines, metadata dari operasi pipeline akan disimpan di penyimpanan metadata default untuk project dan region tempat Anda menjalankan pipeline.
Menggunakan Knowledge Catalog untuk melacak silsilah artefak pipeline

Knowledge Catalog adalah fabric data global dan lintas project yang terintegrasi dengan beberapa sistem di dalamnya Google Cloud, seperti Platform Agen, BigQuery, dan Managed Service untuk Apache Airflow. Dalam Knowledge Catalog, Anda dapat menelusuri artefak pipeline dan melihat grafik silsilahnya. Perhatikan bahwa untuk mencegah konflik artefak, setiap resource yang dikatalogkan di Knowledge Catalog diidentifikasi dengan nama yang sepenuhnya memenuhi syarat (FQN).

Pelajari biaya penggunaan Knowledge Catalog.

Untuk mengetahui informasi selengkapnya tentang cara melacak silsilah artefak ML menggunakan Metadata ML Platform Agen dan Knowledge Catalog, lihat Melacak silsilah artefak pipeline artefak.

Untuk mengetahui informasi selengkapnya tentang cara memvisualisasikan, menganalisis, dan membandingkan operasi pipeline, lihat Memvisualisasikan dan menganalisis hasil pipeline. Untuk mengetahui daftar jenis artefak pihak pertama yang ditentukan di Google Cloud Komponen Pipeline, lihat Jenis artefak Metadata ML.

Menambahkan operasi pipeline ke eksperimen

Eksperimen Platform Agen memungkinkan Anda melacak dan menganalisis berbagai arsitektur model, hyperparameter, dan lingkungan pelatihan untuk menemukan model terbaik untuk kasus penggunaan ML Anda. Setelah membuat operasi pipeline ML, Anda dapat mengaitkannya dengan eksperimen atau operasi eksperimen. Dengan melakukannya, Anda dapat bereksperimen dengan berbagai kumpulan variabel, seperti hyperparameter, jumlah langkah pelatihan, atau iterasi.

Untuk mengetahui informasi selengkapnya tentang cara bereksperimen dengan alur kerja ML menggunakan Eksperimen Platform Agen, lihat Pengantar Eksperimen Platform Agen.

Langkah berikutnya

Pelajari tentang antarmuka yang dapat Anda gunakan untuk menentukan dan menjalankan pipeline menggunakan Agent Platform Pipelines.
Mulai dengan mempelajari cara menentukan pipeline menggunakan Kubeflow Pipelines SDK.
Pelajari cara menjalankan pipeline.
Pelajari tentang praktik terbaik untuk menerapkan model ML yang dilatih khusus di Platform Agen Gemini Enterprise.