Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ringkasan persiapan data

Ada beberapa opsi untuk mengembangkan data pelatihan Anda.

Cloud Storage
Network File System
Set data terkelola
BigQuery

Pilihan yang Anda buat bergantung pada banyak faktor.

Cloud Storage sebagai Sistem File yang Terpasang (Cloud Storage FUSE)

Pertimbangkan untuk menggunakan Cloud Storage sebagai Sistem File yang Terpasang (Cloud Storage FUSE) karena alasan berikut:

Saat data pelatihan tidak terstruktur, seperti gambar, teks, atau video: Cloud Storage sangat cocok untuk menyimpan jenis file besar yang sering kali individual ini.
Saat data pelatihan terstruktur dalam format seperti TFRecord: Cloud Storage biasanya digunakan untuk format khusus ML ini.
Saat Anda menggunakan file yang sangat besar: Cloud Storage FUSE men-streaming data ke tugas pelatihan Anda, bukan mengharuskan seluruh file didownload ke replika. Hal ini dapat mempercepat waktu pemuatan data dan waktu startup tugas untuk set data besar.
Saat melakukan pelatihan terdistribusi: Cloud Storage FUSE menyediakan throughput tinggi untuk pembacaan berurutan file besar, yang bermanfaat dalam skenario pelatihan terdistribusi saat beberapa pekerja perlu mengakses data secara paralel.
Saat Anda lebih memilih kemudahan mengakses data Cloud Storage seolah-olah itu adalah sistem file lokal tanpa perlu melakukan panggilan API eksplisit dalam kode pelatihan Anda.
Saat kebutuhan utama Anda adalah penyimpanan yang skalabel dan Anda tidak terlalu khawatir dengan latensi terendah untuk akses acak ke banyak file kecil.

Khusus untuk Ray di Agent Platform

Anda dapat menyimpan data di bucket Cloud Storage, yang dapat diakses oleh Ray di Platform Agen.
Ray dapat langsung membaca data dari Cloud Storage. Misalnya, saat menjalankan Spark di Ray, Anda dapat membaca file dari Cloud Storage.
Platform Agen menggunakan Cloud Storage FUSE untuk memasang bucket Cloud Storage sebagai sistem file lokal dalam tugas pelatihan yang berjalan di Ray. Hal ini memungkinkan aplikasi Ray Anda mengakses data seolah-olah berada di disk lokal menggunakan operasi I/O file standar.
Untuk performa optimal, sebaiknya gunakan bucket Cloud Storage di region yang sama dengan tempat Anda menjalankan cluster Ray.

Pelajari lebih lanjut

Menggunakan Cloud Storage FUSE

Berbagi Network File System (NFS)

Saat Anda memerlukan akses throughput yang sangat tinggi dan latensi rendah ke file jarak jauh, seolah-olah file tersebut disimpan secara lokal. Hal ini dapat menjadi penting untuk jenis data tertentu atau interaksi file yang kompleks selama pelatihan.
Saat Anda perlu membuat file jarak jauh tersedia untuk semua node dalam cluster komputasi, seperti cluster Ray di Platform Agen.
Saat aplikasi Anda mendapatkan manfaat dari antarmuka sistem file yang lebih standar dengan potensi kepatuhan POSIX yang lebih kuat dibandingkan dengan Cloud Storage FUSE.
Anda memiliki infrastruktur NFS yang ada dalam Virtual Private Cloud yang ingin Anda gunakan.
Anda perlu berbagi file atau direktori di beberapa tugas atau cluster dengan akses yang konsisten dan latensi rendah, dan pengelolaan izin di tingkat sistem file lebih disukai.

Khusus untuk Ray di Agent Platform

Anda dapat memasang berbagi NFS ke cluster Ray di Platform Agen, sehingga file jarak jauh dapat diakses seolah-olah bersifat lokal.
Hal ini bermanfaat untuk akses throughput tinggi dan latensi rendah ke sistem file bersama.
Anda dapat menyiapkan pemasangan NFS saat membuat cluster Ray menggunakan Agent Platform SDK untuk Python, dengan menentukan server, jalur, dan direktori pemasangan. Setelah dipasang, kode Ray Anda dapat membaca dan menulis ke volume NFS ini menggunakan operasi file standar.

Pelajari lebih lanjut

Menggunakan berbagi NFS

Set data terkelola

Tata kelola dan pengelolaan data terpusat: Set data terkelola menyediakan lokasi terpusat untuk mengatur dan mengelola set data Anda dalam Agent Platform. Hal ini membantu pelacakan dan tata kelola aset data Anda di berbagai proyek dan eksperimen.
Pelabelan Data: Anda dapat membuat tugas pelabelan dan mengelola set anotasi langsung dalam set data terkelola.
Melacak Silsilah Data: Set data terkelola secara otomatis melacak silsilah data Anda ke model yang dilatih di dalamnya. Hal ini sangat penting untuk memahami sumber data yang digunakan untuk model tertentu dan untuk memastikan kemampuan mereproduksi dan tata kelola.
Membandingkan Model Kustom dan AutoML: Set data terkelola memungkinkan Anda melatih model kustom dan model AutoML menggunakan data yang sama. Hal ini memfasilitasi perbandingan langsung performanya pada set data yang sama, sehingga membantu Anda memilih pendekatan terbaik untuk masalah Anda.
Membuat Statistik dan Visualisasi Data: Platform Agen dapat otomatis membuat statistik dan visualisasi untuk data dalam set data terkelola. Hal ini dapat membantu analisis data eksploratif dan membantu Anda memahami karakteristik data Anda.
Pemisahan Data Otomatis: Saat menggunakan set data terkelola dalam pipeline pelatihan, Platform Agen dapat otomatis membagi data Anda menjadi set pelatihan, validasi, dan pengujian berdasarkan pecahan, filter, pemisahan yang telah ditentukan, atau stempel waktu yang ditentukan. Hal ini menyederhanakan proses persiapan data.
Menggunakan Versi Set Data: Set data terkelola memungkinkan pembuatan versi, yang memungkinkan Anda melacak perubahan pada data Anda dari waktu ke waktu dan kembali ke versi sebelumnya jika diperlukan.

Khusus untuk Ray di Vertex AI

Jika Anda menggunakan set data terkelola dalam pipeline pelatihan Platform Agen yang menggunakan Ray untuk pelatihan terdistribusi, data dari set data terkelola akan tersedia untuk container pelatihan, yang kemudian dapat diakses oleh aplikasi Ray Anda (melalui Cloud Storage atau BigQuery yang terpasang jika set data ditautkan ke sumber tersebut). Variabel lingkungan AIP_TRAINING_DATA_URI, AIP_VALIDATION_DATA_URI, dan AIP_TEST_DATA_URI akan mengarah ke data.

Pelajari lebih lanjut

Menggunakan set data terkelola

BigQuery

Saat menghubungkan ke data dalam komponen Platform Agen: Banyak alat dan layanan Platform Agen yang terintegrasi langsung dengan BigQuery. Anda dapat membuat kueri data di BigQuery dari dalam JupyterLab. Hal ini memungkinkan Anda berinteraksi langsung dengan data BigQuery untuk eksplorasi, visualisasi, dan pengembangan model tanpa perlu memindahkannya ke sistem penyimpanan lain.
Saat membuat pipeline pelatihan: Saat membuat pipeline pelatihan di Agent Platform, Anda dapat menggunakan data langsung dari BigQuery. Misalnya, pipeline dapat mengambil data dari BigQuery, melakukan prapemrosesan, lalu melatih model.
Pipeline pelatihan model berkelanjutan: Untuk menyiapkan pelatihan model berkelanjutan, Anda dapat memicu eksekusi pipeline berdasarkan data baru yang tiba di tabel BigQuery. Hal ini memungkinkan otomatisasi pelatihan ulang model. Anda dapat mengonfigurasi pemicu Eventarc untuk memulai pipeline saat tugas baru dimasukkan ke dalam tabel BigQuery tertentu.
Pemantauan model: BigQuery dapat digunakan sebagai sumber untuk memantau diferensiasi performa dan penyimpangan fitur model yang di-deploy. Untuk deteksi diferensiasi performa, Anda dapat menentukan URI BigQuery dari set data pelatihan. Selain itu, BigQuery dapat menyimpan log dari endpoint inferensi online, yang kemudian dapat digunakan sebagai sumber data untuk pemantauan berkelanjutan. Untuk itu, sebaiknya tabel BigQuery Anda memiliki kolom stempel waktu.
Integrasi BigQuery ML: Anda dapat menggunakan set data BigQuery saat memanfaatkan BigQuery ML untuk membuat model machine learning menggunakan SQL. Vertex AI Workbench memungkinkan analisis eksploratif interaktif data BigQuery dan penggunaan BigQuery ML dalam lingkungan notebook.
Eksplorasi dan persiapan data: Sebelum pelatihan, Anda dapat menggunakan BigQuery untuk menjelajahi dan memvisualisasikan data. Anda juga dapat melakukan transformasi data menggunakan kueri SQL langsung di BigQuery sebelum menggunakan data untuk pelatihan.
Mengakses set data publik: BigQuery menghosting banyak set data publik, seperti set data Chicago Taxi Trips, yang dapat Anda gunakan untuk eksperimen dan pelatihan di Vertex AI Workbench.

Khusus untuk Ray di Vertex AI

Ray di Vertex AI memiliki kemampuan untuk membaca data langsung dari BigQuery. Anda dapat menggunakan Agent Platform SDK untuk Python dalam tugas Ray untuk menjalankan kueri BigQuery dan mewujudkan hasil untuk digunakan dalam aplikasi Ray Anda.
Saat membaca dari BigQuery, perhatikan ukuran respons kueri maksimum, yaitu 10 GB.
Anda juga dapat menulis data dari aplikasi Ray kembali ke BigQuery menggunakan Agent Platform SDK untuk Python.

Ringkasan persiapan data Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Cloud Storage sebagai Sistem File yang Terpasang (Cloud Storage FUSE)

Khusus untuk Ray di Agent Platform

Pelajari lebih lanjut

Berbagi Network File System (NFS)

Khusus untuk Ray di Agent Platform

Pelajari lebih lanjut

Set data terkelola

Khusus untuk Ray di Vertex AI

Pelajari lebih lanjut

BigQuery

Khusus untuk Ray di Vertex AI

Pelajari lebih lanjut

Ringkasan persiapan data