Memecahkan Masalah Agent Platform Workbench

Halaman ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah saat menggunakan Gemini Enterprise Agent Platform Workbench.

Lihat juga Memecahkan Masalah Platform Agen untuk mendapatkan bantuan dalam menggunakan komponen lain dari Platform Agen Gemini Enterprise.

Untuk memfilter konten halaman ini, klik topik:

Instance Workbench Platform Agen

Bagian ini menjelaskan langkah-langkah pemecahan masalah untuk instance Agent Platform Workbench.

Memecahkan Masalah dengan Alat AI

Bagian ini membahas cara menggunakan alat AI untuk pemecahan masalah;

Memecahkan Masalah dengan Investigasi Bantuan Cloud

Saat menghubungkan Agent Platform dengan produk Google Cloud lain, Anda dapat menemukan Investigasi Gemini Cloud Assist yang berguna dalam memecahkan masalah integrasi. Hal ini juga dapat mempercepat pemecahan masalah pada instance itu sendiri. Gemini Cloud Assist memungkinkan Anda mendapatkan insight dari metrik dan log yang dihasilkan oleh instance.

  • Hentikan instance dan ikuti link View in Compute Engine.
  • Instal Agen Operasional (Direkomendasikan). Proses ini akan memerlukan waktu beberapa menit
  • Tambahkan kolom Custom Metadata notebook-enable-debug dan tetapkan ke true
  • Mulai ulang instance dan reproduksi masalah.
  • Aktifkan dan konfigurasi Cloud Assist Investigations API.
  • Buat penyelidikan baru dan jelaskan masalah secara mendetail menggunakan perintah bahasa alami.
  • Saat Anda mengetik, dialog akan muncul dan menyarankan resource untuk ditambahkan ke penyelidikan. Tinjau daftar ini dan pastikan untuk menambahkan instance sebagai resource serta resource lainnya dalam daftar produk yang didukung ini
  • Mulai penyelidikan dan tinjau hasilnya.

Memecahkan masalah file diagnostik dengan Gemini CLI

Anda dapat menggunakan hasil dari Investigasi Bantuan Cloud untuk menginformasikan investigasi berbasis AI lebih lanjut pada file diagnostik dari instance.

  • Jalankan alat diagnostik dan tentukan bucket Cloud Storage untuk mengupload hasilnya.
sudo /opt/deeplearning/bin/diagnostic_tool.sh [--repair] [--bucket=$BUCKET]
  • Download file diagnostik ke workstation Anda, lalu instal dan konfigurasi Gemini CLI.
  • Mulai aplikasi, lalu jelaskan masalah Anda. Sertakan hipotesis dari investigasi Bantuan Cloud dalam konteks. Minta model untuk memperluas penyelidikan dengan membaca isi file diagnostik menggunakan perintah bahasa alami.

Menghubungkan ke dan membuka JupyterLab

Bagian ini menjelaskan langkah-langkah pemecahan masalah untuk terhubung ke dan membuka JupyterLab.

Tidak ada yang terjadi setelah mengklik Open JupyterLab

Masalah

Saat Anda mengklik Open JupyterLab, tidak ada yang terjadi.

Solusi

Pastikan browser Anda tidak memblokir tab baru agar terbuka secara otomatis. JupyterLab akan terbuka di tab browser baru.

Tidak dapat mengakses terminal di instance Agent Platform Workbench

Masalah

Jika Anda tidak dapat mengakses terminal atau tidak dapat menemukan jendela terminal di peluncur, hal ini mungkin karena instance Agent Platform Workbench Anda tidak mengaktifkan akses terminal.

Solusi

Anda harus membuat instance Agent Platform Workbench baru dengan opsi Akses terminal diaktifkan. Opsi ini tidak dapat diubah setelah pembuatan instance.

Error 502 saat membuka JupyterLab

Masalah

Error 502 mungkin berarti bahwa instance Agent Platform Workbench Anda belum siap.

Solusi

Tunggu beberapa menit, muat ulang tab browser konsol Google Cloud , lalu coba lagi.

Notebook tidak responsif

Masalah

Instance Agent Platform Workbench Anda tidak menjalankan sel atau tampaknya macet.

Solusi

Coba mulai ulang kernel terlebih dahulu dengan mengklik Kernel dari menu atas, lalu Mulai ulang Kernel. Jika tidak berhasil, Anda dapat mencoba langkah berikut:

  • Muat ulang halaman browser JupyterLab. Output sel yang tidak disimpan tidak akan dipertahankan, jadi Anda harus menjalankan sel tersebut lagi untuk menghasilkan ulang output.
  • Reset instance.

Tidak dapat terhubung dengan instance Agent Platform Workbench menggunakan SSH

Masalah

Anda tidak dapat terhubung ke instance menggunakan SSH melalui jendela terminal.

Instance Agent Platform Workbench menggunakan Login OS untuk mengaktifkan akses SSH. Saat Anda membuat instance, Agent Platform Workbench akan mengaktifkan Login OS secara default dengan menetapkan kunci metadata enable-oslogin ke TRUE. Jika Anda tidak dapat menggunakan SSH untuk terhubung ke instance, kunci metadata ini mungkin perlu disetel ke TRUE.

Solusi

Menghubungkan ke instance Agent Platform Workbench menggunakan konsol Google Cloud tidak didukung. Jika Anda tidak dapat terhubung ke instance menggunakan SSH melalui jendela terminal, lihat hal berikut:

Untuk menyetel kunci metadata enable-oslogin ke TRUE, gunakan metode projects.locations.instances.patch di Notebooks API atau perintah gcloud workbench instances update di Agent Platform SDK.

Kuota GPU telah terlampaui

Masalah

Anda tidak dapat membuat instance Agent Platform Workbench dengan GPU.

Solusi

Tentukan jumlah GPU yang tersedia di project Anda dengan memeriksa halaman kuota. Jika GPU tidak tercantum di halaman kuota, atau Anda memerlukan kuota GPU tambahan, Anda dapat meminta penambahan kuota untuk GPU Compute Engine. Lihat Meminta batas kuota yang lebih tinggi.

Membuat instance Workbench Platform Agen

Bagian ini menjelaskan cara memecahkan masalah terkait pembuatan instance Agent Platform Workbench.

Instance tetap dalam status tertunda tanpa batas waktu atau macet dalam status penyediaan

Masalah

Setelah membuat instance Agent Platform Workbench, instance tersebut akan tetap dalam status tertunda tanpa batas waktu. Error seperti berikut mungkin muncul di log serial:

Could not resolve host: notebooks.googleapis.com

Jika instance Anda mengalami masalah dengan status penyediaan, hal ini mungkin karena Anda memiliki konfigurasi jaringan pribadi yang tidak valid untuk instance Anda.

Solusi

Ikuti langkah-langkah di bagian Log instance menampilkan error koneksi atau waktu tunggu habis.

Tidak dapat membuat instance dalam jaringan VPC Bersama

Masalah

Mencoba membuat instance dalam jaringan VPC Bersama akan menghasilkan pesan error seperti berikut:

Required 'compute.subnetworks.use' permission for
'projects/network-administration/regions/us-central1/subnetworks/v'

Solusi

Masalahnya adalah Notebooks Service Account berupaya membuat instance tanpa izin yang benar.

Untuk memastikan bahwa Akun Layanan Notebook memiliki izin yang diperlukan untuk memastikan bahwa Akun Layanan Notebook dapat membuat instance Agent Platform Workbench dalam jaringan VPC Bersama, minta administrator untuk memberikan peran IAM Compute Network User (roles/compute.networkUser) kepada Akun Layanan Notebook di project host.

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk memastikan bahwa Akun Layanan Notebook dapat membuat instance Agent Platform Workbench dalam jaringan VPC Bersama. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk memastikan bahwa Akun Layanan Notebooks dapat membuat instance Agent Platform Workbench dalam jaringan VPC Bersama:

  • Untuk menggunakan subnetwork: compute.subnetworks.use

Administrator Anda mungkin juga dapat memberikan izin ini kepada Akun Layanan Notebooks dengan peran khusus atau peran bawaan lainnya.

Tidak dapat membuat instance Agent Platform Workbench dengan container kustom

Masalah

Tidak ada opsi untuk menggunakan container kustom saat membuat instance Agent Platform Workbench di konsol Google Cloud .

Solusi

Menambahkan container kustom ke instance Agent Platform Workbench tidak didukung, dan Anda tidak dapat menambahkan container kustom menggunakan konsol Google Cloud .

Menambahkan lingkungan conda direkomendasikan daripada menggunakan container kustom.

Anda dapat menambahkan container kustom ke instance Agent Platform Workbench menggunakan Notebooks API, tetapi kemampuan ini tidak didukung.

Tidak dapat menggunakan Gemini CLI

Masalah

Kotak Gemini CLI ada di peluncur JupyterLab dan terbuka dengan berhasil, tetapi Gemini tidak merespons perintah.

Solusi

Administrator mungkin telah memblokir akses ke Gemini CLI. Lihat Mengontrol akses ke Gemini CLI.

Tombol Pasang penyimpanan bersama tidak ada

Masalah

Tombol Mount shared storage tidak ada di tab File Browser pada antarmuka JupyterLab.

Solusi

Izin storage.buckets.list diperlukan agar tombol Mount shared storage muncul di antarmuka JupyterLab instance Agent Platform Workbench Anda. Minta administrator Anda untuk memberikan izin storage.buckets.list pada project ke akun layanan instance Agent Platform Workbench Anda.

Error 599 saat menggunakan Managed Service untuk Apache Spark

Masalah

Mencoba membuat instance yang mendukung Managed Service untuk Apache Spark akan menghasilkan pesan error seperti berikut:

HTTP 599: Unknown (Error from Gateway: [Timeout while connecting]
Exception while attempting to connect to Gateway server url.
Ensure gateway url is valid and the Gateway instance is running.)

Solusi

Dalam konfigurasi Cloud DNS, tambahkan entri Cloud DNS untuk domain *.googleusercontent.com.

Tidak dapat menginstal ekstensi JupyterLab pihak ketiga

Masalah

Mencoba menginstal ekstensi JupyterLab pihak ketiga akan menghasilkan pesan Error: 500.

Solusi

Ekstensi JupyterLab pihak ketiga tidak didukung di instance Workbench Platform Agen.

Tidak dapat mengedit virtual machine yang mendasarinya

Masalah

Saat mencoba mengedit virtual machine (VM) yang mendasarinya dari instance Agent Platform Workbench, Anda mungkin mendapatkan pesan error yang mirip dengan berikut ini:

Current principal doesn't have permission to mutate this resource.

Solusi

Error ini terjadi karena Anda tidak dapat mengedit VM yang mendasari suatu instance menggunakan konsol Google Cloud atau Compute Engine API.

Untuk mengedit VM yang mendasari instance Agent Platform Workbench, gunakan metode projects.locations.instances.patch di Notebooks API atau perintah gcloud workbench instances update di Agent Platform SDK

Paket pip tidak tersedia setelah menambahkan lingkungan conda

Masalah

Paket pip Anda tidak tersedia setelah Anda menambahkan kernel berbasis conda.

Solusi

Untuk mengatasi masalah ini, lihat Menambahkan lingkungan conda dan coba langkah-langkah berikut:

  • Pastikan Anda menggunakan variabel DL_ANACONDA_ENV_HOME dan variabel tersebut berisi nama lingkungan Anda.

  • Periksa apakah pip berada di jalur yang mirip dengan opt/conda/envs/ENVIRONMENT/bin/pip. Anda dapat menjalankan perintah which pip untuk mendapatkan jalur.

Tidak dapat mengakses atau menyalin data instance dengan akses satu pengguna

Masalah

Data pada instance dengan akses satu pengguna tidak dapat diakses.

Untuk instance Agent Platform Workbench yang disiapkan dengan akses satu pengguna, hanya satu pengguna tertentu (pemilik) yang dapat mengakses data pada instance.

Solusi

Untuk mengakses atau menyalin data saat Anda bukan pemilik instance, buka kasus dukungan.

Penghentian yang tidak terduga

Masalah

Instance Agent Platform Workbench Anda berhenti secara tiba-tiba.

Solusi

Jika instance Anda berhenti tiba-tiba, ini mungkin karena penghentian saat tidak ada aktivitas dimulai.

Jika Anda mengaktifkan penghentian saat tidak ada aktivitas, instance akan dihentikan saat tidak ada aktivitas kernel selama jangka waktu yang ditentukan. Misalnya, menjalankan sel atau pencetakan output baru ke notebook adalah aktivitas yang mereset timer waktu tunggu tidak ada aktivitas. Penggunaan CPU tidak mereset timer waktu tunggu tidak ada aktivitas.

Log instance menampilkan error koneksi atau waktu tunggu habis

Masalah

Log instance Agent Platform Workbench Anda menampilkan error koneksi atau waktu tunggu.

Solusi

Jika Anda melihat error koneksi atau waktu tunggu di log instance, pastikan server Jupyter berjalan di port 8080. Ikuti langkah-langkah di bagian Verifikasi bahwa API internal Jupyter aktif.

Jika Anda telah menonaktifkan External IP dan menggunakan jaringan VPC pribadi, pastikan Anda juga telah mengikuti dokumentasi opsi konfigurasi jaringan. Pertimbangkan hal berikut:

Log instance menampilkan 'Unable to contact Jupyter API' 'ReadTimeoutError'

Masalah

Log instance Agent Platform Workbench Anda menampilkan error seperti:

notebooks_collection_agent. Unable to contact Jupyter API:
HTTPConnectionPool(host=\'127.0.0.1\', port=8080):
Max retries exceeded ReadTimeoutError(\"HTTPConnectionPool(host=\'127.0.0.1\', port=8080

Solusi

Ikuti langkah-langkah di Bagian log instance menampilkan error koneksi atau waktu tunggu habis. Anda juga dapat mencoba mengubah skrip Agen Pengumpulan Notebook untuk mengubah HTTP_TIMEOUT_SESSION ke nilai yang lebih besar, misalnya: 60, untuk membantu memverifikasi apakah permintaan gagal karena panggilan membutuhkan waktu terlalu lama untuk merespons atau URL yang diminta tidak dapat dijangkau.

Alamat docker0 bertentangan dengan pengalamatan VPC

Masalah

Secara default, antarmuka docker0 dibuat dengan alamat IP 172.17.0.1/16. Hal ini dapat berkonflik dengan pengalamatan IP di jaringan VPC Anda sehingga instance tidak dapat terhubung ke endpoint lain dengan alamat 172.17.0.1/16.

Solusi

Anda dapat memaksa pembuatan antarmuka docker0 dengan alamat IP yang tidak berkonflik dengan jaringan VPC Anda menggunakan skrip pasca-startup berikut dan menyetel perilaku skrip pasca-startup ke run_once.

#!/bin/bash
# Wait for Docker to be fully started
while ! systemctl is-active docker; do
sleep 1
done
# Stop the Docker service
systemctl stop docker
# Modify /etc/docker/daemon.json
cat < /etc/docker/daemon.json
{
"bip": "CUSTOM_DOCKER_IP/16"
}
EOF
# Restart the Docker service
systemctl start docker

Reservasi yang ditentukan tidak ada

Masalah

Operasi untuk membuat instance menghasilkan pesan error Specified reservations do not exist. Output operasi mungkin mirip dengan berikut ini:

{
  "name": "projects/PROJECT/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.notebooks.v2.OperationMetadata",
    "createTime": "2025-01-01T01:00:01.000000000Z",
    "endTime": "2025-01-01T01:00:01.000000000Z",
    "target": "projects/PROJECT/locations/LOCATION/instances/INSTANCE_NAME",
    "verb": "create",
    "requestedCancellation": false,
    "apiVersion": "v2",
    "endpoint": "CreateInstance"
  },
  "done": true,
  "error": {
    "code": 3,
    "message": "Invalid value for field 'resource.reservationAffinity': '{  \"consumeReservationType\": \"SPECIFIC_ALLOCATION\",  \"key\": \"compute.googleapis.com/reservation-name...'. Specified reservations [projects/PROJECT/zones/ZONE/futureReservations/RESERVATION_NAME] do not exist.",
    "details": [
      {
        "@type": "type.googleapis.com/google.rpc.RequestInfo",
        "requestId": "REQUEST_ID"
      }
    ]
  }
}

Solusi

Beberapa jenis mesin Compute Engine memerlukan parameter tambahan saat pembuatan, seperti SSD lokal atau platform CPU minimum. Spesifikasi instance harus mencakup kolom tambahan ini.

  • Instance Workbench Platform Agen menggunakan platform CPU minimum otomatis secara default. Jika pemesanan Anda menetapkan platform tertentu, Anda perlu menetapkan min_cpu_platform yang sesuai saat membuat instance Agent Platform Workbench.
  • Instance Agent Platform Workbench selalu menetapkan jumlah SSD lokal ke nilai default sesuai dengan jenis mesin. Misalnya, a2-ultragpu-1g selalu memiliki 1 SSD lokal, sedangkan a2-highgpu-1g selalu memiliki 0 SSD lokal. Saat membuat reservasi untuk digunakan pada instance Agent Platform Workbench, Anda harus membiarkan SSD lokal ke nilai defaultnya.

Prosedur yang bermanfaat

Bagian ini menjelaskan prosedur yang mungkin berguna bagi Anda.

Menggunakan SSH untuk terhubung ke instance Agent Platform Workbench

Gunakan ssh untuk terhubung ke instance Anda dengan mengetikkan perintah berikut di Cloud Shell atau lingkungan apa pun tempat Google Cloud CLI diinstal.

gcloud compute ssh --project PROJECT_ID \
  --zone ZONE \
  INSTANCE_NAME -- -L 8080:localhost:8080

Ganti kode berikut:

  • PROJECT_ID: Project ID Anda
  • ZONE: Google Cloud Zona tempat instance Anda berada
  • INSTANCE_NAME: Nama instance Anda

Anda juga dapat terhubung ke instance dengan membuka halaman detail Compute Engine instance, lalu mengklik tombol SSH.

Mendaftar ulang dengan server Inverting Proxy

Untuk mendaftarkan ulang instance Agent Platform Workbench dengan server Inverting Proxy internal, Anda dapat menghentikan dan memulai VM dari halaman Instances atau menggunakan ssh untuk terhubung ke instance Agent Platform Workbench, lalu masukkan:

cd /opt/deeplearning/bin
sudo ./attempt-register-vm-on-proxy.sh

Memverifikasi status layanan Docker

Untuk memverifikasi status layanan Docker, Anda dapat menggunakan ssh untuk terhubung ke instance Agent Platform Workbench, lalu masukkan:

sudo service docker status

Memverifikasi bahwa agen Inverting Proxy sedang berjalan

Untuk memverifikasi apakah agen Inverting Proxy notebook sedang berjalan, gunakan ssh untuk terhubung ke instance Agent Platform Workbench, lalu masukkan:

# Confirm Inverting Proxy agent Docker container is running (proxy-agent)
sudo docker ps

# Verify State.Status is running and State.Running is true.
sudo docker inspect proxy-agent

# Grab logs
sudo docker logs proxy-agent

Verifikasi status layanan Jupyter dan kumpulkan log

Untuk memverifikasi status layanan Jupyter, Anda dapat menggunakan ssh untuk terhubung ke instance Agent Platform Workbench, lalu masukkan:

sudo service jupyter status

Untuk mengumpulkan log layanan Jupyter:

sudo journalctl -u jupyter.service --no-pager

Memverifikasi bahwa API internal Jupyter aktif

Jupyter API harus selalu berjalan di port 8080. Anda dapat memverifikasinya dengan memeriksa syslog instance untuk entri yang mirip dengan:

Jupyter Server ... running at:
http://localhost:8080

Untuk memverifikasi bahwa API internal Jupyter aktif, Anda juga dapat menggunakan SSH untuk terhubung ke instance Agent Platform Workbench Anda, lalu masukkan:

curl http://127.0.0.1:8080/api/kernelspecs

Anda juga dapat mengukur waktu yang diperlukan API untuk merespons jika permintaan memerlukan waktu terlalu lama:

time curl -V http://127.0.0.1:8080/api/status
time curl -V http://127.0.0.1:8080/api/kernels
time curl -V http://127.0.0.1:8080/api/connections

Untuk menjalankan perintah ini di instance Agent Platform Workbench, buka JupyterLab, lalu buat terminal baru.

Memulai ulang layanan Docker

Untuk memulai ulang layanan Docker, Anda dapat menghentikan dan memulai VM dari halaman Instances atau menggunakan SSH untuk terhubung ke instance Agent Platform Workbench dan masukkan:

sudo service docker restart

Memulai ulang agen Inverting Proxy

Untuk memulai ulang agen Inverting Proxy, Anda dapat menghentikan dan memulai VM dari halaman Instance atau menggunakan SSH untuk terhubung ke instance Agent Platform Workbench, lalu masukkan:

sudo docker restart proxy-agent

Mulai ulang layanan Jupyter

Untuk memulai ulang layanan Jupyter, Anda dapat menghentikan dan memulai VM dari halaman Instance atau menggunakan SSH untuk terhubung ke instance Agent Platform Workbench dan masukkan:

sudo service jupyter restart

Mulai ulang Agen Pengumpulan Notebook

Layanan Notebooks Collection Agent menjalankan proses Python di latar belakang yang memverifikasi status layanan inti instance Agent Platform Workbench.

Untuk memulai ulang layanan Notebooks Collection Agent, Anda dapat menghentikan dan memulai VM dari konsolGoogle Cloud atau menggunakan ssh untuk terhubung ke instance Agent Platform Workbench, lalu masukkan:

sudo systemctl stop notebooks-collection-agent.service

diikuti dengan:

sudo systemctl start notebooks-collection-agent.service

Untuk menjalankan perintah ini di instance Agent Platform Workbench, buka JupyterLab, lalu buat terminal baru.

Ubah skrip Notebooks Collection Agent

Untuk mengakses dan mengedit skrip, buka terminal di instance kita atau gunakan ssh untuk terhubung ke instance Agent Platform Workbench, lalu masukkan:

nano /opt/deeplearning/bin/notebooks_collection_agent.py

Setelah mengedit file, jangan lupa untuk menyimpannya.

Kemudian, Anda harus memulai ulang layanan Notebooks Collection Agent.

Verifikasi bahwa instance dapat menyelesaikan domain DNS yang diperlukan

Untuk memverifikasi bahwa instance dapat menyelesaikan domain DNS yang diperlukan, Anda dapat menggunakan SSH untuk terhubung ke instance Agent Platform Workbench dan memasukkan:

host notebooks.googleapis.com
host *.notebooks.cloud.google.com
host *.notebooks.googleusercontent.com
host *.kernels.googleusercontent.com

atau:

curl --silent --output /dev/null "https://notebooks.cloud.google.com"; echo $?

Jika instance telah mengaktifkan Managed Service untuk Apache Spark, Anda dapat memverifikasi bahwa instance menyelesaikan *.kernels.googleusercontent.com dengan menjalankan:

curl --verbose -H "Authorization: Bearer $(gcloud auth print-access-token)" https://${PROJECT_NUMBER}-dot-${REGION}.kernels.googleusercontent.com/api/kernelspecs | jq .

Untuk menjalankan perintah ini di instance Agent Platform Workbench, buka JupyterLab, lalu buat terminal baru.

Membuat salinan data pengguna pada instance

Untuk menyimpan salinan data pengguna instance di Cloud Storage, selesaikan langkah-langkah berikut.

Membuat bucket Cloud Storage (opsional)

Dalam project yang sama tempat instance Anda berada, buat bucket Cloud Storage tempat Anda dapat menyimpan data pengguna. Jika sudah memiliki bucket Cloud Storage, lewati langkah ini.

  • Membuat bucket Cloud Storage:
    gcloud storage buckets create gs://BUCKET_NAME
    Ganti BUCKET_NAME dengan nama bucket yang memenuhi persyaratan penamaan bucket.

Salin data pengguna Anda

  1. Di antarmuka JupyterLab instance Anda, pilih File > New > Terminal untuk membuka jendela terminal. Untuk instance Workbench Platform Agen, Anda dapat terhubung ke terminal instance dengan menggunakan SSH.

  2. Gunakan gcloud CLI untuk menyalin data pengguna Anda ke bucket Cloud Storage. Contoh perintah berikut menyalin semua file dari direktori /home/jupyter/ instance ke direktori dalam bucket Cloud Storage.

    gcloud storage cp /home/jupyter/* gs://BUCKET_NAMEPATH --recursive
    

    Ganti kode berikut:

    • BUCKET_NAME: nama bucket Cloud Storage Anda
    • PATH: jalur ke direktori tempat Anda ingin menyalin file, misalnya: /copy/jupyter/

Menyelidiki instance yang macet dalam penyediaan menggunakan gcpdiag

gcpdiag adalah alat open source. Ini bukan produk Google Cloud yang didukung secara resmi. Anda dapat menggunakan alat gcpdiag untuk membantu mengidentifikasi dan memperbaiki masalah project Google Cloud. Untuk mengetahui informasi selengkapnya, lihat project gcpdiag di GitHub.

Runbook gcpdiag ini menyelidiki kemungkinan penyebab instance Agent Platform Workbench mengalami masalah saat penyediaan, termasuk area berikut:
  • Status: Memeriksa status instance saat ini untuk memastikan bahwa instance tersebut macet dalam penyediaan dan tidak dihentikan atau aktif.
  • Image boot disk VM Compute Engine instance: Memeriksa apakah instance dibuat dengan container kustom, image workbench-instances resmi, Deep Learning VM Image, atau image yang tidak didukung yang dapat menyebabkan instance macet dalam status penyediaan.
  • Skrip kustom: Memeriksa apakah instance menggunakan skrip startup atau pasca-startup kustom yang mengubah port Jupyter default atau merusak dependensi yang dapat menyebabkan instance macet dalam status penyediaan.
  • Versi lingkungan: Memeriksa apakah instance menggunakan versi lingkungan terbaru dengan memeriksa kemampuan upgrade-nya. Versi sebelumnya dapat menyebabkan instance macet dalam status penyediaan.
  • Performa VM Compute Engine instance: Memeriksa performa VM saat ini untuk memastikan performanya tidak terganggu oleh penggunaan CPU yang tinggi, memori yang tidak mencukupi, atau masalah ruang disk yang dapat mengganggu operasi normal.
  • Port serial Compute Engine instance atau logging sistem: Memeriksa apakah instance memiliki log port serial, yang dianalisis untuk memastikan Jupyter berjalan di port 127.0.0.1:8080.
  • Akses SSH dan terminal instance Compute Engine: Memeriksa apakah VM Compute Engine instance sedang berjalan sehingga pengguna dapat melakukan SSH dan membuka terminal untuk memverifikasi bahwa penggunaan ruang di 'home/jupyter' lebih rendah dari 85%. Jika tidak ada ruang yang tersisa, hal ini dapat menyebabkan instance macet dalam status penyediaan.
  • IP Eksternal dinonaktifkan: Memeriksa apakah akses IP eksternal dinonaktifkan. Konfigurasi jaringan yang salah dapat menyebabkan instance macet dalam status penyediaan.

Docker

Anda dapat menjalankan gcpdiag menggunakan wrapper yang memulai gcpdiag dalam container Docker. Docker atau Podman harus diinstal.

  1. Salin dan jalankan perintah berikut di workstation lokal Anda.
    curl https://gcpdiag.dev/gcpdiag.sh >gcpdiag && chmod +x gcpdiag
  2. Jalankan perintah gcpdiag.
    ./gcpdiag runbook vertex/workbench-instance-stuck-in-provisioning \
        --parameter project_id=PROJECT_ID \
        --parameter instance_name=INSTANCE_NAME \
        --parameter zone=ZONE

Lihat parameter yang tersedia untuk runbook ini.

Ganti kode berikut:

  • PROJECT_ID: ID project yang berisi resource.
  • INSTANCE_NAME: Nama instance Agent Platform Workbench target dalam project Anda.
  • ZONE: Zona tempat instance Agent Platform Workbench target Anda berada.

Flag yang berguna:

Untuk mengetahui daftar dan deskripsi semua flag alat gcpdiag, lihat petunjuk penggunaan gcpdiag.

Error izin saat menggunakan peran akun layanan dengan Agent Platform

Masalah

Anda mendapatkan error izin umum saat menggunakan peran akun layanan dengan Platform Agen.

Error ini dapat muncul di Cloud Logging dalam log komponen produk atau log audit. Tombol tersebut juga dapat muncul dalam kombinasi apa pun dari project yang terpengaruh.

Masalah ini dapat disebabkan oleh salah satu atau kedua hal berikut:

  • Penggunaan peran Service Account Token Creator saat peran Service Account User seharusnya digunakan, atau sebaliknya. Peran ini memberikan izin yang berbeda pada akun layanan dan tidak dapat dipertukarkan. Untuk mempelajari perbedaan antara peran Service Account Token Creator dan Service Account User, lihat Peran akun layanan.

  • Anda telah memberikan izin akun layanan di beberapa project, yang tidak diizinkan secara default.

Solusi

Untuk mengatasi masalah ini, coba satu atau beberapa langkah berikut:

  • Tentukan apakah peran Service Account Token Creator atau Service Account User diperlukan. Untuk mempelajari lebih lanjut, baca dokumentasi IAM untuk layanan Agent Platform yang Anda gunakan, serta integrasi produk lainnya yang Anda gunakan.

  • Jika Anda telah memberikan izin akun layanan di beberapa project, aktifkan akun layanan untuk dilampirkan di seluruh project dengan memastikan bahwa iam.disableCrossProjectServiceAccountUsage. tidak diterapkan. Untuk memastikan bahwa iam.disableCrossProjectServiceAccountUsage tidak diterapkan, jalankan perintah berikut:

    gcloud resource-manager org-policies disable-enforce \
      iam.disableCrossProjectServiceAccountUsage \
      --project=PROJECT_ID