Hambatan terjadi saat satu langkah, tahap, atau pekerja memperlambat keseluruhan tugas. Hambatan dapat menyebabkan pekerja menganggur dan peningkatan latensi.
Jika Dataflow mendeteksi hambatan, grafik tugas akan menampilkan pemberitahuan, dan panel Info Langkah akan mencantumkan jenis hambatan dan penyebabnya, jika diketahui. Dataflow juga mengekspor informasi deteksi hambatan ke metrik Stackdriver, yang menampilkan data sebagai deret waktu. Dengan begitu, Anda dapat melihat hambatan dari waktu ke waktu atau di masa lalu.
Memahami hambatan
Saat menjalankan pipeline streaming, tugas Dataflow terdiri dari serangkaian komponen, seperti pengacakan streaming, thread pemrosesan fungsi yang ditentukan pengguna (DoFn), dan pembuatan titik pemeriksaan status persisten. Untuk memfasilitasi alur data, Dataflow menggunakan
antrean untuk menghubungkan komponen ini. Data dikirim dari hulu ke hilir.
Di banyak pipeline, kapasitas throughput keseluruhan dibatasi oleh satu komponen, sehingga menciptakan hambatan dalam pipeline. Kecepatan data dapat melewati hambatan membatasi seberapa cepat pipeline dapat menerima dan memproses data input.
Misalnya, pertimbangkan pipeline tempat pemrosesan DoFn terjadi di hilir
pengacakan streaming. Antrean di antara keduanya menyimpan data yang diacak tetapi belum diproses. Jika pemrosesan DoFn tidak dapat menggunakan data secepat yang dihasilkan oleh pengacakan
streaming, maka antrean akan bertambah. Kemacetan yang berkepanjangan dapat menyebabkan antrean mencapai kapasitasnya. Pada saat itu, pengacakan lebih lanjut akan dijeda, dan backlog akan diteruskan ke upstream. Antrean di hulu juga mengakumulasi backlog,
yang pada akhirnya menyebabkan perlambatan yang meluas ke sumber data, yang berarti seluruh
pipeline tidak dapat mengimbangi input.
Saat terjadi hambatan, sebagian besar pipeline mungkin tampak tidak responsif, meskipun hanya satu titik dalam pipeline yang menyebabkan backlog. Perilaku ini dapat menyulitkan proses debug bottleneck. Tujuan deteksi hambatan adalah mengidentifikasi lokasi dan penyebab yang tepat, sehingga Anda tidak perlu menebak-nebak dan dapat memperbaiki akar masalahnya.
Dataflow mendeteksi hambatan saat penundaan melebihi nilai minimum lima menit. Jika penundaan tidak melampaui nilai minimum ini, Dataflow tidak mendeteksi hambatan.
Deteksi hambatan tidak selalu mengharuskan Anda bertindak dan bergantung pada kasus penggunaan Anda. Pipeline dapat beroperasi secara normal dengan penundaan sementara lebih dari lima menit. Jika hal ini dapat diterima untuk kasus penggunaan Anda, Anda mungkin tidak perlu menyelesaikan kemacetan yang ditunjukkan.
Jenis hambatan
Saat Dataflow mendeteksi hambatan, antarmuka pemantauan akan menunjukkan tingkat keparahan masalah. Hambatan dikelompokkan ke dalam kategori berikut:
- Pemrosesan macet dan tidak ada kemajuan
- Progres pipeline dihentikan sepenuhnya pada langkah ini.
- Pemrosesan sedang berlangsung, tetapi tertinggal.
- Pipeline tidak dapat memproses data masuk secepat kedatangannya. Akibatnya, backlog meningkat.
- Pemrosesan sedang berlangsung, tetapi backlog tetap stabil
- Pipeline sedang berjalan, dan kecepatan pemrosesan sebanding dengan kecepatan input. Pemrosesan cukup cepat sehingga backlog tidak bertambah, tetapi backlog yang terakumulasi juga tidak berkurang secara signifikan.
- Pemrosesan sedang berlangsung dan mengejar ketertinggalan dari backlog
- Backlog berkurang, tetapi hambatan saat ini mencegah pipeline mengejar ketinggalan lebih cepat. Jika Anda memulai pipeline dengan backlog, status ini mungkin normal dan tidak memerlukan intervensi apa pun. Pantau progres untuk melihat apakah backlog terus berkurang.
Penyebab hambatan
Bagian ini mencantumkan penyebab hambatan yang dapat dideteksi. Gunakan informasi ini untuk menyelesaikan masalah. Dalam beberapa kasus, mungkin ada beberapa penyebab, dan penyebab tersebut mungkin terkait. Misalnya, jika pekerja tidak memiliki kapasitas yang memadai, pemakaian vCPU mungkin tinggi. Penggunaan vCPU yang tinggi dapat menyebabkan operasi menjadi lambat, yang pada gilirannya dapat menyebabkan penundaan antrean yang lebih tinggi. Analisis kemungkinan penyebab dapat menampilkan semua hal ini sebagai penyebab hambatan.
- Operasi dengan waktu pemrosesan yang lama
Komputasi memiliki waktu pemrosesan yang lama. Hal ini terjadi setiap kali paket input dikirim ke pekerja yang menjalankan
DoFndan waktu yang signifikan telah berlalu tanpa hasil yang tersedia.Hal ini paling sering terjadi akibat satu operasi yang berjalan lama dalam kode pengguna. Masalah lain dapat muncul sebagai operasi waktu pemrosesan yang lama. Misalnya, error yang ditampilkan dan dicoba lagi di dalam
DoFn, percobaan ulang dalam jangka waktu yang lama, atau error pada harness pekerja karena faktor seperti OOM dapat menyebabkan waktu pemrosesan yang lama ini.Jika komputasi yang terpengaruh ada dalam kode pengguna, cari cara untuk mengoptimalkan kode atau membatasi waktu eksekusi. Untuk membantu proses debug, log pekerja menampilkan stack trace untuk setiap operasi yang macet selama lebih dari 5 menit.
- Pembacaan status persisten yang lambat
Komputasi menghabiskan banyak waktu untuk membaca status persisten sebagai bagian dari eksekusi
DoFn. Hal ini mungkin disebabkan oleh status persisten yang terlalu besar atau terlalu banyak pembacaan. Pertimbangkan untuk mengurangi ukuran status yang dipertahankan atau frekuensi pembacaan. Hal ini juga mungkin merupakan masalah sementara karena lambatnya status persisten yang mendasarinya.- Penulisan status persisten yang lambat
Komputasi menghabiskan banyak waktu untuk menulis status persisten selama penerapan hasil pemrosesan. Hal ini mungkin disebabkan oleh status persisten yang terlalu besar. Pertimbangkan untuk mengurangi ukuran status yang dipertahankan. Hal ini juga mungkin merupakan masalah sementara karena lambatnya status persisten yang mendasarinya.
- Penerapan ditolak
Pemrosesan data tidak dapat dilakukan ke status persisten karena tidak valid. Hal ini biasanya disebabkan oleh terlampauinya salah satu batas operasional. Periksa log untuk mengetahui detail selengkapnya, atau hubungi dukungan.
- Partisi sumber Apache Kafka tidak mencukupi
Komputasi sumber Apache Kafka memiliki partisi yang tidak memadai. Untuk mengatasi masalah ini, coba langkah-langkah berikut:
- Tingkatkan jumlah partisi Kafka.
- Sertakan pendistribusian ulang menggunakan
.withRedistribute()saat mengonfigurasi pembacaan Kafka IO untuk memparalelkan data secara lebih efisien. Sertakan.withRedistributeNumKeys(N)denganN > partitionsuntuk memberikan batas atas pada jumlah total kunci. Memiliki sejumlah kecil kunci memberikan efisiensi melalui penggabungan rekaman. - Untuk meminimalkan biaya pengacakan pendistribusian ulang, gunakan
.withOffsetDeduplication(). Mode ini meminimalkan jumlah data yang perlu dipertahankan sebagai bagian dari pengacakan, sekaligus tetap menyediakan pemrosesan tepat satu kali.
Untuk mengetahui informasi selengkapnya, lihat Paralelisme di halaman Membaca dari Apache Kafka ke Dataflow.
- Sumber Apache Kafka dengan Volume Besar Status yang Dipertahankan
Komputasi sumber Apache Kafka mendistribusikan ulang data bervolume tinggi yang dapat menimbulkan latensi dan biaya yang tinggi. Untuk mengatasi masalah ini, coba langkah-langkah berikut:
- Jika pemrosesan tepat satu kali diperlukan untuk pipeline, minimalkan biaya shuffle pendistribusian ulang dengan memanfaatkan mode penghapusan duplikat offset. Mode ini meminimalkan jumlah data yang perlu dipertahankan sebagai bagian dari pengacakan, sekaligus tetap menyediakan pemrosesan tepat satu kali.
- Jika pemrosesan minimal sekali sudah cukup untuk pipeline, konfigurasi izinkan duplikat dapat diaktifkan.
Untuk mengetahui informasi selengkapnya, lihat Membaca dari Apache Kafka ke Dataflow.
- Paralelisme sumber tidak memadai
Komputasi sumber memiliki paralelisme yang tidak memadai. Jika memungkinkan, tingkatkan paralelisasi dalam sumber. Jika Anda tidak dapat meningkatkan paralelisme dan tugas menggunakan mode minimal sekali, coba tambahkan transformasi
Redistributeke pipeline.- Tombol pintas atau paralelisme kunci yang tidak memadai
Tugas memiliki tombol cepat atau paralelisme kunci yang tidak memadai.
Untuk setiap kunci sharding, Dataflow memproses pesan secara serial. Saat Dataflow memproses batch pesan untuk kunci tertentu, pesan masuk lainnya untuk kunci tersebut akan diantrekan hingga batch saat ini selesai.
Jika Dataflow tidak dapat memproses kunci unik yang cukup secara paralel, hal ini dapat menyebabkan hambatan. Misalnya, data mungkin memiliki terlalu sedikit kunci yang berbeda, atau kunci tertentu mungkin terlalu banyak direpresentasikan dalam data ("kunci panas"). Untuk mengetahui informasi selengkapnya, lihat Memecahkan masalah tugas streaming yang lambat atau macet.
- vCPU yang kurang disediakan
Tugas tidak memiliki vCPU pekerja yang cukup. Situasi ini terjadi saat tugas sudah diskalakan ke maksimum, pemakaian vCPU tinggi, dan masih ada tumpukan tugas. Anda mungkin harus meningkatkan jumlah maksimum pekerja yang disediakan untuk tugas ini. Misalnya, Anda dapat meningkatkan jumlah ini dengan memperbarui rentang penskalaan otomatis. Atau, cari cara untuk mengurangi penggunaan vCPU dengan mengubah kode atau workload pipeline. Anda dapat menggunakan cloud profiler untuk mencari peluang pengoptimalan.
- Penggunaan vCPU tinggi, menunggu peningkatan skala
Tugas memiliki pemakaian vCPU yang tinggi, tetapi masih ada ruang untuk melakukan penskalaan ke atas. Kondisi ini kemungkinan bersifat sementara hingga peningkatan skala dapat terjadi. Anda dapat memantau penskalaan otomatis untuk melihat keputusan penskalaan otomatis. Jika kondisi ini terus berlanjut dalam waktu lama atau sering terjadi, Anda mungkin perlu mengubah konfigurasi penskalaan otomatis dengan menetapkan petunjuk pemanfaatan pekerja yang berbeda agar tugas dapat melakukan penskalaan lebih proaktif.
- Beban vCPU yang tidak seimbang menyebabkan hambatan pada beberapa pekerja yang tidak normal
Tugas memiliki vCPU pekerja yang cukup, tetapi beberapa pekerja menunjukkan penggunaan vCPU yang sangat tinggi. Hal ini sering disebabkan oleh distribusi tugas yang tidak merata. Kemungkinan penyebabnya meliputi partisi sumber yang dimuat secara tidak merata atau tombol pintas.
Untuk mengatasi masalah ini, coba langkah-langkah berikut:
- Tentukan penyebab pemuatan yang tidak merata dan coba perbaiki. Misalnya, pastikan partisi sumber didistribusikan secara merata.
- Jika memperbaiki beban yang tidak merata tidak memungkinkan, pertimbangkan untuk mengubah bentuk VM worker guna meningkatkan vCPU per-worker untuk menurunkan pemakaian puncak. Untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi vCPU per pekerja, lihat Mengonfigurasi VM pekerja Dataflow.
- Masalah saat berkomunikasi dengan pekerja
Dataflow tidak dapat berkomunikasi dengan semua VM pekerja. Periksa status VM pekerja tugas. Kemungkinan penyebabnya meliputi:
- Ada masalah saat menyediakan VM worker.
- Kumpulan VM pekerja dihapus saat tugas sedang berjalan.
- Masalah jaringan.
- Sumber Pub/Sub mengalami error penarikan.
Terjadi error saat menarik dari sumber Pub/Sub. Pastikan topik dan langganan yang diperlukan ada, serta verifikasi kuota dan konfigurasi. Anda juga dapat memeriksa log untuk mengetahui error.
- Sumber Pub/Sub memiliki paralelisme yang tidak memadai
Komputasi sumber Pub/Sub memiliki jumlah kunci Pub/Sub yang tidak memadai. Untuk menambah jumlah kunci, tetapkan opsi layanan
num_pubsub_keys. Untuk mengetahui informasi selengkapnya, lihat Paralelisme sumber Pub/Sub.- Sumber Pub/Sub dibatasi karena alasan yang tidak diketahui
Komputasi sumber Pub/Sub di-throttle saat membaca dari Pub/Sub, karena alasan yang tidak diketahui. Masalah ini mungkin bersifat sementara. Periksa masalah konfigurasi Pub/Sub, izin IAM yang tidak ada, atau batas kuota. Namun, jika tidak ada area sebelumnya yang menjadi penyebab utama dan masalah berlanjut, hubungi dukungan.
- Publikasi sink Pub/Sub lambat atau terhenti
Komputasi sink Pub/Sub lambat atau macet. Masalah ini mungkin disebabkan oleh masalah konfigurasi atau batas kuota.
- Waktu antrean kerja yang tinggi
Usia kerja yang memenuhi syarat paling lama tinggi, karena banyaknya kunci dan kecepatan pemrosesan kunci. Dalam situasi ini, setiap operasi mungkin tidak berlangsung terlalu lama, tetapi penundaan antrean secara keseluruhan tinggi.
Dataflow menggunakan satu thread pemrosesan per kunci sharding, dan jumlah thread pemrosesan dibatasi. Penundaan antrean kira-kira sama dengan rasio kunci terhadap thread, dikalikan dengan latensi dalam thread untuk setiap paket pemrosesan untuk suatu kunci:
(key count / total harness threads) * latency per bundleCoba perbaikan berikut:
- Tingkatkan jumlah pekerja. Lihat Penskalaan otomatis streaming.
- Tingkatkan jumlah thread harness pekerja. Tetapkan
numberOfWorkerHarnessThreads/number_of_worker_harness_threadsopsi pipeline. - Kurangi jumlah kunci.
- Mengurangi latensi operasi.
- Masalah sementara dengan backend Streaming Engine
Ada masalah konfigurasi atau operasional dengan backend Streaming Engine. Masalah ini mungkin bersifat sementara. Jika masalah berlanjut, hubungi dukungan.
- Penyebab yang tidak dapat ditentukan
Penyebab keterlambatan tidak dapat ditentukan dengan pasti. Masalah ini mungkin bersifat sementara. Jika masalah berlanjut, hubungi dukungan.
Metrik hambatan
Metrik tugas berikut memberikan informasi tentang hambatan:
job/is_bottleneck: Apakah tahap pipeline Dataflow tertentu menjadi hambatan, bersama dengan jenis hambatan dan kemungkinan penyebabnya.job/backlogged_keys: Jumlah kunci yang tertunda untuk tahap hambatan.job/recommended_parallelism: Paralelisme yang direkomendasikan untuk tahap guna mengurangi hambatan.
Langkah berikutnya
- Blog untuk detektor hambatan dengan skenario dunia nyata terkait tugas yang berperilaku tidak semestinya
- Memecahkan masalah tugas yang lambat atau macet
- Memantau performa pipeline menggunakan Profiler