Monitorare e risolvere i problemi con l'assistenza AI

Questo documento descrive come utilizzare l'assistenza AI per monitorare e risolvere i problemi delle risorse AlloyDB per PostgreSQL. Puoi utilizzare gli strumenti di risoluzione dei problemi assistiti dall'AI di AlloyDB e Gemini Cloud Assist per risolvere i problemi relativi alle query lente e risolvere i problemi relativi al carico elevato del database.

Limitazioni

Le seguenti limitazioni si applicano alla risoluzione dei problemi con l'aiuto dell'AI in AlloyDB:

  • La risoluzione dei problemi assistita dall'AI offre informazioni preziose basate sulle configurazioni PostgreSQL standard. L'architettura unica di AlloyDB, tra cui l'archiviazione disaggregata, la memorizzazione nella cache, il motore colonnare e i processi in background ottimizzati, fa sì che determinati controlli e consigli possano differire dalle metriche di rendimento effettive di AlloyDB. Ti consigliamo di considerare i suggerimenti per la risoluzione dei problemi assistita dall'AI come punti di partenza e di consultare la documentazione di AlloyDB per indicazioni definitive.
  • La risoluzione dei problemi assistita dall'AI non è supportata per le seguenti configurazioni di AlloyDB:

Prima di iniziare

Assicurati che Gemini Cloud Assist sia configurato per il tuo Google Cloud account utente e il tuo progetto.

Dopo aver configurato Gemini Cloud Assist, potrebbe essere necessario attendere cinque minuti per consentire la propagazione del servizio prima di poter abilitare la risoluzione dei problemi assistita dall'AI in AlloyDB.

Ruoli e autorizzazioni richiesti

Per ottenere le autorizzazioni necessarie per utilizzare la risoluzione dei problemi basata sull'AI, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto che ospita l'istanza AlloyDB:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per utilizzare la risoluzione dei problemi basata sull'AI. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per utilizzare la risoluzione dei problemi basata sull'AI sono necessarie le seguenti autorizzazioni:

  • databaseinsights.performanceIssues.detect
  • databaseinsights.performanceIssues.investigate

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Per saperne di più sui ruoli e sulle autorizzazioni richiesti per l'utilizzo delle indagini di Gemini Cloud Assist, consulta Risolvere i problemi relativi alle indagini di Gemini Cloud Assist.

Attivare la risoluzione dei problemi assistita dall'AI

Quando abiliti la risoluzione dei problemi assistita dall'AI per la tua istanza AlloyDB, AlloyDB può analizzare le prestazioni dei tuoi database e rilevare anomalie nell'esecuzione delle query. Quando AlloyDB rileva anomalie nelle prestazioni delle query o identifica un carico di sistema elevato, la risoluzione dei problemi assistita dall'AI ti aiuta ad analizzare la situazione con prove e fornisce consigli.

Per attivare la risoluzione dei problemi assistita dall'AI per l'istanza AlloyDB:

  1. Nella console Google Cloud , vai alla pagina Cluster.

    Vai a Cluster

  2. Nell'elenco di cluster e istanze, fai clic su un'istanza.

  3. Fai clic su Approfondimenti sulle query.

  4. Fai clic su Attiva o Modifica impostazioni.

  5. Nella scheda Modifica impostazioni di Query Insights, seleziona la casella di controllo Abilita le funzionalità avanzate di Query Insights per AlloyDB.

    Per impostazione predefinita, questa opzione attiva la casella di controllo Risoluzione dei problemi assistita dall'AI.

  6. Fai clic su Salva.

  7. Per ottenere risultati ottimali, attendi 24 ore dopo aver attivato la risoluzione dei problemi assistita dall'AI nella console Google Cloud per consentire ad AlloyDB di creare una baseline delle prestazioni medie dell'istanza, del database e delle query.

Per ulteriori informazioni sull'attivazione di Query Insights avanzato, consulta Migliorare le prestazioni delle query utilizzando Query Insights avanzato.

Apri Gemini Cloud Assist

Per utilizzare Gemini Cloud Assist con AlloyDB, esegui le seguenti operazioni:

  1. Nella console Google Cloud , vai alla pagina Cluster.
  2. Vai a Cluster
  3. Nell'elenco di cluster e istanze, fai clic su un'istanza.
  4. Fai clic su Approfondimenti sulle query.
  5. Per aprire il riquadro Cloud Assist, fai clic su Apri o chiudi la chat di Gemini Cloud Assist.
  6. Nel riquadro Cloud Assist, inserisci un prompt che descriva le informazioni che ti interessano.
  7. Dopo aver inserito il prompt, fai clic su Invia prompt. Gemini restituisce una risposta al prompt in base alle informazioni dell'ultima ora.

Risolvere i problemi relativi alle query lente

Per utilizzare l'Assistenza AI per risolvere i problemi relativi alle query lente, vai alla dashboard Query Insights per la tua istanza AlloyDB nella console Google Cloud .

Tabella delle query principali

Puoi iniziare a risolvere i problemi di lentezza delle query con l'Assistenza AI nella sezione Tabella Query principali della dashboard Approfondimenti sulle query.

AlloyDB può aiutarti a identificare le query che hanno prestazioni inferiori alla media durante un periodo di tempo di rilevamento specifico. Dopo aver selezionato un intervallo di tempo nella dashboard Query Insights, AlloyDB verifica se alcune query vengono eseguite più lentamente della media utilizzando un periodo di rilevamento di 24 ore prima della fine dell'intervallo di tempo selezionato.

Quando modifichi il filtro dell'intervallo di tempo del grafico Carico del database o qualsiasi altro filtro, ad esempio database o utente, AlloyDB aggiorna la tabella Query principali ed esegue nuovamente il rilevamento delle anomalie in base al nuovo elenco di query e a un periodo di tempo di rilevamento aggiornato.

Quando AlloyDB rileva un'anomalia:

  • AlloyDB esegue l'analisi delle prestazioni di base per la query.

  • Ogni query elencata nella tabella ha un'icona Esamina o Avviso warning_spark visualizzata accanto al valore Tempo di esecuzione medio (ms) della query.

Se una query viene eseguita più lentamente del previsto, viene visualizzata un'icona di avviso warning_spark. Quando fai clic su una delle icone, Gemini Cloud Assist viene utilizzato per analizzare l'esecuzione della query e offre osservazioni su ciò che potrebbe aver causato il problema. In base a queste osservazioni, Gemini Cloud Assist genera un'ipotesi che può aiutarti a risolvere il problema.

Per risolvere i problemi relativi alle query lente nella tabella Query principali della dashboard Approfondimenti sulle query:

  1. Nella console Google Cloud , vai alla pagina Cluster.
  2. Vai a Cluster
  3. Nell'elenco di cluster e istanze, fai clic su un'istanza.
  4. Fai clic su Query Insights.
  5. Nel grafico Query eseguite, utilizza il filtro Intervallo di tempo per selezionare 1 ora, 6 ore, 1 giorno, 7 giorni, 30 giorni o un intervallo personalizzato.
  6. Nella tabella Principali query, nella scheda Query, esamina l'elenco delle query per il tuo database.
  7. Se viene visualizzata un'icona Avviso warning_spark accanto al valore Tempo di esecuzione medio (ms) di una query, AlloyDB ha rilevato un'anomalia nel rendimento della query. AlloyDB controlla le anomalie nel periodo di 24 ore che si verifica prima della fine dell'intervallo di tempo selezionato.
  8. Fai clic sull'icona Avviso warning_spark.
  9. Nella finestra di dialogo La query è più lenta del solito, fai clic su Nuova indagine per iniziare la risoluzione dei problemi con l'assistenza dell'AI di Gemini Cloud Assist. Dopo circa due minuti, si apre il riquadro Dettagli indagine con le seguenti sezioni:
    • Problema. Una descrizione del problema in esame, inclusi l'ora di inizio e di fine dell'indagine.
    • Osservazioni. Un elenco di osservazioni sul problema. Ad esempio, possono includere dettagli sulla contesa dei blocchi, come un rapporto di attesa dei blocchi più lungo del previsto per la query.
    • Ipotesi. Un elenco di azioni consigliate dall'AI da intraprendere per risolvere il problema della query a esecuzione lenta.
  10. Se vuoi visualizzare tutte le indagini associate alla query, nella finestra di dialogo La query è più lenta del solito, fai clic su Visualizza tutte le indagini. Si apre la pagina Gemini Cloud Assist, dove puoi visualizzare tutte le indagini attualmente in esecuzione e quelle completate in precedenza. Puoi filtrare la pagina per progetto o etichetta, ad esempio, per trovare l'indagine specifica di cui hai bisogno.

    In alternativa, per visualizzare tutte le indagini precedenti, fai clic sull'icona Notifiche e seleziona una notifica associata a un'indagine per aprire la pagina Gemini Cloud Assist.

  11. In alternativa, se vuoi analizzare la latenza di una query, completa i seguenti passaggi:
    1. Identifica la query specifica che vuoi esaminare.
    2. Nella colonna Azioni, fai clic sull'icona Azioni associata alla query.
    3. Seleziona Analizza la latenza nel menu per eseguire un'indagine di Gemini Cloud Assist.

Dettagli query

Puoi anche risolvere i problemi di lentezza di una query con l'Assistenza AI dalla pagina Dettagli query.

  1. Nella console Google Cloud , vai alla pagina Cluster.
  2. Vai a Cluster
  3. Nell'elenco di cluster e istanze, fai clic su un'istanza.
  4. Fai clic su Approfondimenti sulle query per aprire la dashboard Approfondimenti sulle query.
  5. Nella dashboard Approfondimenti sulle query, fai clic sulla query che vuoi visualizzare in Query principali. Viene visualizzata la pagina Dettagli query.
  6. (Facoltativo) Utilizza il filtro Intervallo di tempo per selezionare 1 ora, 6 ore, 1 giorno, 7 giorni, 30 giorni o un intervallo personalizzato. Quando regoli il filtro dell'intervallo di tempo della pagina Dettagli query, AlloyDB esegue nuovamente il rilevamento delle anomalie.
  7. Se AlloyDB non rileva un'anomalia per la query, puoi comunque eseguire un'analisi della query facendo clic sul pulsante Esamina nella scheda Latenza query.

Analizza la latenza delle query

Con l'assistenza dell'AI, puoi analizzare e risolvere i problemi relativi ai dettagli della latenza delle query.

Periodo di tempo dell'analisi

Il periodo di tempo di analisi è costituito dalle 24 ore precedenti la fine dell'intervallo di tempo selezionato nel grafico Carico del database della dashboard Approfondimenti sulle query o della pagina Dettagli query. AlloyDB utilizza questo periodo di tempo per confrontare le metriche di base con le metriche recuperate durante il periodo di tempo dell'anomalia.

Nella pagina Dettagli query, se AlloyDB ha rilevato un'anomalia nella query, dopo aver selezionato la query dalla dashboard Approfondimenti sulle query, AlloyDB esegue un'analisi del rendimento di base per la query utilizzando le ultime 24 ore dalla fine dell'anomalia. Se AlloyDB non ha rilevato un'anomalia nella query ed esegue di nuovo il rilevamento delle anomalie nella query, allora AlloyDB utilizza le 48 ore precedenti la fine dell'intervallo di tempo selezionato come base di riferimento per le prestazioni per il periodo di tempo di analisi.

Periodo di tempo dell'anomalia rilevata

Il periodo di tempo dell'anomalia rilevata rappresenta un periodo di tempo in cui AlloyDB rileva una variazione anomala nel rendimento delle query. AlloyDB utilizza le prestazioni di base misurate per la query durante il periodo di analisi.

Se AlloyDB rileva più anomalie per una query in un periodo di tempo selezionato, utilizza l'ultima anomalia rilevata.

Esempi di prompt per le prestazioni delle query

Puoi anche utilizzare Gemini Cloud Assist per inserire prompt che ti aiutino a migliorare le prestazioni delle query. Gemini Cloud Assist risponde alle domande per l'istanza e il database AlloyDB selezionati.

Prompt Tipo di risposta
Quali sono le query principali per latenza nel mio database?
  • Riepiloghi delle query ordinati per latenza. Gemini limita la risposta in base al filtro dell'intervallo di tempo selezionato nel grafico del carico del database degli approfondimenti sulle query.
  • Indicazioni su come identificare e ordinare le query in base alla latenza.
Qual è la query più lenta in questa istanza di database? Indicazioni su come identificare la query più lenta in base alla latenza.

Risolvere i problemi di carico elevato del database

Accedendo al dashboard Approfondimenti sulle query nella console Google Cloud , puoi analizzare il database e risolvere i problemi relativi agli eventi quando il sistema registra un carico del database superiore alla media. AlloyDB utilizza i dati delle 24 ore precedenti all'intervallo di tempo selezionato per calcolare il carico previsto del database. Puoi esaminare i motivi degli eventi di caricamento più elevati e analizzare le prove alla base del rendimento ridotto. AlloyDB fornisce anche consigli per ottimizzare il database e migliorare il rendimento.

Per utilizzare l'assistenza AI per la risoluzione dei problemi di carico elevato del database, vai alla pagina Panoramica istanza o alla dashboard Approfondimenti sulle query nella console Google Cloud .

Pagina Panoramica istanza

Risolvi i problemi di carico elevato del database con l'assistenza dell'AI nella pagina Panoramica istanza seguendo questi passaggi:

  1. Nella console Google Cloud , vai alla pagina Cluster.
  2. Vai a Cluster
  3. Nell'elenco di cluster e istanze, fai clic su un'istanza.
  4. Nella pagina Panoramica, seleziona una metrica dal menu Grafico per il database. Puoi selezionare qualsiasi metrica, ad esempio Utilizzo CPU.
  5. (Facoltativo) Per selezionare un periodo di tempo specifico per l'analisi, utilizza il filtro Intervallo di tempo per selezionare 1 ora, 6 ore, 1 giorno, 7 giorni, 30 giorni o un intervallo personalizzato.

    Puoi aumentare lo zoom su sezioni specifiche del grafico in cui noti aree di carico elevato che vuoi analizzare. Ad esempio, un'area con carico elevato potrebbe mostrare livelli di utilizzo della CPU più vicini al 100%. Per aumentare lo zoom, puoi fare clic e selezionare una parte del grafico.

    Fai clic sul pulsante Analizza le prestazioni per iniziare a risolvere i problemi di carico elevato del database con l'assistenza dell'AI di Gemini Cloud Assist.

    Dopo circa due minuti, si apre il riquadro Dettagli indagine con le seguenti sezioni:

    • Problema. Una descrizione del problema in esame, inclusi l'ora di inizio e di fine dell'indagine.
    • Osservazioni. Un elenco di osservazioni sul problema. Ad esempio, possono includere dettagli sulla contesa di blocchi, come un rapporto di attesa di blocchi più lungo del previsto per la query.
    • Ipotesi. Un elenco di azioni consigliate dall'AI da intraprendere per risolvere il problema della query a esecuzione lenta.

Dashboard Query Insights

Risolvi i problemi di carico elevato del database con l'assistenza dell'AI nella dashboard Approfondimenti sulle query seguendo questi passaggi:

  1. Nella console Google Cloud , vai alla pagina Cluster.
  2. Vai a Cluster
  3. Nell'elenco di cluster e istanze, fai clic su un'istanza.
  4. Fai clic su Approfondimenti sulle query per aprire la dashboard Approfondimenti sulle query.
  5. (Facoltativo) Utilizza il filtro Intervallo di tempo per selezionare 1 ora, 6 ore, 1 giorno, 7 giorni, 30 giorni o un intervallo personalizzato.
  6. Puoi aumentare lo zoom su sezioni specifiche del grafico in cui noti aree di carico del database più elevato in base al tempo di esecuzione delle query. Per aumentare lo zoom, puoi fare clic e selezionare una parte del grafico.

    Nel grafico del carico del database, fai clic sul pulsante Analizza le prestazioni per iniziare a risolvere i problemi di carico elevato del database con l'assistenza dell'AI di Gemini Cloud Assist.

    Dopo circa due minuti, si apre il riquadro Dettagli indagine con le seguenti sezioni:

    • Problema. Una descrizione del problema in esame, inclusi l'ora di inizio e di fine dell'indagine.
    • Osservazioni. Un elenco di osservazioni sul problema. Ad esempio, possono includere dettagli sulla contesa di blocchi, come un rapporto di attesa di blocchi più lungo del previsto per la query.
    • Ipotesi. Un elenco di azioni consigliate dall'AI da intraprendere per risolvere il problema della query a esecuzione lenta.

Analizza il carico elevato del database

Con l'assistenza dell'AI, puoi analizzare e risolvere i problemi relativi ai dettagli del carico del database.

Periodo di tempo dell'analisi

AlloyDB analizza il tuo database per il periodo di tempo che selezioni nel grafico del carico del database dalla dashboard Approfondimenti sulle query o dalla pagina Panoramica dell'istanza. Se selezioni un periodo di tempo inferiore a 24 ore, AlloyDB analizza l'intero periodo di tempo. Se selezioni un periodo di tempo superiore a 24 ore, AlloyDB seleziona solo le ultime 24 ore del periodo di tempo per l'analisi.

Per calcolare l'analisi del rendimento di base del tuo database, AlloyDB include 24 ore di un periodo di tempo di base nel periodo di tempo di analisi. Se il periodo di tempo selezionato si verifica in un giorno diverso da lunedì, AlloyDB utilizza un periodo di tempo di base di 24 ore precedenti a quello selezionato. Se il periodo di tempo selezionato cade di lunedì, AlloyDB utilizza un periodo di tempo di base di 7 giorni precedenti a quello selezionato.

Analisi delle metriche

Quando AlloyDB avvia l'analisi, verifica la presenza di variazioni significative nelle varie metriche, tra cui, a titolo esemplificativo:

  • Query al secondo (QPS)
  • CPU
  • Memoria
  • I/O disco

AlloyDB confronta i dati aggregati di base per il tuo database con i dati sul rendimento della finestra temporale di analisi. Se AlloyDB rileva una variazione significativa della soglia per una metrica chiave, indica una possibile situazione con il tuo database. La situazione identificata potrebbe spiegare una causa principale del carico elevato sul database nel periodo di tempo selezionato.

Consigli

Al termine dell'analisi di Gemini Cloud Assist, la sezione Ipotesi del riquadro Dettagli indagine elenca gli insight operativi per aiutarti a risolvere il problema.

Per alcune situazioni, in base all'analisi, potrebbe non essere disponibile un suggerimento.

Esempi di prompt sulle prestazioni del sistema

Puoi anche utilizzare Gemini Cloud Assist per inserire prompt per raccogliere informazioni sulle prestazioni del sistema. Gemini Cloud Assist risponde alle domande per l'istanza AlloyDB selezionata.

Prompt Tipo di risposta
Quante voci di log degli errori sono presenti per questa istanza di database negli ultimi 7 giorni? Riepilogo delle voci di log raggruppate per tipo di gravità. Gemini limita l'ambito della risposta in base al filtro dell'intervallo di tempo selezionato nel grafico del rendimento dell'istanza.
Qual è stato l'utilizzo della CPU per questa istanza del database intorno alle 14:00 di oggi? I risultati delle metriche sono compresi in un intervallo percentuale per l'utilizzo della CPU all'interno dell'intervallo di tempo.

Ricevere suggerimenti sugli indici

Puoi ottenere suggerimenti per gli indici da AlloyDB in Query Insights. Per saperne di più, consulta la Panoramica di Index Advisor.

Esempi di prompt per i suggerimenti sull'indicizzazione

Utilizza Gemini Cloud Assist per ottenere maggiori informazioni su come utilizzare gli indici nei tuoi database. Gemini Cloud Assist risponde alle domande per l'istanza AlloyDB selezionata.

Prompt Tipo di risposta
Mostra i consigli sugli indici per le query eseguite negli ultimi 7 giorni. Indicazioni sui tipi di query che possono trarre vantaggio da un indice.

Monitorare le query attive

Utilizza la dashboard Query Insights per monitorare le query attive e, se necessario, terminare i processi di lunga durata. Per saperne di più, consulta Monitorare le query attive.

Esempi di prompt per query attive

Utilizza Gemini Cloud Assist per scoprire di più sulle query che causano latenza elevata o carico della CPU. Gemini Cloud Assist risponde alle domande per l'istanza AlloyDB selezionata.

Prompt Tipo di risposta
Quali sono le query principali attualmente in esecuzione nel mio database? Indicazioni su come trovare le query in esecuzione da più tempo e che richiedono più risorse.

Risolvere i problemi di ritardo della replica di lettura

Puoi analizzare il ritardo di replica utilizzando Gemini Cloud Assist o la dashboard Panoramica nella console Google Cloud .

L'Assistenza AI valuta i seguenti fattori per determinare perché una replica di lettura è in ritardo rispetto a un'istanza primaria.

  • Volume di scrittura dell'istanza principale

    Tassi elevati di modifica dei dati sull'istanza principale possono generare log WAL più velocemente di quanto la replica possa riprodurli. Gemini verifica la presenza di pattern di scrittura "a raffica" che corrispondono a picchi di ritardo.

  • Vincoli delle risorse (CPU/memoria)

    La riproduzione della replica è un processo che richiede un'elevata intensità di CPU. Gemini analizza se il livello macchina della replica non è sufficiente a gestire il carico di riproduzione corrente o se le query di lettura simultanee privano il processo di riproduzione delle risorse.

  • Prestazioni di rete e archiviazione

    Nelle implementazioni tra regioni, il throughput di rete può influire sulla velocità con cui i log vengono inviati alla replica. L'AI valuta i metadati delle operazioni interne per identificare se il collo di bottiglia si trova nel trasporto o nell'applicazione dei log.

Esaminare il ritardo della replica di lettura

Per utilizzare l'assistenza dell'AI per la risoluzione dei problemi relativi al ritardo della replica di lettura:

  1. Nella console Google Cloud , vai alla pagina Cluster.
  2. Vai a Cluster
  3. Vai a Insight sul sistema. Dal menu Istanza, seleziona la replica di lettura.
  4. Nel riquadro Risolvi i problemi dei database con la risoluzione dei problemi assistita dall'AI, fai clic su Esplora indagini.
  5. Nella finestra Opzioni di analisi, cerca la sezione Ritardo replica di lettura.
  6. (Facoltativo) Seleziona un periodo di tempo specifico per l'analisi utilizzando il filtro Intervallo di tempo: 1 ora, 6 ore, 1 giorno, 7 giorni o un intervallo personalizzato.
  7. Fai clic su Indaga.

    Gemini avvia un'analisi degli indicatori specifici per la replica, inclusi i tassi di generazione WAL (Write Ahead Log) e la velocità di riproduzione della replica. Al termine dell'analisi, nel riquadro Dettagli indagine vengono visualizzate le seguenti sezioni:

    • Problema: un riepilogo della durata del ritardo e del "ritardo di byte" o "ritardo di tempo" attuale tra la replica principale e quella secondaria.
    • Osservazioni: metriche specifiche come l'elevato utilizzo della CPU sulla replica o la contesa di blocchi durante la riproduzione di WAL.
    • Ipotesi: passaggi consigliati dall'AI, ad esempio ottimizzare le transazioni di scrittura pesanti sulla macchina principale o aumentare il livello della macchina di replica.

Esempi di prompt relativi al ritardo della replica di lettura

Puoi anche utilizzare Gemini Cloud Assist e una query in linguaggio naturale per risolvere i problemi di ritardo tra la replica di lettura e l'istanza principale.

Prompt Tipo di risposta
Perché il ritardo della replica di lettura di AlloyDB è così elevato? Indicazioni su come ridurre il ritardo della replica ottimizzando il database o configurando il cluster.

Passaggi successivi