Ottimizzare i workload AI e ML per l'efficienza energetica

Last reviewed 2026-01-28 UTC

Questo principio del pilastro della sostenibilità del Google Cloud Well-Architected Framework fornisce consigli per ottimizzare i workload di AI e ML al fine di ridurre il consumo energetico e l'impronta di carbonio.

Panoramica del principio

Per ottimizzare i workload di AI e ML per la sostenibilità, devi adottare un approccio olistico alla progettazione, al deployment e alla gestione dei workload. Seleziona modelli e hardware specializzato appropriati, come le TPU (Tensor Processing Unit), esegui i workload nelle regioni a basse emissioni di carbonio, ottimizza per ridurre l'utilizzo delle risorse e applica le best practice operative.

Le pratiche architettoniche e operative che ottimizzano il costo e il rendimento dei workload di AI e ML portano intrinsecamente a una riduzione del consumo energetico e dell'impronta di carbonio. La prospettiva AI e ML del Well-Architected Framework descrive i principi e i suggerimenti per progettare, creare e gestire i workload di AI e ML che soddisfano i tuoi obiettivi operativi, di sicurezza, affidabilità, costi e rendimento. Inoltre, il Cloud Architecture Center fornisce architetture di riferimento e guide di progettazione dettagliate per i workload di AI e ML in Google Cloud.

Consigli

Per ottimizzare i workload di AI e ML per l'efficienza energetica, prendi in considerazione i consigli nelle sezioni seguenti.

Progettare per l'efficienza energetica utilizzando le TPU

I workload di AI e ML possono essere ad alta intensità di calcolo. Il consumo energetico dei workload di AI e ML è un aspetto fondamentale per la sostenibilità. I TPU ti consentono di migliorare significativamente l'efficienza energetica e la sostenibilità dei tuoi workload di AI e ML.

Le TPU sono acceleratori progettati su misura e creati appositamente per i workload di AI e ML. L'architettura specializzata delle TPU le rende molto efficaci per la moltiplicazione di matrici su larga scala, che è la base del deep learning. Le TPU possono eseguire attività complesse su larga scala con una maggiore efficienza rispetto ai processori per uso generico come CPU o GPU.

Le TPU offrono i seguenti vantaggi diretti per la sostenibilità:

  • Minore consumo energetico: le TPU sono progettate per un'efficienza energetica ottimale. Offrono un numero maggiore di calcoli per watt di energia consumata. La loro architettura specializzata riduce significativamente le esigenze di alimentazione delle attività di addestramento e inferenza su larga scala, il che comporta una riduzione dei costi operativi e del consumo energetico.
  • Addestramento e inferenza più rapidi: le prestazioni eccezionali delle TPU ti consentono di addestrare modelli di AI complessi in ore anziché giorni. Questa significativa riduzione del tempo di calcolo totale contribuisce direttamente a ridurre l'impatto ambientale.
  • Riduzione delle esigenze di raffreddamento: le TPU incorporano un sistema di raffreddamento a liquido avanzato, che fornisce una gestione termica efficiente e riduce significativamente l' energia utilizzata per raffreddare il data center.
  • Ottimizzazione del ciclo di vita dell'AI: integrando hardware e software, le TPU forniscono una soluzione ottimizzata per l'intero ciclo di vita dell'AI, dall'elaborazione dei dati all'erogazione dei modelli.

Seguire le best practice delle 4M per la selezione delle risorse

Google consiglia una serie di best practice per ridurre significativamente il consumo energetico e le emissioni di carbonio per i workload di AI e ML. Queste best practice sono chiamate 4M:

  • Modello: seleziona architetture di modelli ML efficienti. Ad esempio, i modelli sparsi migliorano la qualità del machine learning e riducono il calcolo di 3-10 volte rispetto ai modelli densi.
  • Macchina: scegli processori e sistemi ottimizzati per l'addestramento ML. Questi processori migliorano le prestazioni e l'efficienza energetica di 2-5 volte rispetto ai processori per uso generico.
  • Meccanizzazione: esegui il deployment dei workload ad alta intensità di calcolo nel cloud. I workload consumano meno energia e causano emissioni inferiori di 1,4-2 volte rispetto ai deployment on-premise. I data center cloud utilizzano magazzini più recenti e progettati su misura, creati per l'efficienza energetica e con un elevato rapporto di Power Usage Effectiveness (PUE). I data center on-premise sono spesso più datati e più piccoli, pertanto gli investimenti in sistemi di raffreddamento e distribuzione elettrica a risparmio energetico potrebbero non essere economici.
  • Mappa: seleziona le sedi che utilizzano l'energia più pulita. Google Cloud Questo approccio consente di ridurre l'impronta di carbonio lorda dei workload di 5-10 volte. Per saperne di più, consulta Energia a zero emissioni di carbonio per le Google Cloud regioni.

Per saperne di più sulle best practice delle 4M e sulle metriche di efficienza, consulta i seguenti documenti di ricerca:

Ottimizzare i modelli e gli algoritmi di AI per l'addestramento e l'inferenza

L'architettura di un modello di AI e gli algoritmi utilizzati per l'addestramento e l'inferenza hanno un impatto significativo sul consumo energetico. Considera i seguenti consigli.

Selezionare modelli di AI efficienti

Scegli modelli di AI più piccoli ed efficienti che soddisfino i tuoi requisiti di rendimento. Non selezionare il modello più grande disponibile come scelta predefinita. Ad esempio, una versione di modello più piccola e distillata come DistilBERT può offrire un rendimento simile con un sovraccarico di calcolo significativamente inferiore e un'inferenza più rapida rispetto a un modello più grande come BERT.

Utilizzare soluzioni iper-efficienti specifiche per il dominio

Scegli soluzioni ML specializzate che offrano un rendimento migliore e richiedano una potenza di calcolo significativamente inferiore rispetto a un foundation model di grandi dimensioni. Queste soluzioni specializzate sono spesso preaddestrate e iper-ottimizzate. Possono ridurre significativamente il consumo energetico e l'impegno di ricerca per i workload di addestramento e inferenza. Di seguito sono riportati alcuni esempi di soluzioni specializzate specifiche per il dominio:

  • Earth AI è una soluzione a basso consumo energetico che sintetizza grandi quantità di dati geospaziali globali per fornire insight tempestivi, accurati e utilizzabili.
  • WeatherNext produce previsioni meteorologiche globali più rapide, efficienti e accurate rispetto ai metodi convenzionali basati sulla fisica.

Applicare tecniche di compressione del modello appropriate

Di seguito sono riportati alcuni esempi di tecniche che puoi utilizzare per la compressione dei modelli:

  • Potatura: rimuovi i parametri non necessari da una rete neurale. Questi sono parametri che non contribuiscono in modo significativo al rendimento di un modello. Questa tecnica riduce le dimensioni del modello e le risorse di calcolo necessarie per l'inferenza.
  • Quantizzazione: riduci la precisione dei parametri del modello. Ad esempio, riduci la precisione da rappresentazione in virgola mobile a 32 bit a numeri interi a 8 bit. Questa tecnica può contribuire a ridurre significativamente il footprint della memoria e il consumo energetico senza una riduzione notevole dell'accuratezza.
  • Distillazione della conoscenza: addestra un modello studente più piccolo per imitare il comportamento di un modello insegnante più grande e complesso. Il modello studente può raggiungere un elevato livello di rendimento con meno parametri e utilizzando meno energia.

Utilizzare hardware specializzato

Come indicato in Seguire le best practice delle 4M per la selezione delle risorse, scegli processori e sistemi ottimizzati per l'addestramento ML. Questi processori migliorano le prestazioni e l'efficienza energetica di 2-5 volte rispetto ai processori per uso generico.

Utilizzare l'ottimizzazione efficiente dei parametri

Anziché modificare tutti i miliardi di parametri di un modello (ottimizzazione completa), utilizza metodi di ottimizzazione efficiente dei parametri (PEFT) come l'adattamento a basso rango (LoRA). Con questa tecnica, blocchi i pesi del modello originale e addestri solo un piccolo numero di nuovi strati leggeri. Questo approccio consente di ridurre i costi e il consumo energetico.

Seguire le best practice per le operazioni di AI e ML

Le pratiche operative influiscono in modo significativo sulla sostenibilità dei workload di AI e ML. Considera i seguenti consigli.

Ottimizzare i processi di addestramento dei modelli

Utilizza le seguenti tecniche per ottimizzare i processi di addestramento dei modelli:

  • Interruzione anticipata: monitora il processo di addestramento e interrompilo quando non osservi ulteriori miglioramenti nel rendimento del modello rispetto al set di validazione. Questa tecnica ti aiuta a evitare calcoli e consumo energetico non necessari.
  • Caricamento efficiente dei dati: utilizza pipeline di dati efficienti per assicurarti che le GPU e le TPU siano sempre utilizzate e non attendano i dati. Questa tecnica consente di massimizzare l'utilizzo delle risorse e ridurre l'energia sprecata.
  • Ottimizzazione degli iperparametri: per trovare gli iperparametri ottimali in modo più efficiente, utilizza tecniche come l'ottimizzazione bayesiana o il reinforcement learning. Evita le ricerche esaustive nella griglia, che possono essere operazioni ad alta intensità di risorse.

Migliorare l'efficienza dell'inferenza

Per migliorare l'efficienza delle attività di inferenza AI, utilizza le seguenti tecniche:

  • Batching: raggruppa più richieste di inferenza in batch e sfrutta l'elaborazione parallela su GPU e TPU. Questa tecnica consente di ridurre il costo energetico per previsione.
  • Memorizzazione avanzata nella cache: implementa una strategia di memorizzazione nella cache a più livelli, che include la memorizzazione nella cache di coppie chiave-valore (KV) per la generazione autoregressiva e la memorizzazione nella cache di prompt semantici per le risposte delle applicazioni. Questa tecnica consente di bypassare i calcoli ridondanti dei modelli e può comportare riduzioni significative del consumo energetico e emissioni di anidride carbonica.

Misurare e monitorare

Monitora e misura i seguenti parametri:

  • Utilizzo e costi: utilizza gli strumenti appropriati per monitorare l'utilizzo dei token, il consumo energetico e l'impronta di carbonio dei tuoi workload di AI. Questi dati ti aiutano a identificare le opportunità di ottimizzazione e a segnalare i progressi verso gli obiettivi di sostenibilità.
  • Rendimento: monitora continuamente il rendimento del modello in produzione. Identifica problemi come la deriva dei dati, che possono indicare che il modello deve essere ottimizzato di nuovo. Se devi riaddestrare il modello, puoi utilizzare il modello ottimizzato originale come punto di partenza e risparmiare tempo, denaro ed energia significativi per gli aggiornamenti.

Per saperne di più sull'operatività del miglioramento continuo, consulta Misurare e migliorare continuamente la sostenibilità.

Implementare la pianificazione in base alle emissioni di carbonio

Progetta i job della pipeline ML in modo che vengano eseguiti nelle regioni con il mix energetico più pulito. Utilizza il report su Carbon Footprint per identificare le regioni con le emissioni di carbonio meno intense. Pianifica le attività ad alta intensità di risorse come job batch durante i periodi in cui la rete elettrica locale ha una percentuale maggiore di energia a zero emissioni di carbonio (CFE).

Ottimizzare le pipeline di dati

Le operazioni ML e l'ottimizzazione richiedono un set di dati pulito e di alta qualità. Prima di avviare i job ML, utilizza i servizi di elaborazione dei dati gestiti per preparare i dati in modo efficiente. Ad esempio, utilizza Dataflow per l'elaborazione di streaming e batch e utilizza Managed Service for Apache Spark per le pipeline Spark e Hadoop gestite. Una pipeline di dati ottimizzata ti aiuta a garantire che il workload di ottimizzazione non attenda i dati, in modo da poter massimizzare l'utilizzo delle risorse e contribuire a ridurre l'energia sprecata.

Adottare le MLOps

Per automatizzare e gestire l'intero ciclo di vita del ML, implementa le pratiche di ML Operations (MLOps). Queste pratiche consentono di garantire che i modelli vengano monitorati, convalidati e ridistribuiti in modo efficiente, contribuendo a evitare l'addestramento o l'allocazione di risorse non necessari.

Utilizzare i servizi gestiti

Anziché gestire la tua infrastruttura, utilizza i servizi cloud gestiti come Vertex AI. La piattaforma cloud gestisce la gestione delle risorse sottostanti, consentendoti di concentrarti sul processo di ottimizzazione. Utilizza i servizi che includono strumenti integrati per l'ottimizzazione degli iperparametri, il monitoraggio dei modelli e la gestione delle risorse.

Passaggi successivi