Ottimizzare i workload AI e ML per l'efficienza energetica

Last reviewed 2026-01-28 UTC

Questo principio del pilastro della sostenibilità del Google Cloud framework Well-Architected fornisce suggerimenti per ottimizzare i workload AI e ML al fine di ridurre il loro consumo energetico e l'impronta di carbonio.

Panoramica del principio

Per ottimizzare i workload di AI e ML in termini di sostenibilità, devi adottare un approccio olistico alla progettazione, al deployment e al funzionamento dei workload. Seleziona modelli appropriati e hardware specializzato come le Tensor Processing Unit (TPU), esegui i workload in regioni a basse emissioni di carbonio, ottimizza per ridurre l'utilizzo delle risorse e applica le best practice operative.

Le pratiche architetturali e operative che ottimizzano il costo e le prestazioni dei carichi di lavoro di AI e ML portano intrinsecamente a una riduzione del consumo energetico e dell'impronta di carbonio. La prospettiva AI e ML del framework Well-Architected descrive i principi e i suggerimenti per progettare, creare e gestire i carichi di lavoro di AI e ML che soddisfano i tuoi obiettivi operativi, di sicurezza, affidabilità, costi e prestazioni. Inoltre, il Cloud Architecture Center fornisce architetture di riferimento dettagliate e guide di progettazione per i carichi di lavoro di AI e ML in Google Cloud.

Consigli

Per ottimizzare i carichi di lavoro AI e ML per l'efficienza energetica, considera i suggerimenti nelle sezioni seguenti.

Progettare per l'efficienza energetica utilizzando le TPU

I workload di AI e ML possono richiedere un uso intensivo di risorse di calcolo. Il consumo energetico dei carichi di lavoro AI e ML è un aspetto fondamentale per la sostenibilità. Le TPU consentono di migliorare significativamente l'efficienza energetica e la sostenibilità dei tuoi workload AI e ML.

Le TPU sono acceleratori progettati su misura e realizzati appositamente per i carichi di lavoro di AI e ML. L'architettura specializzata delle TPU le rende molto efficaci per la moltiplicazione di matrici su larga scala, che è alla base del deep learning. Le TPU possono eseguire attività complesse su larga scala con maggiore efficienza rispetto ai processori per uso generico come CPU o GPU.

Le TPU offrono i seguenti vantaggi diretti per la sostenibilità:

Minore consumo energetico: le TPU sono progettate per un'efficienza energetica ottimale. Offrono un numero maggiore di calcoli per watt di energia consumata. La loro architettura specializzata riduce significativamente il fabbisogno energetico delle attività di addestramento e inferenza su larga scala, il che comporta una riduzione dei costi operativi e un minore consumo di energia.
Addestramento e inferenza più rapidi: le prestazioni eccezionali delle TPU ti consentono di addestrare modelli di AI complessi in ore anziché giorni. Questa riduzione significativa del tempo di calcolo totale contribuisce direttamente a un'impronta ambientale più piccola.
Riduzione delle esigenze di raffreddamento: le TPU incorporano un sistema di raffreddamento a liquido avanzato, che fornisce una gestione termica efficiente e riduce significativamente l'energia utilizzata per raffreddare il data center.
Ottimizzazione del ciclo di vita dell'AI: grazie all'integrazione di hardware e software, le TPU forniscono una soluzione ottimizzata per l'intero ciclo di vita dell'AI, dall'elaborazione dei dati al servizio del modello.

Segui le best practice delle 4 M per la selezione delle risorse

Google consiglia un insieme di best practice per ridurre in modo significativo il consumo di energia e le emissioni di anidride carbonica per i carichi di lavoro di AI e ML. Chiamiamo queste best practice 4M:

Modello: seleziona architetture di modelli ML efficienti. Ad esempio, i modelli sparsi migliorano la qualità del machine learning e riducono il calcolo di 3-10 volte rispetto ai modelli densi.
Macchina: scegli processori e sistemi ottimizzati per l'addestramento ML. Questi processori migliorano le prestazioni e l'efficienza energetica di 2-5 volte rispetto ai processori per uso generico.
Meccanizzazione: esegui il deployment dei carichi di lavoro ad alta intensità di calcolo nel cloud. I tuoi workload consumano meno energia e causano emissioni inferiori di 1,4-2 volte rispetto ai deployment on-premise. I data center cloud utilizzano magazzini più recenti e progettati su misura, costruiti per l'efficienza energetica e con un elevato rapporto di Power Usage Effectiveness (PUE). I data center on-premise sono spesso più datati e più piccoli, perciò gli investimenti in sistemi di raffreddamento e distribuzione elettrica a risparmio energetico potrebbero non essere economici.
Mappa: seleziona le Google Cloud posizioni che utilizzano l'energia più pulita. Questo approccio contribuisce a ridurre l'impronta di carbonio lorda dei tuoi carichi di lavoro di 5-10 volte. Per saperne di più, consulta Energia a zero emissioni di CO2 per le regioni Google Cloud .

Per saperne di più sulle best practice e sulle metriche di efficienza delle 4 M, consulta i seguenti documenti di ricerca:

Ottimizzare i modelli e gli algoritmi di AI per l'addestramento e l'inferenza

L'architettura di un modello di AI e gli algoritmi utilizzati per l'addestramento e l'inferenza hanno un impatto significativo sul consumo energetico. Prendi in considerazione i seguenti consigli.

Selezionare modelli di AI efficienti

Scegli modelli di AI più piccoli ed efficienti che soddisfino i tuoi requisiti di rendimento. Non selezionare il modello più grande disponibile come scelta predefinita. Ad esempio, una versione più piccola e distillata del modello come DistilBERT può offrire prestazioni simili con un sovraccarico di calcolo notevolmente inferiore e un'inferenza più rapida rispetto a un modello più grande come BERT.

Utilizza soluzioni iper-efficienti specifiche per il dominio

Scegli soluzioni di ML specializzate che offrono prestazioni migliori e richiedono molta meno potenza di calcolo rispetto a un modello di base di grandi dimensioni. Queste soluzioni specializzate sono spesso preaddestrate e iper-ottimizzate. Possono ridurre in modo significativo il consumo energetico e l'impegno di ricerca per i carichi di lavoro di addestramento e inferenza. Di seguito sono riportati alcuni esempi di soluzioni specializzate specifiche per dominio:

Earth AI è una soluzione a basso consumo energetico che sintetizza grandi quantità di dati geospaziali globali per fornire insight tempestivi, accurati e strategici.
WeatherNext produce previsioni meteorologiche globali più rapide, efficienti e accurate rispetto ai metodi convenzionali basati sulla fisica.

Applica tecniche di compressione del modello appropriate

Di seguito sono riportati alcuni esempi di tecniche che puoi utilizzare per la compressione dei modelli:

Potatura: rimuovi i parametri non necessari da una rete neurale. Si tratta di parametri che non contribuiscono in modo significativo al rendimento di un modello. Questa tecnica riduce le dimensioni del modello e le risorse di calcolo necessarie per l'inferenza.
Quantizzazione: riduci la precisione dei parametri del modello. Ad esempio, riduci la precisione da virgola mobile a 32 bit a numeri interi a 8 bit. Questa tecnica può contribuire a ridurre in modo significativo l'utilizzo di memoria e il consumo di energia senza una riduzione significativa della precisione.
Distillazione della conoscenza: addestra un modello studente più piccolo per imitare il comportamento di un modello insegnante più grande e complesso. Il modello studente può raggiungere un livello elevato di prestazioni con meno parametri e utilizzando meno energia.

Utilizzare hardware specializzato

Come indicato in Segui le best practice delle 4 M per la selezione delle risorse, scegli processori e sistemi ottimizzati per l'addestramento ML. Questi processori migliorano le prestazioni e l'efficienza energetica di 2-5 volte rispetto ai processori per uso generico.

Utilizzare il fine-tuning efficiente dei parametri

Anziché regolare tutti i miliardi di parametri di un modello (ottimizzazione completa), utilizza metodi di ottimizzazione efficiente dei parametri (PEFT) come l'adattamento a basso rango (LoRA). Con questa tecnica, blocchi i pesi del modello originale e addestri solo un piccolo numero di nuovi livelli leggeri. Questo approccio aiuta a ridurre i costi e il consumo di energia.

Seguire le best practice per le operazioni di AI e ML

Le pratiche operative influiscono in modo significativo sulla sostenibilità dei tuoi carichi di lavoro di AI e ML. Prendi in considerazione i seguenti consigli.

Ottimizzare i processi di addestramento del modello

Utilizza le seguenti tecniche per ottimizzare i processi di addestramento del modello:

Interruzione anticipata: monitora il processo di addestramento e interrompilo quando non osservi ulteriori miglioramenti nelle prestazioni del modello rispetto al set di convalida. Questa tecnica ti aiuta a evitare calcoli e consumi energetici non necessari.
Caricamento efficiente dei dati: utilizza pipeline di dati efficienti per garantire che le GPU e le TPU vengano sempre utilizzate e non attendano i dati. Questa tecnica contribuisce a massimizzare l'utilizzo delle risorse e a ridurre lo spreco di energia.
Ottimizzazione degli iperparametri ottimizzata: per trovare gli iperparametri ottimali in modo più efficiente, utilizza tecniche come l'ottimizzazione bayesiana o l'apprendimento per rinforzo. Evita le ricerche esaustive nella griglia, che possono essere operazioni che richiedono molte risorse.

Migliorare l'efficienza dell'inferenza

Per migliorare l'efficienza delle attività di inferenza dell'AI, utilizza le seguenti tecniche:

Batch: raggruppa più richieste di inferenza in batch e sfrutta l'elaborazione parallela su GPU e TPU. Questa tecnica contribuisce a ridurre il costo energetico per previsione.
Memorizzazione nella cache avanzata: implementa una strategia di memorizzazione nella cache a più livelli, che include la memorizzazione nella cache delle coppie chiave-valore per la generazione autoregressiva e la memorizzazione nella cache dei prompt semantici per le risposte delle applicazioni. Questa tecnica consente di evitare calcoli ridondanti del modello e può portare a riduzioni significative del consumo di energia e delle emissioni di anidride carbonica.

Misurare e monitorare

Monitora e misura i seguenti parametri:

Utilizzo e costi: utilizza gli strumenti appropriati per monitorare l'utilizzo dei token, il consumo di energia e l'impronta di carbonio dei tuoi carichi di lavoro AI. Questi dati ti aiutano a identificare le opportunità di ottimizzazione e a monitorare i progressi verso gli obiettivi di sostenibilità.
Rendimento: monitora continuamente il rendimento del modello in produzione. Identifica problemi come la deriva dei dati, che può indicare che il modello deve essere nuovamente messo a punto. Se devi riaddestrare il modello, puoi utilizzare il modello originale ottimizzato come punto di partenza e risparmiare tempo, denaro ed energia in modo significativo per gli aggiornamenti.
- Per monitorare le metriche sul rendimento, utilizza Cloud Monitoring.
- Per correlare le modifiche al modello con i miglioramenti delle metriche di rendimento, utilizza le annotazioni degli eventi.

Per saperne di più sull'operazionalizzazione del miglioramento continuo, vedi Misurare e migliorare continuamente la sostenibilità.

Implementare la pianificazione consapevole delle emissioni di anidride carbonica

Progetta i job della pipeline ML in modo che vengano eseguiti nelle regioni con il mix energetico più pulito. Utilizza il report sullCarbon Footprint per identificare le regioni con le emissioni di carbonio meno intense. Pianifica le attività che richiedono molte risorse come job batch durante i periodi in cui la rete elettrica locale ha una percentuale più elevata di energia priva di emissioni di carbonio (CFE).

Ottimizza le pipeline di dati

Le operazioni di ML e l'ottimizzazione richiedono un set di dati pulito e di alta qualità. Prima di avviare i job ML, utilizza i servizi di trattamento dati gestiti per preparare i dati in modo efficiente. Ad esempio, utilizza Dataflow per l'elaborazione batch e in streaming e utilizza Dataproc per le pipeline Spark e Hadoop gestite. Una pipeline di dati ottimizzata contribuisce a garantire che il tuo workload di messa a punto non attenda i dati, in modo da massimizzare l'utilizzo delle risorse e contribuire a ridurre lo spreco di energia.

Adottare MLOps

Per automatizzare e gestire l'intero ciclo di vita del ML, implementa le pratiche di ML Operations (MLOps). Queste pratiche contribuiscono a garantire che i modelli vengano monitorati, convalidati e ridistribuiti in modo efficiente, il che aiuta a evitare l'addestramento o l'allocazione di risorse non necessari.

Utilizzare i servizi gestiti

Anziché gestire la tua infrastruttura, utilizza servizi cloud gestiti come Vertex AI. La piattaforma cloud gestisce la gestione delle risorse sottostante, il che ti consente di concentrarti sul processo di ottimizzazione. Utilizza servizi che includono strumenti integrati per l'ottimizzazione degli iperparametri, il monitoraggio dei modelli e la gestione delle risorse.

Passaggi successivi

Indietro

Utilizzare regioni a basse emissioni di carbonio

Avanti

Ottimizzare l'utilizzo delle risorse

Ottimizzare i workload AI e ML per l'efficienza energetica Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.