Questo principio del pilastro della sostenibilità del Google Cloud framework Well-Architected fornisce suggerimenti per ottimizzare i workload AI e ML al fine di ridurre il loro consumo energetico e l'impronta di carbonio.
Panoramica del principio
Per ottimizzare i workload di AI e ML in termini di sostenibilità, devi adottare un approccio olistico alla progettazione, al deployment e al funzionamento dei workload. Seleziona modelli appropriati e hardware specializzato come le Tensor Processing Unit (TPU), esegui i workload in regioni a basse emissioni di carbonio, ottimizza per ridurre l'utilizzo delle risorse e applica le best practice operative.
Le pratiche architetturali e operative che ottimizzano il costo e le prestazioni dei carichi di lavoro di AI e ML portano intrinsecamente a una riduzione del consumo energetico e dell'impronta di carbonio. La prospettiva AI e ML del framework Well-Architected descrive i principi e i suggerimenti per progettare, creare e gestire i carichi di lavoro di AI e ML che soddisfano i tuoi obiettivi operativi, di sicurezza, affidabilità, costi e prestazioni. Inoltre, il Cloud Architecture Center fornisce architetture di riferimento dettagliate e guide di progettazione per i carichi di lavoro di AI e ML in Google Cloud.
Consigli
Per ottimizzare i carichi di lavoro AI e ML per l'efficienza energetica, considera i suggerimenti nelle sezioni seguenti.
Progettare per l'efficienza energetica utilizzando le TPU
I workload di AI e ML possono richiedere un uso intensivo di risorse di calcolo. Il consumo energetico dei carichi di lavoro AI e ML è un aspetto fondamentale per la sostenibilità. Le TPU consentono di migliorare significativamente l'efficienza energetica e la sostenibilità dei tuoi workload AI e ML.
Le TPU sono acceleratori progettati su misura e realizzati appositamente per i carichi di lavoro di AI e ML. L'architettura specializzata delle TPU le rende molto efficaci per la moltiplicazione di matrici su larga scala, che è alla base del deep learning. Le TPU possono eseguire attività complesse su larga scala con maggiore efficienza rispetto ai processori per uso generico come CPU o GPU.
Le TPU offrono i seguenti vantaggi diretti per la sostenibilità:
- Minore consumo energetico: le TPU sono progettate per un'efficienza energetica ottimale. Offrono un numero maggiore di calcoli per watt di energia consumata. La loro architettura specializzata riduce significativamente il fabbisogno energetico delle attività di addestramento e inferenza su larga scala, il che comporta una riduzione dei costi operativi e un minore consumo di energia.
- Addestramento e inferenza più rapidi: le prestazioni eccezionali delle TPU ti consentono di addestrare modelli di AI complessi in ore anziché giorni. Questa riduzione significativa del tempo di calcolo totale contribuisce direttamente a un'impronta ambientale più piccola.
- Riduzione delle esigenze di raffreddamento: le TPU incorporano un sistema di raffreddamento a liquido avanzato, che fornisce una gestione termica efficiente e riduce significativamente l'energia utilizzata per raffreddare il data center.
- Ottimizzazione del ciclo di vita dell'AI: grazie all'integrazione di hardware e software, le TPU forniscono una soluzione ottimizzata per l'intero ciclo di vita dell'AI, dall'elaborazione dei dati al servizio del modello.
Segui le best practice delle 4 M per la selezione delle risorse
Google consiglia un insieme di best practice per ridurre in modo significativo il consumo di energia e le emissioni di anidride carbonica per i carichi di lavoro di AI e ML. Chiamiamo queste best practice 4M:
- Modello: seleziona architetture di modelli ML efficienti. Ad esempio, i modelli sparsi migliorano la qualità del machine learning e riducono il calcolo di 3-10 volte rispetto ai modelli densi.
- Macchina: scegli processori e sistemi ottimizzati per l'addestramento ML. Questi processori migliorano le prestazioni e l'efficienza energetica di 2-5 volte rispetto ai processori per uso generico.
- Meccanizzazione: esegui il deployment dei carichi di lavoro ad alta intensità di calcolo nel cloud. I tuoi workload consumano meno energia e causano emissioni inferiori di 1,4-2 volte rispetto ai deployment on-premise. I data center cloud utilizzano magazzini più recenti e progettati su misura, costruiti per l'efficienza energetica e con un elevato rapporto di Power Usage Effectiveness (PUE). I data center on-premise sono spesso più datati e più piccoli, perciò gli investimenti in sistemi di raffreddamento e distribuzione elettrica a risparmio energetico potrebbero non essere economici.
- Mappa: seleziona le Google Cloud posizioni che utilizzano l'energia più pulita. Questo approccio contribuisce a ridurre l'impronta di carbonio lorda dei tuoi carichi di lavoro di 5-10 volte. Per saperne di più, consulta Energia a zero emissioni di CO2 per le regioni Google Cloud .
Per saperne di più sulle best practice e sulle metriche di efficienza delle 4 M, consulta i seguenti documenti di ricerca:
- L'impronta di carbonio dell'addestramento per il machine learning raggiungerà un plateau, per poi ridursi
- The data denter as a computer: An introduction to the design of warehouse-scale machines, second edition
Ottimizzare i modelli e gli algoritmi di AI per l'addestramento e l'inferenza
L'architettura di un modello di AI e gli algoritmi utilizzati per l'addestramento e l'inferenza hanno un impatto significativo sul consumo energetico. Prendi in considerazione i seguenti consigli.
Selezionare modelli di AI efficienti
Scegli modelli di AI più piccoli ed efficienti che soddisfino i tuoi requisiti di rendimento. Non selezionare il modello più grande disponibile come scelta predefinita. Ad esempio, una versione più piccola e distillata del modello come DistilBERT può offrire prestazioni simili con un sovraccarico di calcolo notevolmente inferiore e un'inferenza più rapida rispetto a un modello più grande come BERT.
Utilizza soluzioni iper-efficienti specifiche per il dominio
Scegli soluzioni di ML specializzate che offrono prestazioni migliori e richiedono molta meno potenza di calcolo rispetto a un modello di base di grandi dimensioni. Queste soluzioni specializzate sono spesso preaddestrate e iper-ottimizzate. Possono ridurre in modo significativo il consumo energetico e l'impegno di ricerca per i carichi di lavoro di addestramento e inferenza. Di seguito sono riportati alcuni esempi di soluzioni specializzate specifiche per dominio:
- Earth AI è una soluzione a basso consumo energetico che sintetizza grandi quantità di dati geospaziali globali per fornire insight tempestivi, accurati e strategici.
- WeatherNext produce previsioni meteorologiche globali più rapide, efficienti e accurate rispetto ai metodi convenzionali basati sulla fisica.
Applica tecniche di compressione del modello appropriate
Di seguito sono riportati alcuni esempi di tecniche che puoi utilizzare per la compressione dei modelli:
- Potatura: rimuovi i parametri non necessari da una rete neurale. Si tratta di parametri che non contribuiscono in modo significativo al rendimento di un modello. Questa tecnica riduce le dimensioni del modello e le risorse di calcolo necessarie per l'inferenza.
- Quantizzazione: riduci la precisione dei parametri del modello. Ad esempio, riduci la precisione da virgola mobile a 32 bit a numeri interi a 8 bit. Questa tecnica può contribuire a ridurre in modo significativo l'utilizzo di memoria e il consumo di energia senza una riduzione significativa della precisione.
- Distillazione della conoscenza: addestra un modello studente più piccolo per imitare il comportamento di un modello insegnante più grande e complesso. Il modello studente può raggiungere un livello elevato di prestazioni con meno parametri e utilizzando meno energia.
Utilizzare hardware specializzato
Come indicato in Segui le best practice delle 4 M per la selezione delle risorse, scegli processori e sistemi ottimizzati per l'addestramento ML. Questi processori migliorano le prestazioni e l'efficienza energetica di 2-5 volte rispetto ai processori per uso generico.
Utilizzare il fine-tuning efficiente dei parametri
Anziché regolare tutti i miliardi di parametri di un modello (ottimizzazione completa), utilizza metodi di ottimizzazione efficiente dei parametri (PEFT) come l'adattamento a basso rango (LoRA). Con questa tecnica, blocchi i pesi del modello originale e addestri solo un piccolo numero di nuovi livelli leggeri. Questo approccio aiuta a ridurre i costi e il consumo di energia.
Seguire le best practice per le operazioni di AI e ML
Le pratiche operative influiscono in modo significativo sulla sostenibilità dei tuoi carichi di lavoro di AI e ML. Prendi in considerazione i seguenti consigli.
Ottimizzare i processi di addestramento del modello
Utilizza le seguenti tecniche per ottimizzare i processi di addestramento del modello:
- Interruzione anticipata: monitora il processo di addestramento e interrompilo quando non osservi ulteriori miglioramenti nelle prestazioni del modello rispetto al set di convalida. Questa tecnica ti aiuta a evitare calcoli e consumi energetici non necessari.
- Caricamento efficiente dei dati: utilizza pipeline di dati efficienti per garantire che le GPU e le TPU vengano sempre utilizzate e non attendano i dati. Questa tecnica contribuisce a massimizzare l'utilizzo delle risorse e a ridurre lo spreco di energia.
- Ottimizzazione degli iperparametri ottimizzata: per trovare gli iperparametri ottimali in modo più efficiente, utilizza tecniche come l'ottimizzazione bayesiana o l'apprendimento per rinforzo. Evita le ricerche esaustive nella griglia, che possono essere operazioni che richiedono molte risorse.
Migliorare l'efficienza dell'inferenza
Per migliorare l'efficienza delle attività di inferenza dell'AI, utilizza le seguenti tecniche:
- Batch: raggruppa più richieste di inferenza in batch e sfrutta l'elaborazione parallela su GPU e TPU. Questa tecnica contribuisce a ridurre il costo energetico per previsione.
- Memorizzazione nella cache avanzata: implementa una strategia di memorizzazione nella cache a più livelli, che include la memorizzazione nella cache delle coppie chiave-valore per la generazione autoregressiva e la memorizzazione nella cache dei prompt semantici per le risposte delle applicazioni. Questa tecnica consente di evitare calcoli ridondanti del modello e può portare a riduzioni significative del consumo di energia e delle emissioni di anidride carbonica.
Misurare e monitorare
Monitora e misura i seguenti parametri:
- Utilizzo e costi: utilizza gli strumenti appropriati per monitorare l'utilizzo dei token, il consumo di energia e l'impronta di carbonio dei tuoi carichi di lavoro AI. Questi dati ti aiutano a identificare le opportunità di ottimizzazione e a monitorare i progressi verso gli obiettivi di sostenibilità.
- Rendimento: monitora continuamente il rendimento del modello in produzione.
Identifica problemi come la deriva dei dati, che può indicare che il modello deve
essere nuovamente messo a punto. Se devi riaddestrare il modello, puoi utilizzare il modello originale ottimizzato come punto di partenza e risparmiare tempo, denaro ed energia in modo significativo per gli aggiornamenti.
- Per monitorare le metriche sul rendimento, utilizza Cloud Monitoring.
- Per correlare le modifiche al modello con i miglioramenti delle metriche di rendimento, utilizza le annotazioni degli eventi.
Per saperne di più sull'operazionalizzazione del miglioramento continuo, vedi Misurare e migliorare continuamente la sostenibilità.
Implementare la pianificazione consapevole delle emissioni di anidride carbonica
Progetta i job della pipeline ML in modo che vengano eseguiti nelle regioni con il mix energetico più pulito. Utilizza il report sullCarbon Footprint per identificare le regioni con le emissioni di carbonio meno intense. Pianifica le attività che richiedono molte risorse come job batch durante i periodi in cui la rete elettrica locale ha una percentuale più elevata di energia priva di emissioni di carbonio (CFE).
Ottimizza le pipeline di dati
Le operazioni di ML e l'ottimizzazione richiedono un set di dati pulito e di alta qualità. Prima di avviare i job ML, utilizza i servizi di trattamento dati gestiti per preparare i dati in modo efficiente. Ad esempio, utilizza Dataflow per l'elaborazione batch e in streaming e utilizza Dataproc per le pipeline Spark e Hadoop gestite. Una pipeline di dati ottimizzata contribuisce a garantire che il tuo workload di messa a punto non attenda i dati, in modo da massimizzare l'utilizzo delle risorse e contribuire a ridurre lo spreco di energia.
Adottare MLOps
Per automatizzare e gestire l'intero ciclo di vita del ML, implementa le pratiche di ML Operations (MLOps). Queste pratiche contribuiscono a garantire che i modelli vengano monitorati, convalidati e ridistribuiti in modo efficiente, il che aiuta a evitare l'addestramento o l'allocazione di risorse non necessari.
Utilizzare i servizi gestiti
Anziché gestire la tua infrastruttura, utilizza servizi cloud gestiti come Vertex AI. La piattaforma cloud gestisce la gestione delle risorse sottostante, il che ti consente di concentrarti sul processo di ottimizzazione. Utilizza servizi che includono strumenti integrati per l'ottimizzazione degli iperparametri, il monitoraggio dei modelli e la gestione delle risorse.
Passaggi successivi
- Quanta energia utilizza l'AI di Google? Abbiamo fatto i calcoli
- Ironwood: la prima TPU Google per l'era dell'inferenza
- Report ambientale 2025 di Google Sostenibilità
- Apprendimento in-context più efficiente con GLaM
- Panoramica della memorizzazione nella cache contestuale