Dieser Grundsatz in der Säule „Nachhaltigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Optimierung von KI- und ML-Arbeitslasten, um ihren Energieverbrauch und CO₂-Fußabdruck zu reduzieren.
Übersicht über die Grundsätze
Um KI- und ML-Arbeitslasten für Nachhaltigkeit zu optimieren, müssen Sie einen ganzheitlichen Ansatz für das Design, die Bereitstellung und den Betrieb der Arbeitslasten verfolgen. Wählen Sie geeignete Modelle und spezielle Hardware wie Tensor Processing Units (TPUs) aus, führen Sie die Arbeitslasten in Regionen mit geringem CO2-Ausstoß aus, optimieren Sie die Ressourcennutzung und wenden Sie Best Practices für den Betrieb an.
Architektur- und Betriebsverfahren, die die Kosten und Leistung von KI- und ML-Arbeitslasten optimieren, führen von Natur aus zu einem geringeren Energieverbrauch und einem geringeren CO2-Fußabdruck. Die KI- und ML-Perspektive im Well-Architected Framework beschreibt Prinzipien und Empfehlungen zum Entwerfen, Erstellen und Verwalten von KI- und ML-Arbeitslasten, die Ihren Betriebs-, Sicherheits-, Zuverlässigkeits-, Kosten- und Leistungszielen entsprechen. Darüber hinaus bietet das Cloud Architecture Center detaillierte Referenzarchitekturen und Designleitfäden für KI- und ML-Arbeitslasten in Google Cloud.
Empfehlungen
Wenn Sie KI- und ML-Arbeitslasten für Energieeffizienz optimieren möchten, sollten Sie die Empfehlungen in den folgenden Abschnitten berücksichtigen.
Energieeffizienz durch den Einsatz von TPUs verbessern
KI- und ML-Arbeitslasten können rechenintensiv sein. Der Energieverbrauch von KI- und ML-Arbeitslasten ist ein wichtiger Aspekt der Nachhaltigkeit. Mit TPUs können Sie die Energieeffizienz und Nachhaltigkeit Ihrer KI- und ML-Arbeitslasten deutlich verbessern.
TPUs sind speziell entwickelte Beschleuniger, die für KI- und ML-Arbeitslasten konzipiert sind. Die spezielle Architektur von TPUs macht sie sehr effektiv für die Matrixmultiplikation im großen Maßstab, die die Grundlage für Deep Learning bildet. TPUs können komplexe Aufgaben in großem Maßstab effizienter ausführen als Allzweckprozessoren wie CPUs oder GPUs.
TPUs bieten die folgenden direkten Vorteile für die Nachhaltigkeit:
- Geringerer Energieverbrauch: TPUs sind für optimale Energieeffizienz konzipiert. Sie bieten mehr Berechnungen pro verbrauchtem Watt. Ihre spezielle Architektur reduziert den Strombedarf von umfangreichen Trainings- und Inferenzaufgaben erheblich, was zu geringeren Betriebskosten und einem niedrigeren Energieverbrauch führt.
- Schnelleres Training und schnellere Inferenz: Dank der außergewöhnlichen Leistung von TPUs können Sie komplexe KI-Modelle in Stunden statt in Tagen trainieren. Diese erhebliche Reduzierung der gesamten Rechenzeit trägt direkt zu einem geringeren ökologischen Fußabdruck bei.
- Geringerer Kühlbedarf: TPUs sind mit einer fortschrittlichen Flüssigkeitskühlung ausgestattet, die für ein effizientes Wärmemanagement sorgt und den Energieverbrauch für die Kühlung des Rechenzentrums erheblich reduziert.
- Optimierung des KI-Lebenszyklus: Durch die Integration von Hardware und Software bieten TPUs eine optimierte Lösung für den gesamten KI-Lebenszyklus, von der Datenverarbeitung bis zum Bereitstellen von Modellen.
Best Practices für die Ressourcenauswahl nach den 4 Ms
Google empfiehlt eine Reihe von Best Practices, um den Energieverbrauch und den CO₂-Ausstoß für KI- und ML-Arbeitslasten erheblich zu reduzieren. Wir nennen diese Best Practices die 4Ms:
- Modell: Wählen Sie effiziente ML-Modellarchitekturen aus. Sparse-Modelle verbessern beispielsweise die ML-Qualität und reduzieren den Berechnungsaufwand im Vergleich zu dichten Modellen um das 3- bis 10-Fache.
- Maschine: Wählen Sie Prozessoren und Systeme aus, die für das ML-Training optimiert sind. Diese Prozessoren verbessern die Leistung und Energieeffizienz im Vergleich zu Prozessoren für allgemeine Zwecke um das 2- bis 5-Fache.
- Mechanisierung: Stellen Sie Ihre rechenintensiven Arbeitslasten in der Cloud bereit. Ihre Arbeitslasten verbrauchen weniger Energie und verursachen 1,4- bis 2-mal weniger Emissionen als bei lokalen Bereitstellungen. In Cloud-Rechenzentren werden neuere, speziell entwickelte Lagerhallen verwendet, die auf Energieeffizienz ausgelegt sind und einen hohen PUE-Wert (Power Usage Effectiveness, Effizienz der Stromnutzung) haben. Lokale Rechenzentren sind oft älter und kleiner, weshalb sich Investitionen in energieeffiziente Kühl- und Stromverteilungssysteme möglicherweise nicht lohnen.
- Karte: Wählen Sie Google Cloud Standorte aus, an denen die sauberste Energie verwendet wird. Mit diesem Ansatz lässt sich die Brutto-CO₂-Bilanz Ihrer Arbeitslasten um das 5- bis 10-Fache reduzieren. Weitere Informationen finden Sie unter Kohlenstofffreie Energie für Google Cloud Regionen.
Weitere Informationen zu den Best Practices für die 4 Ms und zu Effizienzmesswerten finden Sie in den folgenden Studien:
- Die CO2-Bilanz von Machine-Learning-Training wird sich stabilisieren und dann sinken
- The data center as a computer: An introduction to the design of warehouse-scale machines, second edition
KI-Modelle und ‑Algorithmen für Training und Inferenz optimieren
Die Architektur eines KI-Modells und die Algorithmen, die für Training und Inferenz verwendet werden, haben einen erheblichen Einfluss auf den Energieverbrauch. Beachten Sie die folgenden Empfehlungen.
Effiziente KI-Modelle auswählen
Wählen Sie kleinere, effizientere KI-Modelle aus, die Ihren Leistungsanforderungen entsprechen. Wählen Sie nicht das größte verfügbare Modell als Standard aus. Ein kleineres, destilliertes Modell wie DistilBERT kann beispielsweise eine ähnliche Leistung mit deutlich geringerem Rechenaufwand und schnellerer Inferenz als ein größeres Modell wie BERT bieten.
Domainspezifische, hocheffiziente Lösungen verwenden
Wählen Sie spezielle ML-Lösungen, die eine bessere Leistung bieten und deutlich weniger Rechenleistung benötigen als ein großes Fundierungsmodell. Diese spezialisierten Lösungen sind oft vortrainiert und hyperoptimiert. Sie können den Energieverbrauch und den Forschungsaufwand für Trainings- und Inferenz-Workloads erheblich reduzieren. Hier einige Beispiele für domainspezifische Speziallösungen:
- Earth AI ist eine energieeffiziente Lösung, die große Mengen globaler raumbezogener Daten zusammenführt, um zeitnahe, genaue und umsetzbare Informationen zu liefern.
- WeatherNext erstellt im Vergleich zu herkömmlichen physikbasierten Methoden schnellere, effizientere und hochgenaue globale Wettervorhersagen.
Geeignete Techniken zur Modellkomprimierung anwenden
Im Folgenden finden Sie Beispiele für Techniken, die Sie für die Modellkomprimierung verwenden können:
- Beschneiden: Entfernen unnötiger Parameter aus einem neuronalen Netzwerk. Das sind Parameter, die nicht wesentlich zur Leistung eines Modells beitragen. Durch diese Technik werden die Größe des Modells und die für die Inferenz erforderlichen Rechenressourcen reduziert.
- Quantisierung: Reduzieren Sie die Genauigkeit von Modellparametern. Sie können beispielsweise die Genauigkeit von 32-Bit-Gleitkommazahlen auf 8-Bit-Ganzzahlen reduzieren. Mit dieser Technik lassen sich der Speicherbedarf und der Stromverbrauch erheblich senken, ohne dass die Genauigkeit merklich abnimmt.
- Wissensdestillation: Ein kleineres Schülermodell wird trainiert, um das Verhalten eines größeren, komplexeren Lehrermodells nachzuahmen. Das Schülermodell kann mit weniger Parametern und geringerem Energieverbrauch eine hohe Leistung erzielen.
Spezialisierte Hardware verwenden
Wie unter Best Practices für die Ressourcenauswahl gemäß den 4Ms beschrieben, sollten Sie Prozessoren und Systeme auswählen, die für das ML-Training optimiert sind. Im Vergleich zu Prozessoren für allgemeine Zwecke bieten diese Prozessoren eine 2- bis 5-mal höhere Leistung und Energieeffizienz.
Parametereffiziente Feinabstimmung verwenden
Anstatt alle Milliarden von Parametern eines Modells anzupassen (vollständige Feinabstimmung), können Sie PEFT-Methoden (Parameter-Efficient Fine-Tuning) wie LoRA (Low-Rank Adaptation) verwenden. Bei dieser Technik werden die Gewichte des ursprünglichen Modells eingefroren und nur eine kleine Anzahl neuer, einfacher Ebenen trainiert. Dieser Ansatz trägt dazu bei, Kosten und Energieverbrauch zu senken.
Best Practices für KI- und ML-Vorgänge befolgen
Betriebliche Praktiken haben einen erheblichen Einfluss auf die Nachhaltigkeit Ihrer KI- und ML-Arbeitslasten. Beachten Sie die folgenden Empfehlungen.
Prozesse für das Trainieren von Modellen optimieren
Mit den folgenden Techniken können Sie Ihre Modelltrainingsprozesse optimieren:
- Frühzeitiges Beenden: Beobachten Sie den Trainingsprozess und beenden Sie ihn, wenn sich die Modellleistung im Vergleich zum Validierungssatz nicht weiter verbessert. So können Sie unnötige Berechnungen und unnötigen Energieverbrauch vermeiden.
- Effizientes Laden von Daten: Verwenden Sie effiziente Datenpipelines, damit die GPUs und TPUs immer genutzt werden und nicht auf Daten warten müssen. Diese Technik trägt dazu bei, die Ressourcennutzung zu maximieren und Energieverschwendung zu reduzieren.
- Optimierte Hyperparameter-Abstimmung: Um optimale Hyperparameter effizienter zu finden, können Sie Techniken wie die Bayes'sche Optimierung oder das bestärkende Lernen verwenden. Vermeiden Sie umfassende Grid-Suchvorgänge, da diese ressourcenintensiv sein können.
Effizienz der Inferenz verbessern
Um die Effizienz von KI-Inferenzaufgaben zu verbessern, können Sie die folgenden Techniken verwenden:
- Batching: Gruppieren Sie mehrere Inferenzanfragen in Batches und nutzen Sie die parallele Verarbeitung auf GPUs und TPUs. Diese Technik trägt dazu bei, die Energiekosten pro Vorhersage zu senken.
- Erweitertes Caching: Implementieren Sie eine mehrschichtige Caching-Strategie, die das Schlüssel/Wert-Caching (KV) für die autoregressive Generierung und das semantische Prompt-Caching für Anwendungsantworten umfasst. Mit dieser Technik lassen sich redundante Modellberechnungen umgehen, was zu einer erheblichen Reduzierung des Energieverbrauchs und der CO2-Emissionen führen kann.
Messen und überwachen
Behalten Sie die folgenden Parameter im Blick und messen Sie sie:
- Nutzung und Kosten: Verwenden Sie geeignete Tools, um die Tokennutzung, den Energieverbrauch und die CO₂-Bilanz Ihrer KI-Arbeitslasten zu verfolgen. Anhand dieser Daten können Sie Optimierungsmöglichkeiten ermitteln und Fortschritte bei der Erreichung von Nachhaltigkeitszielen dokumentieren.
- Leistung: Überwachen Sie die Modellleistung in der Produktion kontinuierlich.
Probleme wie Data Drift erkennen, die darauf hinweisen können, dass das Modell noch einmal optimiert werden muss. Wenn Sie das Modell neu trainieren müssen, können Sie das ursprüngliche feinabgestimmte Modell als Ausgangspunkt verwenden und so viel Zeit, Geld und Energie sparen.
- Verwenden Sie Cloud Monitoring, um Leistungsmesswerte zu erfassen.
- Mit Ereignis-Anmerkungen können Sie Modelländerungen mit Verbesserungen bei Leistungsmesswerten in Beziehung setzen.
Weitere Informationen zur Umsetzung kontinuierlicher Verbesserungen finden Sie unter Nachhaltigkeit kontinuierlich messen und verbessern.
CO₂-bewusste Planung implementieren
Entwerfen Sie Ihre ML-Pipeline-Jobs so, dass sie in Regionen mit dem saubersten Energiemix ausgeführt werden. Mithilfe des Berichts zu Carbon Footprint können Sie die Regionen mit der geringsten CO₂-Intensität ermitteln. Planen Sie ressourcenintensive Aufgaben als Batch-Jobs für Zeiten, in denen das lokale Stromnetz einen höheren Anteil an CO₂-freier Energie (CFE) hat.
Datenpipelines optimieren
Für ML-Vorgänge und das Feinabstimmen ist ein bereinigter, hochwertiger Datensatz erforderlich. Bevor Sie ML-Jobs starten, sollten Sie verwaltete Datenverarbeitungsdienste verwenden, um die Daten effizient vorzubereiten. Verwenden Sie beispielsweise Dataflow für die Streaming- und Batchverarbeitung und Dataproc für verwaltete Spark- und Hadoop-Pipelines. Eine optimierte Datenpipeline trägt dazu bei, dass Ihre Arbeitslast für das Feinabstimmen nicht auf Daten warten muss. So können Sie die Ressourcennutzung maximieren und Energieverschwendung reduzieren.
MLOps einführen
Um den gesamten ML-Lebenszyklus zu automatisieren und zu verwalten, implementieren Sie MLOps-Verfahren. Diese Praktiken tragen dazu bei, dass Modelle kontinuierlich überwacht, validiert und effizient neu bereitgestellt werden. So lassen sich unnötiges Training oder unnötige Ressourcenzuweisungen vermeiden.
Verwaltete Dienste verwenden
Verwenden Sie anstelle der Verwaltung Ihrer eigenen Infrastruktur verwaltete Cloud-Dienste wie Vertex AI. Die Cloud-Plattform übernimmt die zugrunde liegende Ressourcenverwaltung, sodass Sie sich auf den Feinabstimmungsprozess konzentrieren können. Verwenden Sie Dienste mit integrierten Tools für die Hyperparameteroptimierung, das Modellmonitoring und das Ressourcenmanagement.
Nächste Schritte
- Wie viel Energie verbraucht die KI von Google? Wir haben das mal durchgerechnet.
- Ironwood: Die erste Google TPU für das Zeitalter der Inferenz
- Google Sustainability 2025 Environmental Report
- Effizienteres In-Context-Lernen mit GLaM
- Kontext-Caching – Übersicht