Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

KI und ML: Kostenoptimierung

Last reviewed 2025-05-28 UTC

Dieses Dokument im Well-Architected Framework: AI & ML Perspective bietet einen Überblick über die Prinzipien und Empfehlungen zur Optimierung der Kosten Ihrer KI-Systeme während des gesamten ML-Lebenszyklus. Wenn Sie einen proaktiven und fundierten Ansatz für das Kostenmanagement verfolgen, kann Ihre Organisation das volle Potenzial von KI- und ML-Systemen ausschöpfen und gleichzeitig die finanzielle Disziplin wahren. Die Empfehlungen in diesem Dokument stimmen mit der Säule zur Kostenoptimierung des Google Cloud Well-Architected Frameworks überein.

Mit KI- und ML-Systemen lassen sich wertvolle Erkenntnisse und Vorhersagefunktionen aus Daten gewinnen. So können Sie beispielsweise Reibungsverluste bei internen Prozessen reduzieren, die Nutzerfreundlichkeit verbessern und detailliertere Kundeninformationen erhalten. Die Cloud bietet enorme Ressourcen und eine schnelle Wertschöpfung ohne große Vorabinvestitionen für KI- und ML-Arbeitslasten. Um den Geschäftswert zu maximieren und die Ausgaben an Ihre Geschäftsziele anzupassen, müssen Sie die Kostentreiber verstehen, Kosten proaktiv optimieren, Ausgabenkontrollen einrichten und FinOps-Verfahren einführen.

Die Empfehlungen in diesem Dokument sind den folgenden Grundsätzen zugeordnet:

Kosten und Rendite definieren und messen

Um die Kosten für KI und ML in Google Cloudeffektiv zu verwalten, müssen Sie die Kosten für Cloud-Ressourcen und den Geschäftswert Ihrer KI- und ML-Initiativen definieren und messen. Damit Sie Ausgaben detailliert nachvollziehen können,bietet Google Cloud umfassende Tools zur Abrechnung und Kostenverwaltung, z. B.:

Cloud Billing-Berichte und -Tabellen
Data Studio-Dashboards, Budgets und Benachrichtigungen
Cloud Monitoring
Cloud Logging

Wenn Sie fundierte Entscheidungen zur Ressourcenzuweisung und ‑optimierung treffen möchten, sollten Sie die folgenden Empfehlungen berücksichtigen.

Geschäftsziele und KPIs festlegen

Richten Sie die technischen Entscheidungen in Ihren KI- und ML-Projekten an Geschäftszielen und Leistungsindikatoren (KPIs) aus.

Strategische Ziele und ROI-orientierte KPIs definieren

Achten Sie darauf, dass KI- und ML-Projekte mit strategischen Zielen wie Umsatzwachstum, Kostensenkung, Kundenzufriedenheit und Effizienz übereinstimmen. Stakeholder einbeziehen, um die Geschäftsprioritäten zu verstehen. Definieren Sie KI- und ML-Ziele, die spezifisch, messbar, angemessen, relevant und terminiert (SMART) sind. Ein SMART-Ziel könnte beispielsweise so aussehen: „Die Bearbeitungszeit für Chats im Kundensupport soll innerhalb von sechs Monaten um 15% gesenkt werden, indem ein KI-Chatbot eingesetzt wird.“

Um Ihre Geschäftsziele zu erreichen und den Return on Investment (ROI) zu messen, müssen Sie KPIs für die folgenden Metrikenkategorien definieren:

Kosten für Training, Inferenz, Speicher und Netzwerkressourcen, einschließlich spezifischer Stückkosten (z. B. Kosten pro Inferenz, Datenpunkt oder Aufgabe). Mithilfe dieser Messwerte können Sie Möglichkeiten zur Effizienzsteigerung und Kostenoptimierung erkennen. Sie können diese Kosten mit Cloud Billing-Berichten und Cloud Monitoring-Dashboards nachverfolgen.
Messwerte zum Geschäftswert wie Umsatzwachstum, Kosteneinsparungen, Kundenzufriedenheit, Effizienz, Genauigkeit und Akzeptanz. Sie können diese Messwerte mit BigQuery-Analysen und Looker-Dashboards im Blick behalten.
Branchenspezifische Messwerte wie die folgenden:
- Einzelhandel: Umsatzsteigerung und Abwanderung messen
- Gesundheitswesen: Patientenzeit und Patientenergebnisse messen
- Finanzbranche: Betrugsreduzierung messen
Projektspezifische Messwerte: Sie können diese Messwerte mit Experiments on Gemini Enterprise Agent Platform und Evaluation verfolgen.
- Vorhersage-KI: Genauigkeit und Präzision messen
- Generative KI: Akzeptanz, Zufriedenheit und Inhaltsqualität messen
- Computer Vision AI: Genauigkeit messen

Kultur des Kostenbewusstseins und der kontinuierlichen Optimierung fördern

Wenden Sie die FinOps-Grundsätze an, um sicherzustellen, dass für jedes KI- und ML-Projekt geschätzte Kosten vorliegen und die tatsächlichen Kosten während des gesamten Lebenszyklus gemessen und nachverfolgt werden können. Weisen Sie den Kosten und dem Nutzen Ihrer Projekte Verantwortliche zu und sorgen Sie für eine klare Verantwortlichkeit.

Weitere Informationen finden Sie unter Kostenbewusstsein fördern in der Spalte „Kostenoptimierung“ des Google Cloud Well-Architected Framework.

Durch Iteration und Feedback Wert schaffen und kontinuierlich optimieren

Ordnen Sie Ihre KI- und ML-Anwendungen direkt Ihren Geschäftszielen zu und messen Sie den ROI.

Um Ihre ROI-Hypothesen zu validieren, sollten Sie mit Pilotprojekten beginnen und den folgenden iterativen Optimierungszyklus verwenden:

Kontinuierlich überwachen und Daten analysieren: Behalten Sie KPIs und Kosten im Blick, um Abweichungen und Optimierungsmöglichkeiten zu erkennen.
Datengestützte Anpassungen vornehmen: Optimieren Sie Strategien, Modelle, Infrastruktur und Ressourcenzuweisung basierend auf Datenstatistiken.
Iterativ optimieren: Passen Sie Geschäftsziele und KPIs basierend auf den gewonnenen Erkenntnissen und den sich entwickelnden geschäftlichen Anforderungen an. So bleiben Sie relevant und strategisch ausgerichtet.
Feedbackschleife einrichten: Überprüfen Sie Leistung, Kosten und Wert mit Stakeholdern, um die laufende Optimierung und zukünftige Projektplanung zu unterstützen.

Abrechnungsdaten mit Cloud Billing und Labels verwalten

Für eine effektive Kostenoptimierung ist es erforderlich, die Sichtbarkeit der Quelle jedes Kostenelements zu kennen. Mit den Empfehlungen in diesem Abschnitt können Sie Google Cloud-Tools verwenden, um detaillierte Informationen zu Ihren KI- und ML-Kosten zu erhalten. Sie können Kosten auch bestimmten KI- und ML-Projekten, Teams und Aktivitäten zuordnen. Diese Informationen bilden die Grundlage für die Kostenoptimierung.

Ressourcen organisieren und mit Labels versehen Google Cloud

Strukturieren Sie Ihre Projekte und Ressourcen in einer Hierarchie, die Ihre Organisationsstruktur und Ihre KI- und ML-Workflows widerspiegelt. Wenn Sie Kosten auf verschiedenen Ebenen erfassen und analysieren möchten, organisieren Sie Ihre Google Cloud Ressourcen mithilfe von Organisationen, Ordnern und Projekten. Weitere Informationen finden Sie unter Ressourcenhierarchie für Ihre Google Cloud Landing-Zone festlegen.
Wenden Sie aussagekräftige Labels auf Ihre Ressourcen an. Sie können Labels verwenden, die das Projekt, das Team, die Umgebung, den Modellnamen, das Dataset, den Anwendungsfall und die Leistungsanforderungen angeben. Labels liefern wertvollen Kontext für Ihre Abrechnungsdaten und ermöglichen eine detaillierte Kostenanalyse.
Achten Sie darauf, dass Ihre Labeling-Konventionen in allen Ihren KI- und ML-Projekten einheitlich sind. Einheitliche Labeling-Konventionen sorgen dafür, dass Ihre Abrechnungsdaten organisiert sind und problemlos analysiert werden können.

Abrechnungsbezogene Tools verwenden

Für detaillierte Analysen und Berichte exportieren Sie die Abrechnungsdaten nach BigQuery. BigQuery bietet leistungsstarke Abfragefunktionen, mit denen Sie die Abrechnungsdaten analysieren können, um Ihre Kosten besser zu verstehen.
Wenn Sie Kosten nach Labels, Projekten oder bestimmten Zeiträumen zusammenfassen möchten, können Sie benutzerdefinierte SQL-Abfragen in BigQuery schreiben. Mit solchen Abfragen können Sie Kosten bestimmten KI- und ML-Aktivitäten zuordnen, z. B. Modelltraining, Hyperparameter-Abstimmung oder Inferenz.
Verwenden Sie die Analysefunktionen in BigQuery, um Kostenanomalien oder unerwartete Ausgabenspitzen zu erkennen. So können Sie potenzielle Probleme oder Ineffizienzen in Ihren KI- und ML-Arbeitslasten erkennen.
Mit dem Dashboard zur Anomalieerkennung in Cloud Billing können Sie unerwartete Kosten erkennen und verwalten.
Wenn Sie Kosten basierend auf der Ressourcennutzung auf verschiedene Teams oder Abteilungen verteilen möchten, verwenden Sie die Kostenaufteilung-Funktion von Google Cloud. Die Kostenaufteilung fördert Verantwortlichkeit und Transparenz.
Um Einblicke in Ausgabenmuster zu erhalten, können Sie die vordefinierten Cloud Billing-Berichte verwenden. Sie können diese Berichte filtern und anpassen, um sich auf bestimmte KI- und ML-Projekte oder ‑Dienste zu konzentrieren.

Ressourcen mit Dashboards, Benachrichtigungen und Berichten kontinuierlich im Blick behalten

Um Kosten skalierbar und zuverlässig zu erfassen, sind kontinuierliche Überwachung und Berichterstellung erforderlich. Dashboards, Benachrichtigungen und Berichte bilden die Grundlage für ein effektives Kosten-Tracking. So haben Sie jederzeit Zugriff auf Kosteninformationen, können Optimierungsbereiche identifizieren und dafür sorgen, dass Geschäftsziele und Kosten aufeinander abgestimmt sind.

Berichtssystem erstellen

Geplante Berichte erstellen und mit den entsprechenden Stakeholdern teilen

Mit Cloud Monitoring können Sie Messwerte aus verschiedenen Quellen erfassen, z. B. aus Ihren Anwendungen, Ihrer Infrastruktur und Google Cloud -Diensten wie Compute Engine, Google Kubernetes Engine (GKE) und Cloud Run Functions. Um Messwerte und Logs in Echtzeit zu visualisieren, können Sie das vordefinierte Cloud Monitoring-Dashboard verwenden oder benutzerdefinierte Dashboards erstellen. Mit benutzerdefinierten Dashboards können Sie Messwerte definieren und hinzufügen, um bestimmte Aspekte Ihrer Systeme zu verfolgen, z. B. die Modellleistung, API-Aufrufe oder KPIs auf Geschäftsebene.

Verwenden Sie Cloud Logging für die zentrale Erfassung und Speicherung von Logs aus Ihren Anwendungen, Systemen und Google Cloud Diensten. Sie können die Logs für folgende Zwecke verwenden:

Kosten und Nutzung von Ressourcen wie CPU, Arbeitsspeicher, Speicher und Netzwerk im Blick behalten.
Identifizieren Sie Fälle von Überbereitstellung (bei denen Ressourcen nicht vollständig genutzt werden) und Unterbereitstellung (bei denen nicht genügend Ressourcen vorhanden sind). Eine Überbereitstellung führt zu unnötigen Kosten. Eine Unterbereitstellung verlangsamt die Trainingszeiten und kann zu Leistungsproblemen führen.
Identifizieren Sie inaktive oder nicht ausgelastete Ressourcen wie VMs und GPUs und ergreifen Sie Maßnahmen, um sie herunterzufahren oder ihre Größe anzupassen, um die Kosten zu optimieren.
Mit Kostenanstiegen lassen sich plötzliche und unerwartete Steigerungen bei der Ressourcennutzung oder den Kosten erkennen.

Mit Looker oder Data Studio können Sie interaktive Dashboards und Berichte erstellen. Verbinden Sie die Dashboards und Berichte mit verschiedenen Datenquellen, darunter BigQuery und Cloud Monitoring.

Benachrichtigungsgrenzwerte anhand wichtiger KPIs festlegen

Legen Sie für Ihre KPIs die Schwellenwerte fest, die Benachrichtigungen auslösen sollen. Mit aussagekräftigen Benachrichtigungsschwellenwerten können Sie eine Überlastung durch Benachrichtigungen vermeiden. Erstellen Sie Benachrichtigungsrichtlinien in Cloud Monitoring, um Benachrichtigungen zu Ihren KPIs zu erhalten. Sie können sich beispielsweise benachrichtigen lassen, wenn die Genauigkeit unter einen bestimmten Schwellenwert fällt oder die Latenz einen definierten Grenzwert überschreitet. Benachrichtigungen, die auf Logdaten basieren, können Sie in Echtzeit über potenzielle Kostenprobleme informieren. So können Sie schnell Korrekturmaßnahmen ergreifen und weitere finanzielle Verluste vermeiden.

Ressourcenzuweisung optimieren

Um die Kosteneffizienz Ihrer KI- und ML-Arbeitslasten in Google Cloudzu maximieren, müssen Sie die Ressourcenzuweisung optimieren. So vermeiden Sie unnötige Ausgaben und sorgen dafür, dass Ihre Arbeitslasten die Ressourcen haben, die sie für eine optimale Leistung benötigen.

Berücksichtigen Sie die folgenden Empfehlungen, um die Zuweisung von Cloud-Ressourcen für KI- und ML-Arbeitslasten zu optimieren.

Ressourcen mit Autoscaling dynamisch anpassen

Verwenden Sie Google Cloud Dienste, die Autoscaling unterstützen. Dadurch wird die Ressourcenzuweisung automatisch an die aktuelle Nachfrage angepasst. Autoscaling bietet folgende Vorteile:

Kosten- und Leistungsoptimierung: Sie vermeiden, für inaktive Ressourcen zu bezahlen. Gleichzeitig sorgt die automatische Skalierung dafür, dass Ihre Systeme auch bei Spitzenlast über die erforderlichen Ressourcen verfügen, um optimal zu funktionieren.
Höhere Effizienz: Ihr Team hat mehr Zeit für andere Aufgaben.
Mehr Agilität: Sie können schnell auf sich ändernde Anforderungen reagieren und eine hohe Verfügbarkeit Ihrer Anwendungen aufrechterhalten.

In der folgenden Tabelle sind die Techniken zusammengefasst, die Sie verwenden können, um die automatische Skalierung für verschiedene Phasen Ihrer KI-Projekte zu implementieren.

Phase	Autoscaling-Techniken
Training	Verwenden Sie verwaltete Dienste wie die Gemini Enterprise Agent Platform oder GKE, die integrierte Autoscaling-Funktionen für Trainingsjobs bieten. Konfigurieren Sie Autoscaling-Richtlinien, um die Anzahl der Trainingsinstanzen anhand von Messwerten wie CPU-Auslastung, Arbeitsspeichernutzung und Länge der Jobwarteschlange zu skalieren. Mit benutzerdefinierten Skalierungsmesswerten können Sie das Autoscaling-Verhalten für Ihre spezifischen Arbeitslasten optimieren.
Inferenz	Stellen Sie Ihre Modelle auf skalierbaren Plattformen wie Gemini Enterprise Agent Platform Inference, GPUs on GKE oder TPUs on GKE bereit. Mit Autoscaling-Funktionen können Sie die Anzahl der Replikate anhand von Messwerten wie Anforderungsrate, Latenz und Ressourcennutzung anpassen. Implementieren Sie Load Balancing, um den Traffic gleichmäßig auf die Replikate zu verteilen und für Hochverfügbarkeit zu sorgen.

Phase

Autoscaling-Techniken

Training

Verwenden Sie verwaltete Dienste wie die Gemini Enterprise Agent Platform oder GKE, die integrierte Autoscaling-Funktionen für Trainingsjobs bieten.
Konfigurieren Sie Autoscaling-Richtlinien, um die Anzahl der Trainingsinstanzen anhand von Messwerten wie CPU-Auslastung, Arbeitsspeichernutzung und Länge der Jobwarteschlange zu skalieren.
Mit benutzerdefinierten Skalierungsmesswerten können Sie das Autoscaling-Verhalten für Ihre spezifischen Arbeitslasten optimieren.

Inferenz

Stellen Sie Ihre Modelle auf skalierbaren Plattformen wie Gemini Enterprise Agent Platform Inference, GPUs on GKE oder TPUs on GKE bereit.
Mit Autoscaling-Funktionen können Sie die Anzahl der Replikate anhand von Messwerten wie Anforderungsrate, Latenz und Ressourcennutzung anpassen.
Implementieren Sie Load Balancing, um den Traffic gleichmäßig auf die Replikate zu verteilen und für Hochverfügbarkeit zu sorgen.

Mit kleinen Modellen und Datasets beginnen

Um die Kosten zu senken, sollten Sie ML-Hypothesen nach Möglichkeit in kleinem Maßstab testen und einen iterativen Ansatz verwenden. Dieser Ansatz mit kleineren Modellen und Datasets bietet folgende Vorteile:

Von Anfang an geringere Kosten: Weniger Rechenleistung, Speicherplatz und Verarbeitungszeit können zu niedrigeren Kosten in den ersten Test- und Entwicklungsphasen führen.
Schnellere Iteration: Da weniger Trainingszeit erforderlich ist, können Sie schneller iterieren, alternative Ansätze ausprobieren und vielversprechende Richtungen effizienter ermitteln.
Weniger Komplexität: Einfacheres Debugging, einfachere Analyse und Interpretation von Ergebnissen, was zu schnelleren Entwicklungszyklen führt.
Effiziente Ressourcennutzung: Geringere Wahrscheinlichkeit einer Überbereitstellung von Ressourcen. Sie stellen nur die Ressourcen bereit, die für die aktuelle Arbeitslast erforderlich sind.

Beachten Sie die folgenden Empfehlungen:

Zuerst Beispieldaten verwenden: Trainieren Sie Ihre Modelle mit einer repräsentativen Teilmenge Ihrer Daten. So können Sie die Leistung des Modells bewerten und potenzielle Probleme erkennen, ohne den gesamten Datensatz zu verarbeiten.
Mit Notebooks experimentieren: Beginnen Sie mit kleineren Instanzen und skalieren Sie sie nach Bedarf. Sie können Gemini Enterprise Agent Platform Workbench verwenden, eine verwaltete Jupyter-Notebook-Umgebung, die sich gut für Experimente mit verschiedenen Modellarchitekturen und ‑Datasets eignet.
Mit einfacheren oder vortrainierten Modellen beginnen: Verwenden Sie Model Garden, um vortrainierte Modelle zu finden und zu testen. Solche Modelle benötigen weniger Rechenressourcen. Erhöhen Sie die Komplexität nach Bedarf schrittweise, basierend auf den Leistungsanforderungen.
- Vortrainierte Modelle für Aufgaben wie Bildklassifizierung und Natural Language Processing verwenden Um Trainingskosten zu sparen, können Sie die Modelle zuerst mit kleineren Datasets abstimmen.
- BigQuery ML für strukturierte Daten verwenden. Mit BigQuery ML können Sie Modelle direkt in BigQuery erstellen und bereitstellen. Dieser Ansatz kann für erste Tests kostengünstig sein, da Sie das Pay-per-Query-Preismodell für BigQuery nutzen können.
Ressourcenoptimierung durch Skalierung: Nutzen Sie die flexible Infrastruktur von Google Cloud, um Ressourcen nach Bedarf zu skalieren. Beginnen Sie mit kleineren Instanzen und passen Sie deren Größe oder Anzahl bei Bedarf an.

Ressourcenanforderungen durch Tests ermitteln

Die Ressourcenanforderungen für KI- und ML-Arbeitslasten können erheblich variieren. Um die Ressourcenzuweisung und die Kosten zu optimieren, müssen Sie die spezifischen Anforderungen Ihrer Arbeitslasten durch systematische Tests ermitteln. Um die effizienteste Konfiguration für Ihre Modelle zu ermitteln, testen Sie verschiedene Konfigurationen und analysieren Sie ihre Leistung. Passen Sie dann die Ressourcen, die Sie für das Training und die Bereitstellung verwendet haben, an die Anforderungen an.

Wir empfehlen den folgenden Ansatz für Experimente:

Mit einer Baseline beginnen: Beginnen Sie mit einer Baseline-Konfiguration, die auf Ihren ersten Schätzungen der Arbeitslastanforderungen basiert. Um eine Baseline zu erstellen, können Sie den Kostenschätzer für neue Arbeitslasten oder einen vorhandenen Abrechnungsbericht verwenden. Weitere Informationen finden Sie unter Unlock the true cost of enterprise AI on Google Cloud.
Kontingente kennen: Bevor Sie umfangreiche Tests starten, sollten Sie sich mit den Kontingenten für die Ressourcen und APIs vertraut machen, die Sie verwenden möchten. Die Kontingente bestimmen den Bereich der Konfigurationen, die Sie realistisch testen können. Wenn Sie sich mit Kontingenten vertraut machen, können Sie während der Testphase innerhalb der verfügbaren Ressourcenlimits arbeiten. Google Cloud
Systematisch testen: Passen Sie Parameter wie die Anzahl der CPUs, die Speichermenge, die Anzahl und den Typ der GPUs und TPUs sowie die Speicherkapazität an. Mit Gemini Enterprise Agent Platform Managed Training und Agent Platform Inference können Sie verschiedene Maschinentypen und Konfigurationen testen.
Nutzung, Kosten und Leistung im Blick behalten: Behalten Sie die Ressourcennutzung, die Kosten und die wichtigsten Leistungsmesswerte wie Trainingszeit, Inferenzlatenz und Modellgenauigkeit für jede Konfiguration im Blick, mit der Sie experimentieren.
- In der Agent Platform Console können Sie die Ressourcennutzung und Leistungsmesswerte im Blick behalten.
- Verwenden Sie Cloud Monitoring, um detaillierte Leistungsmesswerte zu erfassen und zu analysieren.
- Verwenden Sie Cloud Billing-Berichte und Cloud Monitoring-Dashboards, um die Kosten anzusehen.
- Verwenden Sie Profiling-Tools wie Vertex AI TensorBoard, um Leistungsengpässe in Ihren Modellen zu ermitteln und die Ressourcennutzung zu optimieren.
Kosten analysieren: Vergleichen Sie die Kosten und die Leistung der einzelnen Konfigurationen, um die kostengünstigste Option zu ermitteln.
Ressourcenschwellenwerte und Verbesserungsziele auf Grundlage von Kontingenten festlegen: Definieren Sie Schwellenwerte dafür, wann die Skalierung zu einem Leistungsrückgang führt, z. B. eine minimale Reduzierung der Trainingszeit oder Latenz bei einem erheblichen Kostenanstieg. Berücksichtigen Sie beim Festlegen dieser Schwellenwerte Projektkontingente. Bestimmen Sie den Punkt, an dem die Kosten und potenziellen Kontingentfolgen einer weiteren Skalierung nicht mehr durch Leistungssteigerungen gerechtfertigt sind.
Iterativ optimieren: Wiederholen Sie den Testprozess mit optimierten Konfigurationen, die auf Ihren Ergebnissen basieren. Achten Sie immer darauf, dass die Ressourcennutzung innerhalb Ihrer zugewiesenen Kontingente bleibt und mit den festgelegten Kosten-Nutzen-Schwellenwerten übereinstimmt.

Ineffizienzen mit MLOps reduzieren

Da Unternehmen zunehmend ML einsetzen, um Innovation und Effizienz zu steigern, wird es immer wichtiger, den ML-Lebenszyklus effektiv zu verwalten. MLOps (Machine Learning Operations) ist eine Reihe von Verfahren, mit denen der ML-Lebenszyklus automatisiert und optimiert wird – von der Modellentwicklung bis zur Bereitstellung und zum Monitoring.

MLOps auf Kostentreiber ausrichten

Wenn Sie MLOps zur Kosteneffizienz nutzen möchten, müssen Sie die primären Kostentreiber im ML-Lebenszyklus identifizieren. Anschließend können Sie MLOps-Praktiken einführen und implementieren, die auf die Kostentreiber abgestimmt sind. Priorisieren und implementieren Sie die MLOps-Funktionen, die sich auf die wichtigsten Kostentreiber beziehen. So können Sie erhebliche Kosteneinsparungen erzielen.

MLOps zur Kostenoptimierung implementieren

Im Folgenden finden Sie einige gängige MLOps-Methoden, mit denen sich Kosten senken lassen:

Versionsverwaltung: Mit Tools wie Git können Sie Versionen von Code, Daten und Modellen nachverfolgen. Die Versionsverwaltung sorgt für Reproduzierbarkeit, erleichtert die Zusammenarbeit und verhindert kostspielige Nacharbeiten, die durch Versionsprobleme entstehen können.
Continuous Integration und Continuous Delivery (CI/CD): Mit Cloud Build und Artifact Registry können Sie CI/CD-Pipelines implementieren, um das Erstellen, Testen und Bereitstellen Ihrer ML-Modelle zu automatisieren. CI/CD-Pipelines sorgen für eine effiziente Ressourcennutzung und minimieren die Kosten, die mit manuellen Eingriffen verbunden sind.
Observability: Mit Cloud Monitoring und Cloud Logging können Sie die Modellleistung in der Produktion verfolgen, Probleme erkennen und Benachrichtigungen für proaktive Maßnahmen auslösen. Mit Observability können Sie die Modellgenauigkeit aufrechterhalten, die Ressourcenverteilung optimieren und kostspielige Ausfallzeiten oder Leistungseinbußen verhindern.
Modelltraining: Gemini Enterprise Agent Platform Pipelines vereinfacht die Prozesse für das regelmäßige Training von Modellen oder wenn die Leistung nachlässt. Wenn Sie Agent Platform Pipelines für das erneute Training verwenden, bleiben Ihre Modelle genau und effizient. So können Sie unnötigen Ressourcenverbrauch vermeiden und eine optimale Leistung aufrechterhalten.
Automatisierte Tests und Bewertung: Die Agent Platform hilft Ihnen, die Modellbewertung zu beschleunigen und zu standardisieren. Implementieren Sie automatisierte Tests während des gesamten ML-Lebenszyklus, um die Qualität und Zuverlässigkeit Ihrer Modelle zu gewährleisten. Mit solchen Tests können Sie Fehler frühzeitig erkennen, kostspielige Probleme in der Produktion vermeiden und den Bedarf an umfangreichen manuellen Tests reduzieren.

Weitere Informationen finden Sie unter MLOps: Continuous Delivery und Pipelines zur Automatisierung im maschinellen Lernen.

Praktiken für Datenmanagement und Governance durchsetzen

Effektive Datenverwaltung und Governance sind entscheidend für die Kostenoptimierung. Gut organisierte Daten können Teams dazu anregen, Datasets wiederzuverwenden, unnötige Duplikate zu vermeiden und den Aufwand für den Erhalt hochwertiger Daten zu reduzieren. Durch die proaktive Verwaltung von Daten können Sie Speicherkosten senken, die Datenqualität verbessern und dafür sorgen, dass Ihre ML-Modelle mit den relevantesten und wertvollsten Daten trainiert werden.

Beachten Sie die folgenden Empfehlungen, um Verfahren für die Datenverwaltung und ‑steuerung zu implementieren.

Data-Governance-Framework einrichten und einführen

Die zunehmende Bedeutung von KI und ML hat Daten zum wertvollsten Asset für Unternehmen gemacht, die sich in der digitalen Transformation befinden. Ein robustes Framework für Data Governance ist eine entscheidende Voraussetzung für die kostengünstige Verwaltung von KI- und ML-Arbeitslasten in großem Maßstab. Ein Data-Governance-Framework mit klar definierten Richtlinien, Verfahren und Rollen bietet einen strukturierten Ansatz für die Verwaltung von Daten während ihres gesamten Lebenszyklus. Ein solches Framework trägt dazu bei, die Datenqualität zu verbessern, die Sicherheit zu erhöhen, die Nutzung zu optimieren und Redundanz zu reduzieren.

Data-Governance-Framework einrichten

Es gibt viele bestehende Frameworks für die Data Governance, z. B. die vom EDM Council veröffentlichten Frameworks, mit Optionen für verschiedene Branchen und Unternehmensgrößen. Wählen Sie ein Framework aus, das Ihren spezifischen Anforderungen und Prioritäten entspricht, und passen Sie es an.

Data Governance-Framework implementieren

Google Cloud bietet die folgenden Dienste und Tools, mit denen Sie ein robustes Data-Governance-Framework implementieren können:

Knowledge Catalog ist eine intelligente Datenstruktur, mit der Sie verteilte Daten vereinheitlichen und die Daten-Governance automatisieren können, ohne Datasets an einem Ort zusammenführen zu müssen. So können Sie die Kosten für die Verteilung und Wartung von Daten senken, die Datenermittlung erleichtern und die Wiederverwendung fördern.
- Verwenden Sie zum Organisieren von Daten Knowledge Catalog-Abstraktionen und richten Sie logische Data Lakes und Zonen ein.
- Verwenden Sie Google Groups und Knowledge Catalog-Rollen, um den Zugriff auf Data Lakes und Zonen zu verwalten.
- Um Datenqualitätsprozesse zu optimieren, aktivieren Sie die automatische Datenqualität.
Knowledge Catalog ist ebenfalls ein vollständig verwalteter und skalierbarer Dienst zur Metadatenverwaltung. Der Katalog bildet die Grundlage dafür, dass Daten-Assets zugänglich und wiederverwendbar sind.
- Metadaten aus den unterstützten Google Cloud Quellen werden automatisch in den Universal Catalog aufgenommen. Für Datenquellen außerhalb von Google Cloudbenutzerdefinierte Einträge erstellen.
- Um die Auffindbarkeit und Verwaltung von Daten-Assets zu verbessern, können Sie technische Metadaten mit geschäftlichen Metadaten anreichern, indem Sie Aspekte verwenden.
- Achten Sie darauf, dass Data Scientists und ML-Experten über ausreichende Berechtigungen verfügen, um auf Knowledge Catalog zuzugreifen und die Suchfunktion zu verwenden.
Mit BigQuery Sharing können Sie Daten-Assets effizient und sicher organisationsübergreifend austauschen, um Herausforderungen in Bezug auf Datenzuverlässigkeit und Kosten zu bewältigen.
- Richten Sie Datenaustausche ein und sorgen Sie dafür, dass kuratierte Daten-Assets als Einträge angezeigt werden können.
- Mit Data-Clean-Rooms können Sie den Zugriff auf sensible Daten sicher verwalten und effizient mit externen Teams und Organisationen an KI- und ML-Projekten zusammenarbeiten.
- Sorgen Sie dafür, dass Data Scientists und ML-Experten über ausreichende Berechtigungen verfügen, um Datasets in BigQuery-Freigaben anzusehen und zu veröffentlichen.

Datasets und Features im gesamten ML-Lebenszyklus wiederverwenden

Wenn Sie Datasets und Features in mehreren ML-Projekten wiederverwenden, können Sie die Effizienz und Kostenvorteile erheblich steigern. Wenn Sie redundante Data-Engineering- und Feature-Entwicklungsarbeiten vermeiden, kann Ihre Organisation die Modellentwicklung beschleunigen, die Infrastrukturkosten senken und wertvolle Ressourcen für andere wichtige Aufgaben freisetzen.

Google Cloud bietet die folgenden Dienste und Tools, mit denen Sie Datasets und Funktionen wiederverwenden können:

Daten- und ML-Experten können Datenprodukte veröffentlichen, um die Wiederverwendung durch Teams zu maximieren. Die Datenprodukte können dann über Knowledge Catalog und die BigQuery-Freigabe gefunden und verwendet werden.
Für tabellarische und strukturierte Datasets können Sie den Agent Platform Feature Store verwenden, um die Wiederverwendbarkeit zu fördern und die Feature-Verwaltung über BigQuery zu optimieren.
Sie können unstrukturierte Daten in Cloud Storage speichern und die Daten mithilfe von BigQuery-Objekttabellen und signierten URLs verwalten.
Sie können Vektoreinbettungen verwalten, indem Sie Metadaten in Ihre Vektorsuchindexe aufnehmen.

Mit MLOps automatisieren und optimieren

Ein wesentlicher Vorteil der Einführung von MLOps-Verfahren ist die Senkung der Kosten für Technologie und Personal. Durch die Automatisierung können Sie die Duplizierung von ML-Aktivitäten vermeiden und die Arbeitsbelastung von Data Scientists und ML-Entwicklern verringern.

Wenn Sie die ML-Entwicklung mit MLOps automatisieren und optimieren möchten, sollten Sie die folgenden Empfehlungen berücksichtigen.

Datenerhebung und ‑verarbeitung automatisieren und standardisieren

Um den Aufwand und die Zeit für die ML-Entwicklung zu verringern, sollten Sie Ihre Technologien für die Datenerhebung und -verarbeitung automatisieren und standardisieren.

Datenerhebung und ‑verarbeitung automatisieren

In diesem Abschnitt werden die Produkte, Tools und Techniken zusammengefasst, die Sie verwenden können, um die Datenerhebung und ‑verarbeitung zu automatisieren.

Relevante Datenquellen für Ihre KI- und ML-Aufgaben identifizieren und auswählen:

Datenbankoptionen wie Cloud SQL, Spanner, AlloyDB for PostgreSQL, Firestore und BigQuery. Ihre Wahl hängt von Ihren Anforderungen ab, z. B. von der Latenz beim Schreibzugriff (statisch oder dynamisch), dem Datenvolumen (hoch oder niedrig) und dem Datenformat (strukturiert, unstrukturiert oder semistrukturiert). Weitere Informationen finden Sie unter Google Cloud -Datenbanken.
Data Lakes wie Cloud Storage mit BigLake.
Knowledge Catalog zum Verwalten von Daten aus verschiedenen Quellen.
Plattformen für Streamingereignisse wie Pub/Sub, Dataflow oder Apache Kafka.
Externe APIs

Wählen Sie für jede Ihrer Datenquellen ein Erfassungstool aus:

Dataflow: Für die Batch- und Streamverarbeitung von Daten aus verschiedenen Quellen mit Integration von ML-Komponenten. Für eine ereignisgesteuerte Architektur können Sie Dataflow mit Eventarc kombinieren, um Daten für ML effizient zu verarbeiten. Um MLOps und die Effizienz von ML-Jobs zu verbessern, sollten Sie GPUs und die Funktion zum Anpassen der Größe verwenden.
Cloud Run-Funktionen: Für die ereignisgesteuerte Datenaufnahme, die durch Änderungen in Datenquellen für Echtzeitanwendungen ausgelöst wird.
BigQuery: Für die Aufnahme klassischer tabellarischer Daten mit häufigem Zugriff.

Tools für die Datentransformation und das Laden von Daten auswählen:

Mit Tools wie Dataflow oder Dataform können Sie Datentransformationen wie die Skalierung von Features, die Codierung kategorischer Variablen und die Erstellung neuer Features im Batch-, Streaming- oder Echtzeitmodus automatisieren. Die von Ihnen ausgewählten Tools hängen von Ihren Anforderungen und den ausgewählten Diensten ab.
Verwenden Sie den Feature Store, um die Erstellung und Verwaltung von Features zu automatisieren. Sie können Features zentralisieren, um sie in verschiedenen Modellen und Projekten wiederzuverwenden.

Datenerhebung und ‑verarbeitung standardisieren

Verwenden Sie Metadatenverwaltungsdienste wie Knowledge Catalog, um Datenassets zu ermitteln, zu analysieren und zu verwalten. So können Sie Datendefinitionen standardisieren und für Konsistenz in Ihrem Unternehmen sorgen.

Um die Standardisierung zu erzwingen und die Kosten für die Wartung mehrerer benutzerdefinierter Implementierungen zu vermeiden, sollten Sie automatisierte Trainingspipelines und Orchestrierung verwenden. Weitere Informationen finden Sie im nächsten Abschnitt.

Trainingspipelines automatisieren und vorhandene Assets wiederverwenden

Um die Effizienz und Produktivität von MLOps zu steigern, sind automatisierte Trainingspipelines unerlässlich. Google Cloud bietet eine robuste Reihe von Tools und Diensten zum Erstellen und Bereitstellen von Trainingspipelines, wobei der Schwerpunkt auf der Wiederverwendung vorhandener Assets liegt. Automatisierte Trainingspipelines beschleunigen die Modellentwicklung, sorgen für Konsistenz und reduzieren unnötigen Aufwand.

Trainingspipelines automatisieren

In der folgenden Tabelle werden die Google Cloud Dienste und ‑Funktionen beschrieben, mit denen Sie die verschiedenen Funktionen einer Trainingspipeline automatisieren können.

Funktion	Google Cloud -Dienste und ‑Funktionen
Orchestrierung: Definieren Sie komplexe ML-Workflows, die aus mehreren Schritten und Abhängigkeiten bestehen. Sie können jeden Schritt als separate containerisierte Aufgabe definieren, was die Verwaltung und Skalierung einzelner Aufgaben erleichtert.	Verwenden Sie Agent Platform-Pipelines oder Kubeflow Pipelines, um Pipelines zu erstellen und zu orchestrieren. Diese Tools unterstützen einfache Datentransformationen, Modelltraining, Modellbereitstellung und Pipeline-Versionsverwaltung. Sie ermöglichen es Ihnen, Abhängigkeiten zwischen Schritten zu definieren, den Datenfluss zu verwalten und die Ausführung des gesamten Workflows zu automatisieren. Für komplexe operative Aufgaben mit hohen CI/CD- und ETL-Anforderungen (Extrahieren, Transformieren und Laden) verwenden Sie Managed Service for Apache Airflow. Wenn Sie Airflow für die Datenorchestrierung bevorzugen, ist Managed Service for Apache Airflow ein kompatibler verwalteter Dienst, der auf Airflow basiert. Verwenden Sie für Pipelines, die außerhalb von Agent Platform Pipelines verwaltet werden, Workflows für infrastrukturbezogene Aufgaben wie das Starten und Stoppen von VMs oder die Integration in externe Systeme. Um Ihren CI/CD-Prozess zu automatisieren, verwenden Sie Cloud Build mit Pub/Sub. Sie können Benachrichtigungen und automatische Trigger einrichten, wenn neuer Code per Push-Befehl übertragen wird oder wenn ein neues Modell trainiert werden muss. Wenn Sie eine vollständig verwaltete, skalierbare Lösung für die Pipelineverwaltung benötigen, verwenden Sie Cloud Data Fusion.
Versionsverwaltung: Sie können verschiedene Versionen von Pipelines und Komponenten nachverfolgen und verwalten, um Reproduzierbarkeit und Prüfbarkeit zu gewährleisten.	Speichern Sie Kubeflow-Pipeline-Vorlagen in einem Kubeflow Pipelines-Repository in Artifact Registry.
Wiederverwendbarkeit: Vorhandene Pipelinekomponenten und Artefakte wie vorbereitete Datasets und trainierte Modelle wiederverwenden, um die Entwicklung zu beschleunigen.	Speichern Sie Ihre Pipelinevorlagen in Cloud Storage und geben Sie sie für Ihre Organisation frei.
Monitoring: Überwachen Sie die Pipeline-Ausführung, um Probleme zu erkennen und zu beheben.	Verwenden Sie Cloud Logging und Cloud Monitoring. Weitere Informationen finden Sie unter Ressourcen kontinuierlich mit Dashboards, Benachrichtigungen und Berichten überwachen.

Wiederverwendbarkeit über Pipelines hinaus erweitern

Suchen Sie nach Möglichkeiten, die Wiederverwendbarkeit über Trainingspipelines hinaus zu erweitern. Im Folgenden finden Sie Beispiele für Google Cloud Funktionen, mit denen Sie ML-Features, Datasets, Modelle und Code wiederverwenden können.

Feature Store bietet ein zentrales Repository zum Organisieren, Speichern und Bereitstellen von ML-Features. So können Sie Funktionen in verschiedenen Projekten und Modellen wiederverwenden, was die Konsistenz verbessern und den Aufwand für das Feature Engineering verringern kann. Sie können Funktionen für Online- und Offline-Anwendungsfälle speichern, freigeben und darauf zugreifen.
Mit Agent Platform-Datasets können Teams Datasets zentral erstellen und verwalten. So kann Ihre Organisation die Wiederverwendbarkeit maximieren und Datenduplizierung reduzieren. Ihre Teams können die Datasets mit Knowledge Catalog suchen und ermitteln.
Mit Model Registry auf der Gemini Enterprise Agent Platform können Sie Ihre trainierten Modelle speichern, verwalten und bereitstellen. Mit Model Registry können Sie die Modelle in nachfolgenden Pipelines oder für die Onlinevorhersage wiederverwenden. So können Sie die Ergebnisse früherer Trainings nutzen.
Mit benutzerdefinierten Containern können Sie Ihren Trainingscode und Ihre Abhängigkeiten in Containern verpacken und die Container in Artifact Registry speichern. Mit benutzerdefinierten Containern können Sie konsistente und reproduzierbare Trainingsumgebungen für verschiedene Pipelines und Projekte bereitstellen.

Google Cloud -Dienste für die Modellbewertung und ‑optimierung verwenden

Google Cloud bietet eine leistungsstarke Suite von Tools und Diensten, mit denen sich die Modellevaluierung und -optimierung optimieren und automatisieren lassen. Mit diesen Tools und Diensten können Sie die Zeit bis zur Produktion verkürzen und die für kontinuierliches Training und Monitoring erforderlichen Ressourcen reduzieren. Durch die Verwendung dieser Dienste können Ihre KI- und ML-Teams die Modellleistung mit weniger kostspieligen Iterationen verbessern, schneller Ergebnisse erzielen und verschwendete Rechenressourcen minimieren.

Ressourceneffiziente Modellbewertung und ‑tests

Beginnen Sie ein KI-Projekt mit Tests, bevor Sie Ihre Lösung skalieren. Erfassen Sie in Ihren Experimenten verschiedene Metadaten wie Dataset-Version, Modellparameter und Modelltyp. Um die Ergebnisse besser reproduzieren und vergleichen zu können, sollten Sie zusätzlich zur Codeversionsverwaltung auch Metadaten erfassen, ähnlich wie in Git. Damit keine Informationen fehlen oder die falsche Version in der Produktion bereitgestellt wird, sollten Sie Experimente auf der Gemini Enterprise Agent Platform verwenden, bevor Sie Bereitstellungs- oder Trainingsjobs im großen Maßstab implementieren.

Mit Tests auf der Agent Platform können Sie Folgendes tun:

Metadaten lassen sich über eine nutzerfreundliche UI und API für produktionsreife Arbeitslasten einfacher erfassen und auffinden.
Analysieren Sie die Leistungsmesswerte des Modells und vergleichen Sie die Messwerte verschiedener Modelle.

Nachdem das Modell trainiert wurde, sollten Sie die Leistung und den Daten-Drift im Laufe der Zeit für eingehende Daten kontinuierlich überwachen. Um diesen Prozess zu optimieren, können Sie Model Monitoring auf der Gemini Enterprise Agent Platform verwenden, um direkt auf die erstellten Modelle in der Model Registry zuzugreifen. Model Monitoring auf der Agent Platform automatisiert auch das Monitoring von Daten und Ergebnissen durch Online- und Batchvorhersagen. Sie können die Ergebnisse zur weiteren Analyse und zum Tracking nach BigQuery exportieren.

Optimale Strategien zur Automatisierung des Trainings auswählen

Für die Hyperparameter-Abstimmung empfehlen wir die folgenden Ansätze:

Um die Suche nach den optimalen Hyperparametern für Ihre Modelle zu automatisieren, verwenden Sie die Hyperparameter-Abstimmung der Agent Platform. Die Agent Platform verwendet fortschrittliche Algorithmen, um den Hyperparameterbereich zu untersuchen und die beste Konfiguration zu ermitteln.
Für eine effiziente Hyperparameter-Abstimmung sollten Sie Bayes-Optimierung in Betracht ziehen, insbesondere bei komplexen Modellen und großen Datasets.

Für verteiltes Training empfehlen wir die folgenden Ansätze:

Verwenden Sie für große Datasets und komplexe Modelle die Infrastruktur für verteiltes Training der Agent Platform. Mit diesem Ansatz können Sie Ihre Modelle auf mehreren Maschinen trainieren, was die Trainingszeit und die damit verbundenen Kosten erheblich reduziert. Verwenden Sie Tools wie die folgenden:
- Agent Platform-Optimierung für die überwachte Feinabstimmung von Gemini, Imagen und anderen Modellen.
- Agent Platform Managed Training oder Ray on Gemini Enterprise Agent Platform für benutzerdefiniertes verteiltes Training.
Wählen Sie optimierte ML-Frameworks wie Keras und PyTorch aus, die verteiltes Training und eine effiziente Ressourcennutzung unterstützen.

Explainable AI verwenden

Es ist wichtig zu verstehen, warum ein Modell bestimmte Entscheidungen trifft, und potenzielle Vorurteile oder Bereiche mit Verbesserungspotenzial zu identifizieren. Mit Vertex Explainable AI können Sie Informationen zu den Vorhersagen Ihres Modells erhalten. Vertex Explainable AI bietet eine Möglichkeit, featurebasierte und beispielbasierte Erläuterungen zu automatisieren, die mit Ihren Agent Platform-Tests verknüpft sind.

Funktionsbasiert: Wenn Sie wissen möchten, welche Funktionen die Vorhersagen Ihres Modells am meisten beeinflussen, analysieren Sie die Feature-Attributionen. Dieses Wissen kann die Entwicklung von Funktionen unterstützen und die Interpretierbarkeit des Modells verbessern.
Beispielbasiert: Um eine Liste von Beispielen (in der Regel aus dem Trainings-Dataset) zurückzugeben, die der Eingabe am ähnlichsten sind, verwendet die Agent Platform die Suche des nächsten Nachbarn. Da ähnliche Eingaben in der Regel ähnliche Vorhersagen liefern, können Sie diese Erläuterungen nutzen, um das Verhalten eines Modells zu untersuchen und zu erklären.

Verwaltete Dienste und vortrainierte Modelle verwenden

Wählen Sie einen inkrementellen Ansatz für die Modellauswahl und ‑entwicklung. So vermeiden Sie übermäßige Kosten, die mit einem Neuanfang jedes Mal verbunden sind. Um die Kosten zu kontrollieren, sollten Sie ML-Frameworks, verwaltete Dienste und vortrainierte Modelle verwenden.

Wenn Sie den maximalen Nutzen aus verwalteten Diensten und vortrainierten Modellen ziehen möchten, sollten Sie die folgenden Empfehlungen berücksichtigen.

Notebooks für Analysen und Tests verwenden

Notebook-Umgebungen sind für kostengünstige ML-Tests unerlässlich. Ein Notebook bietet Data Scientists und Ingenieuren einen interaktiven und kollaborativen Bereich, in dem sie Daten untersuchen, Modelle entwickeln, Wissen austauschen und effizient iterieren können. Die Zusammenarbeit und der Wissensaustausch über Notebooks beschleunigen die Entwicklung, die Code-Überprüfung und den Wissenstransfer erheblich. Notebooks helfen, Arbeitsabläufe zu optimieren und Doppelarbeit zu vermeiden.

Anstatt teure Hardware für Ihre Entwicklungsumgebung zu beschaffen und zu verwalten, können Sie die skalierbare On-Demand-Infrastruktur von Gemini Enterprise Agent Platform Workbench und Colab Enterprise nutzen.

Agent Platform Workbench ist eine Jupyter-Notebook-Entwicklungsumgebung für den gesamten Data-Science-Workflow. Sie können über das Jupyter-Notebook einer Instanz mit der Agent Platform und anderen Google Cloud-Diensten interagieren. Mit den Integrationen und Funktionen der Agent Platform Workbench können Sie Folgendes tun:
- Mit BigQuery- und Cloud Storage-Integrationen in einem Jupyter-Notebook auf Ihre Daten zugreifen.
- Wiederkehrende Aktualisierungen eines Modells mithilfe geplanter Ausführungen von Code automatisieren, der auf der Agent Platform ausgeführt wird.
- Daten schnell durch Ausführen eines Notebooks in einem Managed Service for Apache Spark-Cluster verarbeiten.
- Mit Agent Platform Pipelines ein Notebook als Schritt in einer Pipeline ausführen.
Colab Enterprise ist eine kollaborative, verwaltete Notebook-Umgebung mit den Sicherheits- und Compliance-Funktionen von Google Cloud. Colab Enterprise ist ideal, wenn die Prioritäten Ihres Projekts in der gemeinsamen Entwicklung und der Reduzierung des Aufwands für die Verwaltung der Infrastruktur liegen. Colab Enterprise ist inGoogle Cloud -Dienste und KI-basierte Unterstützung mit Gemini integriert. Mit Colab Enterprise haben Sie folgende Möglichkeiten:
- Sie können in Notebooks arbeiten, ohne die Infrastruktur verwalten zu müssen.
- Sie können ein Notebook für einen einzelnen Nutzer, eine Google-Gruppe oder eine Google Workspace-Domain freigeben. Sie können den Notebook-Zugriff über IAM (Identity and Access Management) steuern.
- Interaktion mit Funktionen, die in die Agent Platform und BigQuery integriert sind.

Wenn Sie Änderungen nachverfolgen und bei Bedarf zu früheren Versionen zurückkehren möchten, können Sie Ihre Notebooks in Versionsverwaltungstools wie Git einbinden.

Mit vorhandenen und vortrainierten Modellen beginnen

Das Trainieren komplexer Modelle von Grund auf, insbesondere von Deep-Learning-Modellen, erfordert erhebliche Rechenressourcen und Zeit. Um die Modellauswahl und den Entwicklungsprozess zu beschleunigen, sollten Sie mit vorhandenen und vortrainierten Modellen beginnen. Diese Modelle, die mit riesigen Datasets trainiert werden, machen es überflüssig, Modelle von Grund auf neu zu trainieren. Dadurch werden Kosten und Entwicklungszeit erheblich reduziert.

Kosten für Schulung und Entwicklung senken

Wählen Sie für jede ML-Aufgabe ein geeignetes Modell oder eine geeignete API aus und kombinieren Sie sie, um einen End-to-End-ML-Entwicklungsprozess zu erstellen.

Model Garden bietet eine große Sammlung vortrainierter Modelle für Aufgaben wie Bildklassifizierung, Objekterkennung und Verarbeitung natürlicher Sprache. Die Modelle sind in die folgenden Kategorien unterteilt:

Google-Modelle wie die Gemini-Modellfamilie und Imagen für die Bildgenerierung.
Offene Modelle wie Gemma und Llama.
Drittanbietermodelle von Partnern wie Anthropic.

Google Cloud bietet KI- und ML-APIs, mit denen Entwickler leistungsstarke KI-Funktionen in Anwendungen einbinden können, ohne Modelle von Grund auf neu erstellen zu müssen.

Mit der Cloud Vision API können Sie Informationen aus Bildern gewinnen. Diese API ist für Anwendungen wie Bildanalyse, Inhaltsmoderation und automatische Dateneingabe nützlich.
Mit der Cloud Natural Language API können Sie Text analysieren, um seine Struktur und Bedeutung zu verstehen. Diese API ist nützlich für Aufgaben wie die Analyse von Kundenfeedback, die Kategorisierung von Inhalten und das Erkennen von Trends in sozialen Medien.
Die Speech-to-Text API wandelt Audio in Text um. Diese API unterstützt eine Vielzahl von Sprachen und Dialekten.
Die Video Intelligence API analysiert Videoinhalte, um Objekte, Szenen und Aktionen zu erkennen. Verwenden Sie diese API für die Analyse von Videoinhalten, die Inhaltsmoderation und die Videosuche.
Die Document AI API verarbeitet Dokumente, um Daten zu extrahieren, zu klassifizieren und zu analysieren. Mit dieser API können Sie Workflows zur Dokumentverarbeitung automatisieren.
Mit der Dialogflow API lassen sich dialogorientierte Schnittstellen wie Chatbots und Sprachassistenten erstellen. Sie können diese API verwenden, um Kundenservice-Bots und virtuelle Assistenten zu erstellen.
Die Gemini API bietet Zugriff auf das leistungsstärkste und universell einsetzbare KI-Modell von Google.

Kosten für die Optimierung reduzieren

Um den Bedarf an umfangreichen Daten und Rechenzeit zu verringern, können Sie Ihre vortrainierten Modelle mit bestimmten Datasets abstimmen. Wir empfehlen die folgenden Vorgehensweisen:

Lerntransfer: Verwenden Sie das Wissen aus einem vortrainierten Modell für eine neue Aufgabe, anstatt von Grund auf neu zu beginnen. Dieser Ansatz erfordert weniger Daten und Rechenzeit, was zur Kostensenkung beiträgt.
Adapterabstimmung (parametereffiziente Abstimmung): Modelle an neue Aufgaben oder Domains anpassen, ohne eine vollständige Feinabstimmung durchzuführen. Dieser Ansatz erfordert deutlich weniger Rechenressourcen und einen kleineren Datensatz.
Überwachte Feinabstimmung: Das Modellverhalten wird mit einem mit Labels versehenen Dataset angepasst. Dieser Ansatz vereinfacht die Verwaltung der zugrunde liegenden Infrastruktur und den Entwicklungsaufwand, der für einen benutzerdefinierten Trainingsjob erforderlich ist.

Agent Studio auf der Gemini Enterprise Agent Platform ausprobieren

Mit Agent Studio können Sie generative KI-Anwendungen schnell testen, Prototypen erstellen und bereitstellen.

Integration mit Model Garden: Bietet schnellen Zugriff auf die neuesten Modelle und ermöglicht es Ihnen, die Modelle effizient bereitzustellen, um Zeit und Kosten zu sparen.
Einheitlicher Zugriff auf spezialisierte Modelle: Der Zugriff auf eine Vielzahl von vortrainierten Modellen und APIs wird konsolidiert, darunter Modelle und APIs für Chat, Text, Medien, Übersetzung und Sprache. Dieser einheitliche Zugriff kann Ihnen helfen, die Zeit zu verkürzen, die Sie für die Suche nach und die Integration einzelner Dienste benötigen.

Verwaltete Dienste zum Trainieren oder Bereitstellen von Modellen verwenden

Verwaltete Dienste können die Kosten für das Modelltraining senken und die Infrastrukturverwaltung vereinfachen. So können Sie sich auf die Entwicklung und Optimierung von Modellen konzentrieren. Dieser Ansatz kann zu erheblichen Kostenvorteilen und einer höheren Effizienz führen.

Operativen Aufwand reduzieren

Um die Komplexität und die Kosten der Infrastrukturverwaltung zu reduzieren, können Sie verwaltete Dienste wie die folgenden verwenden:

Agent Platform Managed Training bietet eine vollständig verwaltete Umgebung für das Training Ihrer Modelle in großem Umfang. Sie können aus verschiedenen vordefinierten Containern mit beliebten ML-Frameworks auswählen oder Ihre eigenen benutzerdefinierten Container verwenden. Google Cloud übernimmt die Bereitstellung, Skalierung und Wartung der Infrastruktur, sodass Sie weniger Betriebsaufwand haben.
Agent Platform Inference übernimmt die Infrastrukturskalierung, das Load-Balancing und das Anfragerouting. Sie profitieren von Hochverfügbarkeit und Leistung ohne manuellen Eingriff.
Ray on Gemini Enterprise Agent Platform bietet einen vollständig verwalteten Ray-Cluster. Sie können den Cluster verwenden, um komplexe benutzerdefinierte KI-Arbeitslasten auszuführen, die viele Berechnungen durchführen (Hyperparameter-Optimierung, Modell-Feinabstimmung, verteiltes Modelltraining und bestärkendes Lernen durch menschliches Feedback), ohne dass Sie Ihre eigene Infrastruktur verwalten müssen.

Verwaltete Dienste zur Optimierung der Ressourcennutzung verwenden

Weitere Informationen zur effizienten Ressourcennutzung finden Sie unter Ressourcennutzung optimieren.

Beitragende

Autor*innen:

Isaac Lo | AI Business Development Manager
Anastasia Prokaeva | Field Solutions Architect, Generative AI
Amy Southwood | Technical Solutions Consultant, Data Analytics & AI

Weitere Beitragende:

Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
Kumar Dhanagopal | Cross-Product Solution Developer
Marwan Al Shawi | Partner Customer Engineer
Nicolas Pintaux | Customer Engineer, Application Modernization Specialist

KI und ML: Kostenoptimierung Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.