KI-Anwendungsfälle in Cloud Run

Ganz gleich, ob Sie Agenten erstellen, Inferenzmodelle ausführen oder verschiedene KI-Dienste einbinden – Cloud Run bietet die Skalierbarkeit, Flexibilität und Benutzerfreundlichkeit, die Sie benötigen, um Ihre KI-Innovationen zu realisieren.

Auf dieser Seite werden einige allgemeine Anwendungsfälle für das Hosten, Erstellen und Bereitstellen von KI-Arbeitslasten in Cloud Run beschrieben.

Warum Cloud Run für KI-Arbeitslasten verwenden?

Cloud Run bietet mehrere Vorteile, um sicherzustellen, dass Ihre KI-Anwendungen skalierbar, flexibel und verwaltbar sind. Einige Highlights:

  • Flexible Containerunterstützung: Sie können Ihre App und ihre Abhängigkeiten in einem Container verpacken oder eine beliebige unterstützte Sprache, Bibliothek oder ein beliebiges Framework verwenden. Weitere Informationen zum Containerlaufzeitvertrag von Cloud Run
  • HTTP-Endpunkt: Nach der Bereitstellung eines Cloud Run-Dienstes erhalten Sie einen vorkonfigurierten sicheren Cloud Run-URL-Endpunkt. Cloud Run unterstützt Streaming durch die Unterstützung von HTTP-Chunked-Transfercodierung, HTTP/2 und WebSockets.
  • Automatische oder manuelle Skalierung: Standardmäßig skaliert Cloud Run Ihren Dienst automatisch je nach Bedarf, auch auf null. So zahlen Sie nur für das, was Sie nutzen. Das ist ideal für unvorhersehbare KI-Arbeitslasten. Sie können Ihren Dienst auch auf manuelle Skalierung einstellen, je nach Traffic und CPU-Auslastung.
  • GPU-Unterstützung: Beschleunigen Sie Ihre KI-Modelle, indem Sie Cloud Run-Ressourcen mit GPUs konfigurieren. Cloud Run-Dienste mit aktivierten GPUs können zur Kostensenkung auf null skaliert werden, wenn sie nicht verwendet werden.

  • Integriertes Ökosystem: Sie können nahtlos Verbindungen zu anderen Google Cloud -Diensten wie Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB for PostgreSQL, Cloud CDN, Secret Manager und benutzerdefinierten Domains herstellen, um umfassende End-to-End-KI-Pipelines zu erstellen. Google Cloud Observability bietet außerdem integrierte Monitoring- und Logging-Tools, mit denen Sie die Anwendungsleistung nachvollziehen und Probleme effektiv beheben können.

  • Für Unternehmen geeignet: Cloud Run bietet direkte VPC-Verbindungen, detaillierte Sicherheits- und Netzwerksteuerungen.

Wichtige KI-Anwendungsfälle

Hier sind einige Möglichkeiten, wie Sie Cloud Run für Ihre KI-Anwendungen nutzen können:

KI-Agenten und ‑Bots hosten

Cloud Run ist eine ideale Plattform für das Hosting der Backend-Logik für KI-Agents, Chatbots und virtuelle Assistenten. Diese Agents können Aufrufe an KI-Modelle wie Gemini in Vertex AI orchestrieren, den Status verwalten und in verschiedene Tools und APIs eingebunden werden.

  • Mikrodienste für Agents: Stellen Sie einzelne Agent-Funktionen als separate Cloud Run-Dienste bereit. Weitere Informationen finden Sie unter KI-Agents hosten.
  • Agent2Agent-Kommunikation (A2A): Mit dem A2A-Protokoll können Sie kollaborative Agentensysteme erstellen. Weitere Informationen finden Sie unter A2A-Agents hosten.
  • MCP-Server (Model Context Protocol): Implementieren Sie MCP-Server, um LLMs standardisierten Kontext aus Ihren Tools und Datenquellen bereitzustellen. Weitere Informationen finden Sie unter MCP-Server hosten.

KI‑/ML-Modelle für die Inferenz bereitstellen

Stellen Sie Ihre trainierten Modelle für maschinelles Lernen als skalierbare HTTP-Endpunkte bereit.

  • Echtzeitinferenz: Vorhersagen aus Modellen bereitstellen, die mit Frameworks wie TensorFlow, PyTorch oder scikit-learn oder mit offenen Modellen wie Gemma erstellt wurden. Ein Beispiel finden Sie unter Gemma 3 in Cloud Run ausführen.
  • GPU-Beschleunigung: Verwenden Sie NVIDIA-GPUs, um die Inferenz für anspruchsvollere Modelle zu beschleunigen. Weitere Informationen finden Sie unter GPU für Dienste konfigurieren.
  • In Vertex AI einbinden: Stellen Sie Modelle bereit, die in Vertex AI trainiert oder bereitgestellt wurden, und verwenden Sie Cloud Run als skalierbares Frontend.
  • Große Modelldateien von Ihrem Container entkoppeln: Mit dem Cloud Storage FUSE-Adapter können Sie einen Cloud Storage-Bucket bereitstellen und als lokales Verzeichnis in Ihrem Cloud Run-Container darauf zugreifen.

RAG-Systeme (Retrieval-Augmented Generation) erstellen

Erstellen Sie RAG-Anwendungen, indem Sie Cloud Run-Dienste mit Ihren Datenquellen verbinden.

  • Vektordatenbanken: Stellen Sie eine Verbindung zu Vektordatenbanken her, die in Cloud SQL (mit pgvector), AlloyDB for PostgreSQL, Memorystore for Redis oder anderen spezialisierten Vektorspeichern gehostet werden, um relevanten Kontext für Ihre LLMs abzurufen. Beispiel für eine Infrastruktur für das Hosting einer RAG-fähigen generativen KI-Anwendung mit Cloud Run und die Datenverarbeitung mit Vertex AI und Vector Search.
  • Datenzugriff: Daten aus Cloud Storage, BigQuery, Firestore oder anderen APIs abrufen, um Prompts zu optimieren.

KI-gestützte APIs und Backends hosten

APIs und Mikrodienste mit integrierten KI-Funktionen erstellen

  • Smarte APIs: Entwickeln Sie APIs, die LLMs für das Verständnis natürlicher Sprache, die Sentimentanalyse, die Übersetzung, die Zusammenfassung usw. verwenden.
  • Automatisierte Workflows: Erstellen Sie Dienste, die KI-basierte Aktionen basierend auf Ereignissen oder Anfragen auslösen.

Prototypen erstellen und Ideen testen

Schnelle Iteration von KI-Ideen

  • Schnelle Bereitstellung: Prototypen lassen sich schnell aus Umgebungen wie Vertex AI Studio, Google AI Studio oder Jupyter-Notebooks in skalierbare Bereitstellungen in Cloud Run verschieben. Dazu ist nur eine minimale Konfiguration erforderlich.
  • Traffic-Aufteilung: Verwenden Sie die Traffic-Aufteilungsfunktion von Cloud Run, um verschiedene Modelle, Prompts oder Konfigurationen per A/B-Test zu testen, und Google Cloud Observability, um Messwerte (Latenz, Fehlerrate, Kosten) zu überwachen und den Erfolg von A/B-Tests zu messen.

Nächste Schritte

Je nachdem, wie vertraut Sie mit KI-Konzepten sind und welchen KI-Anwendungsfall Sie haben, können Sie sich die Cloud Run-KI-Ressourcen ansehen.